博客文章¶
vLLM、SGLang、vLLM-Omni 与 TensorRT-LLM:大模型推理框架架构与优化启示
摘要
大模型推理框架的竞争,已经不只是“谁的 attention kernel 更快”,而是围绕 调度、KV cache、批处理、跨阶段解耦、硬件编译优化 展开的系统工程竞争。
本文从推理框架优化从业者视角,对比 vLLM、SGLang、vLLM-Omni、TensorRT-LLM 的架构、核心调度方法、数据流和特殊设计,并总结它们对推理系统优化的启示。
MATE 实现解析:MUSA 平台上的 GenAI 算子兼容层与高性能内核库
MATE,全称 MUSA AI Tensor Engine,是摩尔线程为 MUSA 平台构建的一套生成式 AI 算子库。它的目标不是重新发明一套全新的上层 API,而是尽量兼容 CUDA 生态中已经被广泛使用的接口,例如 flash_attn_3、sageattention、flash_mla 和 deep_gemm,同时把底层执行替换为 MUSA 原生 kernel。
TensorRT-Edge-LLM Mamba 实现深度解析
本文结合 cpp/runtime/mambaCacheManager.h、cpp/plugins/mamba/mambaPlugin.h,以及项目中 Python 导出、ONNX custom op、TensorRT plugin、C++ Runtime cache 管理等链路,系统说明 TensorRT-Edge-LLM 中 Mamba 的设计与实现。
MIT 经典讲座:How to Speak - Patrick Winston
Patrick Winston 教授每年一月都会在 MIT 举办这场讲座,致力于帮助学生和研究人员提高表达和沟通能力。他认为,沟通能力是你一生成功与否的关键因素之一。
视频链接: https://www.youtube.com/watch?v=Unzc731iCUY
讲者: Patrick Winston (1943-2019), MIT 教授,曾任人工智能实验室主任。
🎵 Keyonica
Key + Harmonica = Keyonica — 用键盘演奏口琴,让音乐触手可及!
周末拿出尘封已久的口琴,发现很多谱子不熟悉,早晨太早或者晚上太晚练习可能影响邻居,而且有时候不想动嘴!就产生了这个Rust 键盘口琴, 利用计算机键盘模拟口琴的演奏体验,支持多键并发,具备低延迟的音频响应能力。帮助你享受音乐、记谱子、无聊的时候放松一下。
一款基于 Rust 开发的口琴模拟器,支持键盘实时演奏、和弦演奏、移调功能,并内置自动演示曲目。无论你是音乐爱好者还是编程学习者,都能在这里找到乐趣!
![]()
塔珀(Tutter)自指公式是什么?
Tutter公式并不高深莫测
今天,学习Tracy的时候介绍例程讲到了这个公式,当时很迷糊,觉得这个公式高深莫测。然后查阅资料学习了一下原理,分享记录一下。