2026¶
vLLM、SGLang、vLLM-Omni 与 TensorRT-LLM:大模型推理框架架构与优化启示
摘要
大模型推理框架的竞争,已经不只是“谁的 attention kernel 更快”,而是围绕 调度、KV cache、批处理、跨阶段解耦、硬件编译优化 展开的系统工程竞争。
本文从推理框架优化从业者视角,对比 vLLM、SGLang、vLLM-Omni、TensorRT-LLM 的架构、核心调度方法、数据流和特殊设计,并总结它们对推理系统优化的启示。
MATE 实现解析:MUSA 平台上的 GenAI 算子兼容层与高性能内核库
MATE,全称 MUSA AI Tensor Engine,是摩尔线程为 MUSA 平台构建的一套生成式 AI 算子库。它的目标不是重新发明一套全新的上层 API,而是尽量兼容 CUDA 生态中已经被广泛使用的接口,例如 flash_attn_3、sageattention、flash_mla 和 deep_gemm,同时把底层执行替换为 MUSA 原生 kernel。
TensorRT-Edge-LLM Mamba 实现深度解析
本文结合 cpp/runtime/mambaCacheManager.h、cpp/plugins/mamba/mambaPlugin.h,以及项目中 Python 导出、ONNX custom op、TensorRT plugin、C++ Runtime cache 管理等链路,系统说明 TensorRT-Edge-LLM 中 Mamba 的设计与实现。
MIT 经典讲座:How to Speak - Patrick Winston
Patrick Winston 教授每年一月都会在 MIT 举办这场讲座,致力于帮助学生和研究人员提高表达和沟通能力。他认为,沟通能力是你一生成功与否的关键因素之一。
视频链接: https://www.youtube.com/watch?v=Unzc731iCUY
讲者: Patrick Winston (1943-2019), MIT 教授,曾任人工智能实验室主任。