跳转至

2026

2026 AI的一些笔记

vLLM、SGLang、vLLM-Omni 与 TensorRT-LLM:大模型推理框架架构与优化启示

摘要

大模型推理框架的竞争,已经不只是“谁的 attention kernel 更快”,而是围绕 调度、KV cache、批处理、跨阶段解耦、硬件编译优化 展开的系统工程竞争。

本文从推理框架优化从业者视角,对比 vLLM、SGLang、vLLM-Omni、TensorRT-LLM 的架构、核心调度方法、数据流和特殊设计,并总结它们对推理系统优化的启示。

MATE 实现解析:MUSA 平台上的 GenAI 算子兼容层与高性能内核库

MATE,全称 MUSA AI Tensor Engine,是摩尔线程为 MUSA 平台构建的一套生成式 AI 算子库。它的目标不是重新发明一套全新的上层 API,而是尽量兼容 CUDA 生态中已经被广泛使用的接口,例如 flash_attn_3sageattentionflash_mladeep_gemm,同时把底层执行替换为 MUSA 原生 kernel。

TensorRT-Edge-LLM Mamba 实现深度解析

本文结合 cpp/runtime/mambaCacheManager.hcpp/plugins/mamba/mambaPlugin.h,以及项目中 Python 导出、ONNX custom op、TensorRT plugin、C++ Runtime cache 管理等链路,系统说明 TensorRT-Edge-LLM 中 Mamba 的设计与实现。