跳转至

博客文章

您好,很高兴认识你 👋我是 KenForever1 能同途偶遇在这星球上,探索、记录、享受…🎶🐧😆

2026 AI的一些笔记

vLLM、SGLang、vLLM-Omni 与 TensorRT-LLM:大模型推理框架架构与优化启示

摘要

大模型推理框架的竞争,已经不只是“谁的 attention kernel 更快”,而是围绕 调度、KV cache、批处理、跨阶段解耦、硬件编译优化 展开的系统工程竞争。

本文从推理框架优化从业者视角,对比 vLLM、SGLang、vLLM-Omni、TensorRT-LLM 的架构、核心调度方法、数据流和特殊设计,并总结它们对推理系统优化的启示。

MATE 实现解析:MUSA 平台上的 GenAI 算子兼容层与高性能内核库

MATE,全称 MUSA AI Tensor Engine,是摩尔线程为 MUSA 平台构建的一套生成式 AI 算子库。它的目标不是重新发明一套全新的上层 API,而是尽量兼容 CUDA 生态中已经被广泛使用的接口,例如 flash_attn_3sageattentionflash_mladeep_gemm,同时把底层执行替换为 MUSA 原生 kernel。

TensorRT-Edge-LLM Mamba 实现深度解析

本文结合 cpp/runtime/mambaCacheManager.hcpp/plugins/mamba/mambaPlugin.h,以及项目中 Python 导出、ONNX custom op、TensorRT plugin、C++ Runtime cache 管理等链路,系统说明 TensorRT-Edge-LLM 中 Mamba 的设计与实现。

🎵 Keyonica

Key + Harmonica = Keyonica — 用键盘演奏口琴,让音乐触手可及!

周末拿出尘封已久的口琴,发现很多谱子不熟悉,早晨太早或者晚上太晚练习可能影响邻居,而且有时候不想动嘴!就产生了这个Rust 键盘口琴, 利用计算机键盘模拟口琴的演奏体验,支持多键并发,具备低延迟的音频响应能力。帮助你享受音乐、记谱子、无聊的时候放松一下。

一款基于 Rust 开发的口琴模拟器,支持键盘实时演奏、和弦演奏、移调功能,并内置自动演示曲目。无论你是音乐爱好者还是编程学习者,都能在这里找到乐趣!