2026¶

2026年12月30日
分类于 AI notes
需要 1 分钟阅读时间

2026 AI的一些笔记

2026年6月25日
分类于 vllm
需要 3 分钟阅读时间

vLLM-Omni Prefix Cache 设计与优化笔记

在 vLLM-Omni 里，prefix cache 不只是一个“复用 KV cache”的性能优化点。它更像是在 vLLM 原生 KV prefix cache 旁边，为 Omni 多模态流水线补上的一层语义张量缓存：KV cache 解决 attention 计算复用，Omni prefix cache 则解决下游 stage 或后处理仍然需要完整 hidden states、多模态输出时的数据恢复问题。

2026年6月10日
分类于 llm
需要 9 分钟阅读时间

stable-diffusion.cpp适配 MiniT2I

背景

MiniT2I 是一个轻量级文生图模型。和 stable-diffusion.cpp 里常见的 SD1.x / SDXL U-Net 模型不同，MiniT2I 的核心不是多尺度卷积 U-Net，而是一个 DiT / MM-DiT 风格的图文联合 Transformer。

2026年6月10日
分类于 llm
需要 7 分钟阅读时间

vLLM、SGLang、vLLM-Omni 与 TensorRT-LLM：大模型推理框架架构与优化启示

摘要

大模型推理框架的竞争，已经不只是“谁的 attention kernel 更快”，而是围绕 调度、KV cache、批处理、跨阶段解耦、硬件编译优化 展开的系统工程竞争。

本文从推理框架优化从业者视角，对比 vLLM、SGLang、vLLM-Omni、TensorRT-LLM 的架构、核心调度方法、数据流和特殊设计，并总结它们对推理系统优化的启示。

2026年5月15日
分类于 LLM推理
需要 6 分钟阅读时间

MATE 实现解析：MUSA 平台上的 GenAI 算子兼容层与高性能内核库

MATE，全称 MUSA AI Tensor Engine，是摩尔线程为 MUSA 平台构建的一套生成式 AI 算子库。它的目标不是重新发明一套全新的上层 API，而是尽量兼容 CUDA 生态中已经被广泛使用的接口，例如 flash_attn_3、sageattention、flash_mla 和 deep_gemm，同时把底层执行替换为 MUSA 原生 kernel。

2026年5月10日
分类于 LLM推理
需要 9 分钟阅读时间

TensorRT-Edge-LLM Mamba 实现深度解析

本文结合 cpp/runtime/mambaCacheManager.h、cpp/plugins/mamba/mambaPlugin.h，以及项目中 Python 导出、ONNX custom op、TensorRT plugin、C++ Runtime cache 管理等链路，系统说明 TensorRT-Edge-LLM 中 Mamba 的设计与实现。

2026年5月1日
分类于 LLM推理
需要 18 分钟阅读时间

DeepSeek-V4 HCA & CSA 深度理解分析

2026年5月1日
分类于 llm
需要 6 分钟阅读时间

MoE Marlin 计算流程示例

本文用一个小例子说明 Int4MoePlugin 中 MoE Marlin 路径的完整计算过程，包括：router topK、expert 重排、padding、Marlin Gate/Up GEMM、SwiGLU、Marlin Down GEMM、slot 聚合。

2026年1月10日
分类于 course
需要 2 分钟阅读时间

MIT 经典讲座：How to Speak - Patrick Winston

Patrick Winston 教授每年一月都会在 MIT 举办这场讲座，致力于帮助学生和研究人员提高表达和沟通能力。他认为，沟通能力是你一生成功与否的关键因素之一。

视频链接: https://www.youtube.com/watch?v=Unzc731iCUY

讲者: Patrick Winston (1943-2019), MIT 教授，曾任人工智能实验室主任。

📚 相关文章推荐