vllm¶

2026年6月25日
分类于 vllm
需要 3 分钟阅读时间

vLLM-Omni Prefix Cache 设计与优化笔记

在 vLLM-Omni 里，prefix cache 不只是一个“复用 KV cache”的性能优化点。它更像是在 vLLM 原生 KV prefix cache 旁边，为 Omni 多模态流水线补上的一层语义张量缓存：KV cache 解决 attention 计算复用，Omni prefix cache 则解决下游 stage 或后处理仍然需要完整 hidden states、多模态输出时的数据恢复问题。