vLLM-Omni Prefix Cache 设计与优化笔记
在 vLLM-Omni 里,prefix cache 不只是一个“复用 KV cache”的性能优化点。它更像是在 vLLM 原生 KV prefix cache 旁边,为 Omni 多模态流水线补上的一层语义张量缓存:KV cache 解决 attention 计算复用,Omni prefix cache 则解决下游 stage 或后处理仍然需要完整 hidden states、多模态输出时的数据恢复问题。
在 vLLM-Omni 里,prefix cache 不只是一个“复用 KV cache”的性能优化点。它更像是在 vLLM 原生 KV prefix cache 旁边,为 Omni 多模态流水线补上的一层语义张量缓存:KV cache 解决 attention 计算复用,Omni prefix cache 则解决下游 stage 或后处理仍然需要完整 hidden states、多模态输出时的数据恢复问题。