Gemma 4 模型架构解析
本文基于 vLLM-Kunlun 项目中 Gemma 4 模型的适配实践,剖析其架构创新点、适配难点、Paged Attention 机制。
目录
- Gemma 4 架构全景
- 十大适配挑战与解决方案
- 深度解析:PLE 每层嵌入
- 深度解析:YOCO KV 共享
- 深度解析:Reasoning 推理通道
- vLLM Paged Attention 设计原理
1. Gemma 4 架构全景
1.1 与其他模型的对比
| 特性 | Llama 3 | Gemma 2 | Gemma 3n | Gemma 4 |
|---|---|---|---|---|
| 注意力类型 | 统一 global | 统一 global | 混合 sliding/global | 混合 sliding/global |
| 注意力头维度 | 统一 | 统一 | 统一 | sliding 和 global 不同 |
| MoE | 无 | 无 | 无 | 有(可选) |
| 每层嵌入 | 无 | 无 | 有(硬+软) | 有(简化 2 层设计) |
| KV 共享 | 无 | 无 | 有(YOCO) | 有(YOCO) |
| k_eq_v | 无 | 无 | 无 | 有(laptop 变体) |
| 多模态 | 无 | 无 | 有 | 有(视觉+音频+视频) |
| RoPE 类型 | 标准 | 标准 | 标准 | 比例式(proportional) |
1.2 核心架构图
┌─────────────────────────────────────────────────────────────────┐
│ Gemma4ForConditionalGeneration │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────────────┐ │
│ │ Vision │ │ Audio │ │ Language Model │ │
│ │ Tower │ │ Tower │ │ (vLLM Optimized) │ │
│ │ (SigLIP) │ │ (Whisper) │ │ │ │
│ └──────┬───────┘ └──────┬───────┘ │ ┌────────────────┐ │ │
│ │ │ │ │ SelfDecoder │ │ │
│ ┌──────┴─────────────────┴───────┐ │ │ Layers 0..K-1 │ │ │
│ │ Multimodal Embedder │ │ │ (有独立 K/V) │ │ │
│ │ Linear + RMSNorm(no weight) │ │ └───────┬────────┘ │ │
│ └──────────────┬─────────────────┘ │ │ PLE │ │
│ │ │ ┌───────┴────────┐ │ │
│ ▼ │ │ CrossDecoder │ │ │
│ inputs_embeds │ │ Layers K..N-1 │ │ │
│ │ │ (共享前面 K/V) │ │ │
│ │ └────────────────┘ │ │
│ └──────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘