LLM推理¶

2025年5月10日
分类于 LLM推理
需要 2 分钟阅读时间

LLM推理：采用投机采样加速推理[译]

推测解码

关于投机采样是什么这里就不赘述了，参考这篇大佬的文章大模型推理妙招—投机采样（Speculative Decoding）,解释的很清晰。

vllm框架对投机采样（Speculative Decoding）进行了支持, 见spec_decode。

投机采样也可以翻译为推测解码，我觉得推测解码会更加容易理解一些，下文采用推测解码。

推测解码是一种推理优化技术，它在生成当前Token的同时，对未来的Token进行有根据的猜测，这一切都在一次前向传播中完成。它融入了一种验证机制，以确保这些推测出的Token的正确性，从而保证推测解码的整体输出与普通解码的输出相同。优化大语言模型（LLMs）的推理成本，可以说是降低生成式人工智能成本并提高其应用率的最关键因素之一。为了实现这一目标，有各种推理优化技术可用，包括自定义内核、输入请求的动态批处理以及大型模型的量化。

2025年2月20日
分类于 LLM推理
需要 3 分钟阅读时间

LLM中Agents实现调研

最简单的Agent元素构成

根据Tiny Agent实现一个最简单的Agent需要如下必须的元素：

2025年2月17日
分类于 LLM推理
需要 4 分钟阅读时间

sherpa-onnx库TTS语言合成模型推理过程

2024年12月17日
分类于 LLM推理
需要 7 分钟阅读时间

lmdeploy推理do_sample崩溃问题

采用server方式推理一个模型，会崩溃。

采用pipeline方式推理一个模型，不会崩溃。

不管是server还是pipeline，都调用了同样的generate()方法，但是为什么会产生不同的结果？传递的参数不同。

2024年12月17日
分类于 LLM推理
需要 2 分钟阅读时间

sglang推理使用之环境配置

本文记录了sglang推理使用之环境配置。

2024年12月9日
分类于 LLM推理
需要 2 分钟阅读时间

GPU的pin_memory是什么？

gpu的pin_memory

pin_memory就是在RAM上固定了一块内存，这个内存范围是被锁住的。pin这个单词很形象，很像rust中pin含义，用钉子把钉住，这个内存就不会释放，是安全的意思。GPU在传递数据的时候，就可以用DMA的方式，高效传输数据。否则，普通的cpu_memory，就会swap掉，然后访问的时候缺页中断，这样速度肯定就慢了很多。

2024年12月9日
分类于 LLM推理
需要 3 分钟阅读时间

LLM推理：tp和head_num有什么关系

根据一个报错信息，引入了一个head_num和tensor_para_size的关系。

2024年12月9日
分类于 LLM推理
需要 2 分钟阅读时间

LLM推理：量化算法杂记

2024年12月9日
分类于 LLM推理
需要 3 分钟阅读时间

text-generation-inference推理框架剖析

今天要介绍的主题是TGI（text-generation-inference），是huggingface开源可用于生产环境的LLM大模型的推理部署服务。

由Router和Engine构成，Engine包括了InferServer。Router由Rust实现，InferServer由python端实现。Router相当于一个代理，面向业务会启动一个WebServer，包括对业务请求采用合适的策略进行动态Batch调整，实现大的吞吐和低的延迟。 Engine对各种LLM大语言模型进行支持，启动模型推理服务。 Router和Engine之间通过Protobuf定义消息和格式，通过GRPC方式就可以对推理服务进行访问。