跳转至

KenForever1

博客文章

博客文章¶

2025年11月23日
分类于杂谈
需要 2 分钟阅读时间

塔珀（Tutter）自指公式是什么？

Tutter公式并不高深莫测

今天，学习Tracy的时候介绍例程讲到了这个公式，当时很迷糊，觉得这个公式高深莫测。然后查阅资料学习了一下原理，分享记录一下。

2025年9月1日
分类于 cpp
需要 15 分钟阅读时间

探索ggml的实现

2025年8月24日
分类于 cpp
需要 9 分钟阅读时间

bitnet中int2和int8的使用

2025年7月6日
分类于 LLM推理
需要 4 分钟阅读时间

VLLM推理框架中的sleep_mode如何实现

vllm sleep_model 简介

前文torch_memory_saver 高性能 CUDA 内存管理工具实现，介绍了 sglang 中利用了该库将保存 kv_cache 和权重的显存释放出来。

在 VLLM 中也有同样的功能实现，在 VLLM 中的直接应用是“sleep mode”。将模型权重从显存（或者 NPU 内存中）卸载，并丢弃其中的 KV 缓存。

2025年6月2日
分类于 cpp
需要 3 分钟阅读时间

brpc中的profile实现

brpc的cpu profile

使用了gperftools库。

2025年4月13日
分类于 cpp
需要 2 分钟阅读时间

C++技法：iguana序列化库中如何实现enum reflection反射

我们知道通过反射可以在运行时获取类名、类型等一些信息，然而c++语言本身没有提供类似java这种反射机制。在阅读iguana开源库时，看到了一种EnumRefection的实现，分享给大家。

iguana 是C++17 实现的header only、跨平台、高性能易用的序列化库，包括xml/json/yaml 的序列化和反序列化。

2025年3月22日
分类于 cpp
需要 3 分钟阅读时间

c++从一次静态库链接引发的double free聊起

从一个例子说起

在这个例子中，我们将创建一个可执行程序 A，它使用动态链接库 C，而 C 本身又依赖于另一个动态链接库 D。

库 C 和 D 都链接了库 E，其中库 E 包含一个使用 extern 声明和实现的 const std::string 全局变量。

2025年3月22日
分类于 cpp
需要 2 分钟阅读时间

cpp开发中一些编译选项的用处，以及如何用cmake设置

如何控制静态库和动态库链接行为

你在编译开发一个项目时，有遇到过指定了链接库，但是运行时，却报错：未定义某个符号吗？undefined xxx。

在开发中遇到的xxx报错，是经过mangle了的，不方便看，可以采用c++filt工具查看原始符号，命令： c++filt xxx 。

2025年3月4日
分类于 LLM推理
需要 3 分钟阅读时间

DeepSeek-R1和FP8混合精度训练以及FP8量化实现

DeepSeek-R1 和 FP8 混合精度训练(译)

(本小节译自deepseek-r1-and-fp8-mixed-precision-training)

深度探索（DeepSeek）发布了其推理模型深度探索-R1（DeepSeek-R1），震惊了世界。与 OpenAI 的 o1 和Google Gemini的Flash Thinking类似，R1 模型旨在通过在响应提示之前生成一条“思维链”来提高回复质量。R1 引起的兴奋源于它在包括数学、编码以及英语和中文语言理解等几个行业标准基准测试中与 o1 达到同等水平，同时它也是开源的，并且可以通过深度探索 API 以极低的成本获得。

2025年2月23日
分类于 LLM推理
需要 4 分钟阅读时间

DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略

这篇文章探讨了 DeepSeek 模型中与专家混合（MoE）相关的另一个关键架构突破：辅助无损负载均衡策略。在本文中，我们将深入探讨 DeepSeek 如何解决 MoE 的隐藏瓶颈——负载均衡——同时消除梯度干扰并保留因果关系，为基于专家的模型的效率设定新标准。

背景

首先介绍专家混合（Mixture-of-Experts，MoE）的基础知识，解释为什么负载平衡很重要，并回顾以前的工作，包括辅助损失方法（auxiliary loss methods）和专家选择（Expert Choice）。