博客文章¶

2025年2月23日
分类于 LLM推理
需要 4 分钟阅读时间

DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略

这篇文章探讨了 DeepSeek 模型中与专家混合（MoE）相关的另一个关键架构突破：辅助无损负载均衡策略。在本文中，我们将深入探讨 DeepSeek 如何解决 MoE 的隐藏瓶颈——负载均衡——同时消除梯度干扰并保留因果关系，为基于专家的模型的效率设定新标准。

背景

首先介绍专家混合（Mixture-of-Experts，MoE）的基础知识，解释为什么负载平衡很重要，并回顾以前的工作，包括辅助损失方法（auxiliary loss methods）和专家选择（Expert Choice）。

2025年2月22日
分类于 LLM推理
需要 7 分钟阅读时间

CUTLASS库中的尾声融合(Epilogue Fusion)和Epilogue Visitor Trees

CUTLASS库中的尾声融合(Epilogue Fusion)和尾声访问树(Epilogue Visitor Trees)

GEMM 在 NVIDIA GPU 上的高性能实现分为两个阶段：mainloop和epilogue。

mainloop：负责实际 GEMM 计算的部分
epilogue：其中进行了后处理（例如，元素激活、缩放）和数据存储

这篇文章中，我们将研究 CUTLASS 的尾声融合(epilogue fusion)方案。EVT在论文Epilogue Visitor Tree (EVT)中。

2025年2月17日
分类于 LLM推理
需要 5 分钟阅读时间

DeepSeek-V3_DeepSeekMoE机制是什么？

今天我们一起来阅读一篇文章deepseek-v3-explained-2-deepseekmoe，文章通过巧妙的例子生动讲解了DeepSeekMoE机制的原理。DeepSeekMoE是DeepSeek模型中的另一个关键架构创新。

将解释 Mixture-of-Experts （MoE）的工作原理，是什么让它在 LLM 中如此受欢迎以及它面临的挑战。我们还将讨论专家专业化与知识共享之间的权衡，以及 DeepSeekMoE 如何设计以取得更好的权衡。为了使这些概念更直观，文章通过餐厅做菜选择厨师的例子，来类比分解它们，通过厨师在厨房中的角色来说明 MoE 中的每个元素。

2025年2月16日
分类于 LLM推理
需要 5 分钟阅读时间

一文搞懂DeepSeek-V3_MLA注意力机制

DeepSeek-V3：多头潜在注意力(MLA)

MLA是DeepSeek-V2 和 DeepSeek-V3 背后的关键架构创新，可实现更快的推理。

DeepSeek-V3 的主要架构创新，包括 MLA（多头潜在注意力）、DeepSeekMoE、辅助无损负载均衡（auxiliary-loss-free load balancing）和多标记预测训练（multi-token prediction training）。

本文讲解的MLA技术，在 DeepSeek-V2 的开发中被提出，后来也被用于 DeepSeek-V3 中。

2025年2月16日
分类于 LLM推理
需要 1 分钟阅读时间

搞懂flash_attention

本文记录了学习flash_attention遇到的一些好的文章，帮助你搞懂flash_attention。

我们知道现在的LLM大模型主流是基于attention搭建的，attention的计算效率也决定了生产场景中大模型的可用性。flash_attention目前有三个版本，分别是flash_attention和flash_attention2和flash_attention3，它们的目的都是采取一系列的优化手段，提高attention的计算效率。

2025年2月3日
分类于 cpp
需要 2 分钟阅读时间

C++常见陷阱：一个例子了解const使用

一个例子了解：cpp 常量常见陷阱

下面通过这个例子，一起了解一下 cpp 常量使用的常见陷阱。

2025年1月1日
分类于 cpp
需要 3 分钟阅读时间

C++20如何实现一个基于属性测试的quickcheck-cpp库

quickcheck 是一个非常强大的工具！quickcheck 是一个基于属性测试（Property-based Testing）的 Rust 库，灵感来自于 Haskell 的 QuickCheck 库。它的核心思想是通过自动生成大量随机输入来测试代码的属性，而不是手动编写具体的测试用例。

2025年1月1日
分类于 cpp
需要 2 分钟阅读时间

C++开发技法：用PIMPL模式彻底隐藏类实现，编译速度飞升

什么是PIMPL技法？

2025年1月1日
分类于 cpp
需要 3 分钟阅读时间

Fast PIMPL 又是什么技法？

前面我们讲解了PIMPL技法，现在又来一个Fast PIMPL，这又是什么东东！从字面意思猜，这肯定是PIMPL的升级版改进版勒，肯定解决了一些PIMPL技法存在的问题。

恭喜你，答对了！！！

2024年11月23日
分类于 cpp, 高性能多线程
需要 6 分钟阅读时间

bvar如何实现高性能多线程统计计数器

bvar是什么？

bvar是百度开源贡献给Apache的多线程环境下的计数器库。通过它可以统计计数器、最大值、最小值、windows一段时间累加、除以秒数就是每秒，还有时延、分位值等等。