跳转至

2025

一文搞懂DeepSeek-V3_MLA注意力机制

DeepSeek-V3:多头潜在注意力(MLA)

MLA是DeepSeek-V2 和 DeepSeek-V3 背后的关键架构创新,可实现更快的推理。

DeepSeek-V3 的主要架构创新,包括 MLA(多头潜在注意力)、DeepSeekMoE、辅助无损负载均衡(auxiliary-loss-free load balancing)和多标记预测训练(multi-token prediction training)。

本文讲解的MLA技术,在 DeepSeek-V2 的开发中被提出,后来也被用于 DeepSeek-V3 中。

搞懂flash_attention

本文记录了学习flash_attention遇到的一些好的文章,帮助你搞懂flash_attention。

我们知道现在的LLM大模型主流是基于attention搭建的,attention的计算效率也决定了生产场景中大模型的可用性。flash_attention目前有三个版本,分别是flash_attention和flash_attention2和flash_attention3,它们的目的都是采取一系列的优化手段,提高attention的计算效率。

zip压缩格式为什么是从后往前开始解析的?

通过对ZIP 文件格式的学习,就有了足够的信息能够逐字节手动读取和写入 ZIP 文件,知道为什么zip压缩格式为什么是从后往前开始解析的。

ZIP 文件结构概述

ZIP 文件由多个头部组成,包括本地文件头、中央目录文件头和中央目录结束记录。每个头部由签名和头部数据组成。

python如何分发dev环境以及如何安装本地whl包

在平时的开发工作中,如果你要把python环境打包给对方,你会怎么做呢? 分两种情况: (1)对方只需要很多whl的安装文件,你给对方写个脚本运行安装,只要确保安装的是你提供的目录下的就可以了。 (2)把python运行环境包括解释器,比如3.8、3.10这些版本和whl都需要打包给对方。

编写脚本,打包whl文件

先看看,给对方的install.sh文件中有哪些内容? 用本地的pip配置文件,配置文件中指定了使用本地的pip源