跳转至

KenForever1

llm

llm¶

2025年4月13日
分类于 llm
需要 3 分钟阅读时间

MPI是什么？有哪些集体通信操作以及在TensorRT LLM中应用

MPI介绍

MPI（Message Passing Interface，消息传递接口）是一种‌并行计算的通信标准‌，主要用于在分布式内存系统中实现多进程间的数据交换和协同计算。它是高性能计算（HPC）领域的核心工具之一，尤其适用于超级计算机和集群环境。MPI是独立于硬件和编程语言的规范，主流实现（如OpenMPI、MPICH）支持C/C++、Fortran等语言，可在Linux、Windows等系统运行。

2025年4月6日
分类于 llm
需要 5 分钟阅读时间

如何实现paged_attention–基于flash-attention的PagedAttention内核实现缓存管理器

类似linux操作系统管理内存的机制，paged_attention用于管理LLM推理时kv cache的显存分配，通过页表机制，优化显存分配，减少碎片。

2025年3月25日
分类于 llm
需要 8 分钟阅读时间

使用Pytorch从零构建Llama3大模型–深入了解输出模块以及训练推理

（本文主要内容译自build-your-own-llama-3-architecture-from-scratch-using-pytorch）

朋友们，书接上文，上一篇的Llama3还没有分享完，接着分享输出模块（Output Block）和训练、推理。

Output Block

最终Decode Block的解码器（decoder）输出将输入到Output Block中。首先，它被输入到 RMSNorm 中。然后，它将被输入到线性层中用于生成logits。

接下来，会发生以下两种操作之一。

2025年3月24日
分类于 llm
需要 4 分钟阅读时间

使用Pytorch从零构建Llama3大模型–深入了解LLaMa3模型的每个组件

（本文主要内容译自build-your-own-llama-3-architecture-from-scratch-using-pytorch）

先看一下LLama3模型结构，这个是译文作者根据LLama3论文画的，画得很好。图中包括了训练和推理的流程。

2025年3月22日
分类于 llm
需要 12 分钟阅读时间

使用Pytorch从零构建Llama3大模型–组件实现代码

如何实现Input Block