跳转至

llm

MPI是什么?有哪些集体通信操作以及在TensorRT LLM中应用

MPI介绍

MPI(Message Passing Interface,消息传递接口)是一种‌并行计算的通信标准‌,主要用于在分布式内存系统中实现多进程间的数据交换和协同计算。它是高性能计算(HPC)领域的核心工具之一,尤其适用于超级计算机和集群环境。MPI是独立于硬件和编程语言的规范,主流实现(如OpenMPI、MPICH)支持C/C++、Fortran等语言,可在Linux、Windows等系统运行。

使用Pytorch从零构建Llama3大模型–深入了解输出模块以及训练推理

(本文主要内容译自build-your-own-llama-3-architecture-from-scratch-using-pytorch

朋友们,书接上文,上一篇的Llama3还没有分享完,接着分享输出模块(Output Block)和训练、推理。

Output Block

最终Decode Block的解码器(decoder)输出将输入到Output Block中。首先,它被输入到 RMSNorm 中。然后,它将被输入到线性层中用于生成logits。

接下来,会发生以下两种操作之一。