LLM推理¶

Tracy纳米级性能Profiler工具，手动插桩、可视化分析

Tracy是最近了解到的一个性能分析工具，有一些特性值得关注：开源免费、实时分析、纳秒级精度、跨平台支持（Linux、Win、Macos）、功能丰富CPU、MEM、GPU等、集成方便。

在C++开发中，包括游戏领域一帧一帧分析、推理中每次推理耗时分析、多个线程中关联同一个Context等。目前还在学习中，先简单介绍一下基础使用。

软件监控在现代系统中扮演着至关重要的角色，无论是问题排查还是性能优化，都离不开对metrics、logs和traces的有效监控。本文将深入分析Tritonserver如何实现metrics数据的收集与管理，帮助你理解其内部机制并掌握相关技术细节。

本文主要介绍了tritonserver中trace的实现，我们知道日志、metric和trace是常用的监控手段，可以用来分析问题、评估性能。tritonserver中的trace主要基于opentelemetry实现。

torch_memory_saver是一个开源的高性能CUDA内存管理工具，主要功能是允许暂停和恢复PyTorch张量的CUDA内存占用。保持用户使用的虚拟地址不变，暂停后释放显存，恢复重新分配显存，绑定到虚拟地址上。

本文会介绍核心原理，以及拦截CUDA runtime API的实现。你还可以看到如何实现一个python c++扩展。在sglang大模型推理库中也有使用到这个torch_memory_saver库。

实现DeepSeek NextN推测解码。通过forward_batch.spec_info.hidden_states获取推测解码的隐藏状态使用eh_proj合并当前和推测的隐藏状态支持分布式并行计算(通过enable_dp_attention标志)

SpecDecodeWorker + Proposers (ngram, draft model) + Scorer (top-1 scoring) + Verifier (rejection sampling)