跳转至

LLM推理

Tracy纳米级性能Profiler工具,手动插桩、可视化分析

Tracy是最近了解到的一个性能分析工具,有一些特性值得关注:开源免费、实时分析、纳秒级精度、跨平台支持(Linux、Win、Macos)、功能丰富CPU、MEM、GPU等、集成方便。

在C++开发中,包括游戏领域一帧一帧分析、推理中每次推理耗时分析、多个线程中关联同一个Context等。目前还在学习中,先简单介绍一下基础使用。

Tritonserver中metric使用源代码分析

软件监控在现代系统中扮演着至关重要的角色,无论是问题排查还是性能优化,都离不开对metrics、logs和traces的有效监控。本文将深入分析Tritonserver如何实现metrics数据的收集与管理,帮助你理解其内部机制并掌握相关技术细节。

Tritonserver中trace使用源代码分析

本文主要介绍了tritonserver中trace的实现,我们知道日志、metric和trace是常用的监控手段,可以用来分析问题、评估性能。tritonserver中的trace主要基于opentelemetry实现。

torch_memory_saver高性能CUDA内存管理工具实现

torch_memory_saver是一个开源的高性能CUDA内存管理工具,主要功能是允许暂停和恢复PyTorch张量的CUDA内存占用。保持用户使用的虚拟地址不变,暂停后释放显存,恢复重新分配显存,绑定到虚拟地址上。

本文会介绍核心原理,以及拦截CUDA runtime API的实现。你还可以看到如何实现一个python c++扩展。在sglang大模型推理库中也有使用到这个torch_memory_saver库。