博客文章¶
您好,很高兴认识你 👋我是 KenForever1
能同途偶遇在这星球上,探索、记录、享受…🎶🐧😆
关于阅读源码的一点心得
朋友们,阅读优秀的源码可以学到很多,例如代码的结构组织、设计模式、为了解决一些问题特殊处理、写法技巧、优化策略等,同时也扩展了对编程语言的熟悉程度、关于这个项目的解决问题思路。
VLLM推理框架中的sleep_mode如何实现
vllm sleep_model 简介
前文torch_memory_saver 高性能 CUDA 内存管理工具实现,介绍了 sglang 中利用了该库将保存 kv_cache 和权重的显存释放出来。
在 VLLM 中也有同样的功能实现,在 VLLM 中的直接应用是“sleep mode”。将模型权重从显存(或者 NPU 内存中)卸载,并丢弃其中的 KV 缓存。
优雅开发篇:git worktree并行分支开发,及一个测量二进程膨胀的rust工具应用
git worktree 是什么?
Git Worktree 是 Git 提供的一个强大功能,允许你在同一个仓库中创建多个独立的工作目录,每个目录可以关联不同的分支(或者 commit),从而实现并行开发而无需频繁切换分支或依赖 git stash 暂存代码 。
C++技法:模板元编程编译期获取类成员数量
C++反射中,有个必要的就是需要获取一个类的成员个数,然后就可以根据个数,将类的成员通过std::tie转换成tuple。继而可以实现equal、hash、serialize等功能。