搞懂flash_attention
本文记录了学习flash_attention遇到的一些好的文章,帮助你搞懂flash_attention。
我们知道现在的LLM大模型主流是基于attention搭建的,attention的计算效率也决定了生产场景中大模型的可用性。flash_attention目前有三个版本,分别是flash_attention和flash_attention2和flash_attention3,它们的目的都是采取一系列的优化手段,提高attention的计算效率。
本文记录了学习flash_attention遇到的一些好的文章,帮助你搞懂flash_attention。
我们知道现在的LLM大模型主流是基于attention搭建的,attention的计算效率也决定了生产场景中大模型的可用性。flash_attention目前有三个版本,分别是flash_attention和flash_attention2和flash_attention3,它们的目的都是采取一系列的优化手段,提高attention的计算效率。
quickcheck 是一个非常强大的工具!quickcheck 是一个基于属性测试(Property-based Testing)的 Rust 库,灵感来自于 Haskell 的 QuickCheck 库。它的核心思想是通过自动生成大量随机输入来测试代码的属性,而不是手动编写具体的测试用例。
前面我们讲解了PIMPL技法,现在又来一个Fast PIMPL,这又是什么东东!从字面意思猜,这肯定是PIMPL的升级版改进版勒,肯定解决了一些PIMPL技法存在的问题。
恭喜你,答对了!!!
bvar是百度开源贡献给Apache的多线程环境下的计数器库。 通过它可以统计计数器、最大值、最小值、windows一段时间累加、除以秒数就是每秒,还有时延、分位值等等。
我每天早上都会打开Github的Trendings板块,了解最新的动态,我相信这是个还不错的习惯。遇到感兴趣的项目我会打开看看源码,学习一下大佬们的写法和实现。
修改github.com/xxx/yyy链接为github1s.com/xxx/yyy,就可以在浏览器打开vscode类似界面阅读代码了。
今天分享的是quill,一个异步低延迟的高效日志库实现。
c++ std::sort函数是经常被使用到的,但是不知道大家注意没有,定义的Compare函数是需要满足一定条件的。这个条件就是:strict weak ordering。
Tracy是最近了解到的一个性能分析工具,有一些特性值得关注:开源免费、实时分析、纳秒级精度、跨平台支持(Linux、Win、Macos)、功能丰富CPU、MEM、GPU等、集成方便。
在C++开发中,包括游戏领域一帧一帧分析、推理中每次推理耗时分析、多个线程中关联同一个Context等。目前还在学习中,先简单介绍一下基础使用。
软件监控在现代系统中扮演着至关重要的角色,无论是问题排查还是性能优化,都离不开对metrics、logs和traces的有效监控。本文将深入分析Tritonserver如何实现metrics数据的收集与管理,帮助你理解其内部机制并掌握相关技术细节。