Flash Attention—获斯坦福首届开源软件奖

添加书签

AIGC开放社区
2024-05-24

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

5月23日，TogetherAI在官网宣布，由其首席科学家TriDao、学术合伙人DanFu、AI顾问StefanoErmon等联合发明的FlashAttention，获得斯坦福首届开源软件奖。

本次参与评选的开源项目一共超过75个，FlashAttention能获得认可主要是因为，该项目对大模型领域做出了重要贡献，可极大提升Transformer架构的训练和推理效率。

FlashAttention是一种对注意力计算进行重新排序的算法，利用经典技术（平铺、重新计算）大大加快了计算效率，并将内存使用量从序列长度的二次方降低到线性。

平铺意味着开发人员可将输入块从HBM（GPU内存）加载到SRAM（快速缓存），针对该输入块执行注意力计算，并更新HBM中的输出。

通过不把大型中间注意力矩阵写入HBM，以减少了内存读/写的数量，从而带来2-4倍的挂壁时间加速。

随后，TogetherAI在FlashAttention基础之上开发了第二代，将大模型的训练和微调速度提高了4倍，并在NVIDIAA100上的训练中实现了72%的模型FLOP利用率。

其核心注意力的效率提高了2倍，端到端训练Transformer的效率提高了1.3倍，这可以帮助企业、开发者节省上百万美元的预训练成本。

论文地址：https://arxiv.org/abs/2205.14135

开源地址：https://github.com/Dao-AILab/flash-attention

本文素材来源TogetherAI官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动