Flash Attention—获斯坦福首届开源软件奖
添加书签专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
5月23日,TogetherAI在官网宣布,由其首席科学家TriDao、学术合伙人DanFu、AI顾问StefanoErmon等联合发明的FlashAttention,获得斯坦福首届开源软件奖。
本次参与评选的开源项目一共超过75个,FlashAttention能获得认可主要是因为,该项目对大模型领域做出了重要贡献,可极大提升Transformer架构的训练和推理效率。
FlashAttention是一种对注意力计算进行重新排序的算法,利用经典技术(平铺、重新计算)大大加快了计算效率,并将内存使用量从序列长度的二次方降低到线性。
平铺意味着开发人员可将输入块从HBM(GPU内存)加载到SRAM(快速缓存),针对该输入块执行注意力计算,并更新HBM中的输出。
通过不把大型中间注意力矩阵写入HBM,以减少了内存读/写的数量,从而带来2-4倍的挂壁时间加速。
随后,TogetherAI在FlashAttention基础之上开发了第二代,将大模型的训练和微调速度提高了4倍,并在NVIDIAA100上的训练中实现了72%的模型FLOP利用率。
其核心注意力的效率提高了2倍,端到端训练Transformer的效率提高了1.3倍,这可以帮助企业、开发者节省上百万美元的预训练成本。
论文地址:https://arxiv.org/abs/2205.14135
开源地址:https://github.com/Dao-AILab/flash-attention
本文素材来源TogetherAI官网,如有侵权请联系删除
END
本篇文章来源于微信公众号: AIGC开放社区