阿里开源Qwen 2，最强中文大模型之一！

添加书签

AIGC开放社区
2024-06-08

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

6月7日，阿里巴巴正式开源了大模型——Qwen2。

Qwen2一共有5种预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。

github地址：https://github.com/QwenLM/Qwen2

huggingface地址：https://huggingface.co/Qwen

在线demo：https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct

与相比Qwen1.5，Qwen2的性能实现大幅度提升。例如，本次发布的所有模型都使用了GQA，以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

上下文长度方面，所有的预训练模型均在32K tokens的数据上进行训练，并且研究人员发现其在128K tokens时依然能在PPL评测中取得不错的表现。

但对指令微调模型而言，除PPL评测之外还需要进行大海捞针等长序列理解实验。在该表中，根据大海捞针实测结果，列出了各个指令微调模型所支持的最大上下文长度。而在使用YARN这类方法时，Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

阿里表示，本次对Qwen2投入了大量精力研究如何扩展多语言预训练和指令微调数据的规模并提升其质量，从而提升模型的多语言能力。尽管大语言模型本身具有一定的泛化性，但还是针对性地对除中英文以外的27种语言进行了全面增强。