重磅！首个超GPT-4o开源大模型，最强Llama 3.1正式发布

添加书签

AIGC开放社区
2024-07-24

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

Meta正式发布目前最强开源大模型之一Llama 3.1系列，一共有405B、70B、8B三种模型。

其中405B更是期待已久的重磅开源模型，经过15万亿tokens高质量数据以及超过1.6万块H100进行了几个月的预训练，支持128K上下文长度，英语、法语、德语等8种语言，能生成代码、文本、文本摘要等。

根据Llama 3.1的技术论文，405B是具备文本、图像、视频和音频多模态推理能力的，但本次没有开放还在继续开发中。

值得一提的是，Meta已经更改了开源许可证，允许开发者使用Llama 3.1系列模型的输出去优化其他模型，也就是说可以使用最强的405B进行模型蒸馏啦，这对于打造参数小、性能强的模型非常有帮助。

图灵奖获得者、Meta首席科学家Yann Lecun则表示，Llama 3.1系列中的405B版本可以与目前最好的闭源大模型相媲美，并全面开放权重允许开发者进行微调、蒸馏，拥有非常强的代码和推理能力。

128K上下文基本和GPT-4o一样大，并且性能也不差。

有小哥激动的说，Meta简直就是为人民服务的典范。

虽然405B对于多数开发者来说，在部署成本和推理方面成本太高，但还是开放了70B、8B小参数模型，非常人性化涵盖不同需求。

开源AGI的进展非常快，研究速度惊人。

知名浏览器插件Sider AI表示，会将405B集成在产品中，为超过500万浏览器用户提供服务。

Meta联合创始人兼首席执行官-扎克伯格更是罕见地发布长文和接受专访，畅谈最新开源的Llama 3.1系列。

他表示，Meta将坚持走开源路线，致力于开发最好的前沿AI模型，本次发布的405B便是最好的承诺。在生成式AI时代，好的大模型不应该被少数公司掌握，应该与全人类共同分享，同时对Meta的帮助也有很大好处。

因为，Meta的商业模式是为用户提供最佳体验和服务。开源Llama 3.1系列模型有助于Meta确保长期获得最佳技术优势，不受竞争对手封闭生态系统的限制。即使开源Llama 3.1也不会削弱其技术优势，因为AI的发展将非常竞争激烈，而且Meta的商业模式并不依赖于出售AI模型的访问权。

目前，Meta正在与亚马逊、Databricks和英伟达在内的多家领先科技公司合作，推出一系列服务，支持开发者微调和蒸馏自己的模型。

开源模型将在所有主要云平台上提供，包括AWS、Azure、Google、Oracle等。其他公司如Scale.AI、Dell、Deloitte等也准备帮助企业应用最新开源的Llama 3.1模型，并用他们自己的数据训练定制大模型。

Llama 3.1 405B采用了标准的密集Transformer架构，但与之前的版本相比进行了一些微调。例如，使用了分组查询注意力来提高推理效率，并对词汇表进行了调整，以更好地支持多语言处理。

在预训练过程中，Llama 3.1 405B使用了超过1.6万块H100。为了充分发挥405B模型的潜力，训练过程中还采用了一些特殊的技术和策略，例如，在预训练阶段，采用了初始预训练和长上下文预训练相结合的方式。

初始预训练使用了大量的数据来学习语言的基本模式和规律，而长上下文预训练则专注于处理更长的文本序列，以提高模型对上下文的理解能力。

405B在语言模型预训练阶段展现出了强大的语言理解能力，学习到不同语言的语法、语义和语用知识，并能够生成连贯、有逻辑的文本。在预训练数据中，包含了各种领域和主题超过15万亿tokens的数据，使得模型能够适应广泛的应用场景。

在语言模型后训练阶段，405B通过监督微调和直接偏好优化等，进一步提升了模型的性能和适应性。监督微调使用大量的人工标注数据来微调模型，使其能够更好地遵循人类的指令和偏好；直接偏好优化则通过学习人类的偏好来优化模型的输出，使其更加符合人类的期望。

除了语言处理能力，405B还具备多模态推理能力，通过与视觉和语音等模态的结合，能够实现更自然和智能的交互方式。例如，在与图像的结合中，模型能够理解图像的内容，并根据图像生成相关的文本描述。在语音交互中，它能够识别语音指令，并进行自然的语音对话。

在视觉交互中， 405B与预训练的图像编码器和适配器相结合，提升了对视觉信息的理解和处理能力。通过对大量图像文本对的学习，模型能够识别图像中的物体、场景和文本，并能够根据图像回答相关的问题。

例如，在图像识别任务中， 405B能够准确地识别出图像中的物体类别和属性，为图像标注和分类提供了有力的支持。在多模态推理任务中，能够结合图像和文本信息，进行复杂的推理和判断，展现出了较强的综合理解能力。

Meta在MMlu、HumanEval、MBPP、ARC等主流测试平台，对Llama 3.1的405B、70B、8B进行了综合测试。结果显示，405B的性能超过了GPT-4o、GPT-4、Claude 3.5 Sonnet等知名闭源模型。

Github地址：https://github.com/meta-llama/llama-models

huggingface地址：https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/tree/main

本文素材来源Meta官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动