重磅!首个超GPT-4o开源大模型,最强Llama 3.1正式发布

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

Meta正式发布目前最强开源大模型之一Llama 3.1系列,一共有405B、70B、8B三种模型。

其中405B更是期待已久的重磅开源模型,经过15万亿tokens高质量数据以及超过1.6万块H100进行了几个月的预训练,支持128K上下文长度,英语、法语、德语等8种语言,能生成代码、文本、文本摘要等。

根据Llama 3.1的技术论文,405B是具备文本、图像、视频和音频多模态推理能力的,但本次没有开放还在继续开发中

值得一提的是,Meta已经更改了开源许可证,允许开发者使用Llama 3.1系列模型的输出去优化其他模型,也就是说可以使用最强的405B进行模型蒸馏啦,这对于打造参数小、性能强的模型非常有帮助

图灵奖获得者、Meta首席科学家Yann Lecun则表示,Llama 3.1系列中的405B版本可以与目前最好的闭源大模型相媲美,并全面开放权重允许开发者进行微调、蒸馏,拥有非常强的代码和推理能力。

128K上下文基本和GPT-4o一样大,并且性能也不差。

有小哥激动的说,Meta简直就是为人民服务的典范。

虽然405B对于多数开发者来说,在部署成本和推理方面成本太高,但还是开放了70B、8B小参数模型,非常人性化涵盖不同需求。

开源AGI的进展非常快,研究速度惊人。

知名浏览器插件Sider AI表示,会将405B集成在产品中,为超过500万浏览器用户提供服务。

Meta联合创始人兼首席执行官-扎克伯格更是罕见地发布长文和接受专访,畅谈最新开源的Llama 3.1系列。

他表示,Meta将坚持走开源路线,致力于开发最好的前沿AI模型,本次发布的405B便是最好的承诺。在生成式AI时代,好的大模型不应该被少数公司掌握,应该与全人类共同分享,同时对Meta的帮助也有很大好处。

因为,Meta的商业模式是为用户提供最佳体验和服务。开源Llama 3.1系列模型有助于Meta确保长期获得最佳技术优势,不受竞争对手封闭生态系统的限制。即使开源Llama 3.1也不会削弱其技术优势,因为AI的发展将非常竞争激烈,而且Meta的商业模式并不依赖于出售AI模型的访问权。

目前,Meta正在与亚马逊、Databricks和英伟达在内的多家领先科技公司合作,推出一系列服务,支持开发者微调和蒸馏自己的模型。

开源模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。其他公司如Scale.AI、Dell、Deloitte等也准备帮助企业应用最新开源的Llama 3.1模型,并用他们自己的数据训练定制大模型。

Llama 3.1 405B采用了标准的密集Transformer架构,但与之前的版本相比进行了一些微调。例如,使用了分组查询注意力来提高推理效率,并对词汇表进行了调整,以更好地支持多语言处理。

在预训练过程中,Llama 3.1 405B使用了超过1.6万块H100。为了充分发挥405B模型的潜力,训练过程中还采用了一些特殊的技术和策略,例如,在预训练阶段,采用了初始预训练和长上下文预训练相结合的方式。

初始预训练使用了大量的数据来学习语言的基本模式和规律,而长上下文预训练则专注于处理更长的文本序列,以提高模型对上下文的理解能力。

405B在语言模型预训练阶段展现出了强大的语言理解能力,学习到不同语言的语法、语义和语用知识,并能够生成连贯、有逻辑的文本。在预训练数据中,包含了各种领域和主题超过15万亿tokens的数据,使得模型能够适应广泛的应用场景。

在语言模型后训练阶段,405B通过监督微调和直接偏好优化等,进一步提升了模型的性能和适应性。监督微调使用大量的人工标注数据来微调模型,使其能够更好地遵循人类的指令和偏好;直接偏好优化则通过学习人类的偏好来优化模型的输出,使其更加符合人类的期望。

除了语言处理能力,405B还具备多模态推理能力,通过与视觉和语音等模态的结合,能够实现更自然和智能的交互方式。例如,在与图像的结合中,模型能够理解图像的内容,并根据图像生成相关的文本描述。在语音交互中,它能够识别语音指令,并进行自然的语音对话。

在视觉交互中, 405B与预训练的图像编码器和适配器相结合,提升了对视觉信息的理解和处理能力。通过对大量图像文本对的学习,模型能够识别图像中的物体、场景和文本,并能够根据图像回答相关的问题。

例如,在图像识别任务中, 405B能够准确地识别出图像中的物体类别和属性,为图像标注和分类提供了有力的支持。在多模态推理任务中,能够结合图像和文本信息,进行复杂的推理和判断,展现出了较强的综合理解能力。

Meta在MMlu、HumanEval、MBPP、ARC等主流测试平台,对Llama 3.1的405B、70B、8B进行了综合测试。结果显示,405B的性能超过了GPT-4o、GPT-4、Claude 3.5 Sonnet等知名闭源模型。

Github地址:https://github.com/meta-llama/llama-models

huggingface地址:https://huggingface.co/meta-llama/Meta-Llama-3.1-8B/tree/main

本文素材来源Meta官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区