Meta发布混合多模态模型—Chameleon

添加书签

AIGC开放社区
2024-07-18

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

全球科技、社交巨头Meta发布了混合多模态模型Chameleon，一共有7B和34B两个版本。

Chameleon可以生成、处理混合多类型内容，包括文本、图片、图像字幕等。同时可以自动生成带图文的长篇内容，整体性能非常强劲。

根据多平台测试数据显示，Chameleon的性能超过了谷歌的Gemini Pro和OpenAI的GPT-4V等知名多模态模型。

论文地址：https://arxiv.org/abs/2405.09818

传统的多模态大模型使用的分阶段处理策略，先分开独立处理图像和文本，然后在后续阶段将这些模态数据融合。这种方法虽然简单直观，却难以高效地捕捉和利用跨模态的复杂关联。

而Chameleon使用了一种创新处理方法，从一开始便将所有模态信息投影到一个共享的表示空间中。图像和文本数据被同等对待，共同参与模型的输入和处理过程，从而打破了模态之间的界限。

Chameleon的技术创新在于使用了一种“全tokens化”的表示方法将图像也转换成离散的tokens，使得图像和文本可以使用同一套Transformer架构进行处理。

这不仅简化了模型架构，还促进了模态间的语义对齐。通过将图像分割成像素块并对其进行量化，Chameleon能确保每个图像tokens都能携带视觉特征的重要信息，就像文本tokens携带语义信息一样，无论是文本还是图像，都被转化为模型能够理解和操作的统一语言。

Chameleon的训练分为两个阶段：初步的80%训练专注于基础的多模态理解，而后20%的训练则着重于提升模型的综合能力。

在第一阶段，模型接触到的训练数据包括大量的无监督文本、文本-图像对以及交错的文本/图像数据，该数据来源于公共网络资源和授权数据集，经过精心处理以适应模型的需求；

第二阶段则进一步强化模型的多任务处理能力，确保其在面对具体应用时表现更为出色。

此外，Chameleon还使用了一个非常庞大的训练数据集，包括文本、代码、视觉聊天、图像生成、交错文本/图像生成以及安全数据，确保了模型能够应对多样化的应用场景。

其文本和代码相关的数据集分别继承自LLaMa-2和CodeLLaMa的预训练数据。在图像生成数据集中，研究人员精心筛选了图像，并通过特定的美学分类器进行分类，最终保留了接近512×512分辨率的高质量图片，以匹配图像tokens化的原生需求。

在推理阶段，Chameleon展示了其对混合模态生成的独特处理方式。模型能够处理数据依赖性、模态约束生成和固定大小的文本单元等挑战。

Chameleon的推理策略包括对生成流程的优化，以提高吞吐量并减少延迟。这种优化是通过一个基于PyTorch的独立推理管道来实现，该管道利用了xformers库中的GPU内核。

研究人员将Chameleon在多个知名测试平台与市面上的主流多模态模型进行了对比。结果显示，Chameleon不仅在图像生成、文本生成等单一模态任务上与Llama-2、Mixtral 8x7B、Gemini-Pro等模型相差无几。

特别是可在长格式的混合模态生成任务中，根据人类评判，达到或超过Gemini Pro和GPT-4V等更大模型的性能。

申请模型地址：https://ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk_enable=chameleon_web_flow_is_live

本文素材来源Chameleon论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动