高性能多模态大模型，华中科技大学开源Monkey

添加书签

AIGC开放社区
2023-12-09

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

目前，很多多模态大模型在理解和处理复杂的场景，以及细微的视觉细节时仍面临很大挑战,主要是受限于输入分辨率(如448 x 448)以及训练集图像和文本描述之间的不匹配。

为了解决这些难题，华中科技大学与金山软件联合推出了Monkey框架并将其开源。Monkey无需从0预训练，可以基于现有视觉编辑器（如Vit-BigHuge）进行构建，将大模型的输入分辨率能力提高到896 x 1344像素。

此外，Monkey还提出了一种多级描述生成方法，该方法自动提供丰富的信息，可以指导模型学习场景和对象之间的上下文关联。

为验证Monkey的性能,研究人员在16个不同的数据集上进行了丰富测试,涵盖图像字幕、视觉问答、文档分类以及图像理解等多模态任务，Monkey皆取得了出色的成绩。

开源地址：https://github.com/Yuliang-Liu/Monkey

论文地址：https://arxiv.org/abs/2311.06607v1

训练数据与模型

高质量训练数据集是提升大模型能力的关键点之一，所以，研究人员生成了数十万条高质量的图像描述数据,并通过多级方法捕捉图像的全貌和局部细节。

还利用BLIP2、PPOCR、GRIT、SAM等模型自动生成文字描述,然后把不同模型输出的内容融合起来,组成清晰和连贯的图文匹配数据。这种数据生成方法，显著提升了大模型图像细节的理解能力。

模型选择方面,直接应用了开源模型Qwen-VL作为语言解码器,并使用了20亿参数的ViT-BigHuge作为视觉编码器。这可以极大提高了研发的效率，避免重复预训练耗费资源。

训练方法

为了提升Monkey多模态大模型的识别能力、输入分辨率，生成更丰富的图像描述以及对复杂场景的理解能力，采用了三个训练阶段：

(1)多级描述生成：该模块主要通过BLIP2、GRIT、PPOCR等多个模型的协同,为图像自动生成包含全局特征和局部细节的语义描述。

(2)高分辨率编码：采用滑动窗口分割高分辨率图像,并行使用多个视觉编码器对各个局部区域进行编码，同时保留全局图像的结构信息。例如，一张2048像素的高清图片,Monkey会将其均分成16块。

(3)多任务训练：使用包含图像字幕、视觉问答等多种任务的数据集进行联合训练,提升模型的泛化能力。指令格式统一为:Generate/Answer + 问题/命令，并限制每个任务使用的数据量,有助于保证训练平衡。

实验数据

为了验证Monkey的能力，研究人员在16个不同的数据集上进行全面验证,覆盖图像字幕、通用VQA、文档VQA等测试任务。

通用视觉问答：Monkey在VQAv2、GQA、OKVQA等多个数据集上都显示出明显的优势。

图像字幕任务：Monkey在TextCaps数据集上的性能同样优异,证明了对图片中文本元素的多模态理解力。

文档导向问答：Monkey在DocVQA、ChartQA、DeepForm等文档图像理解数据集上也取得了不错的成绩。

研究人员表示，Monkey在细微视觉信息感知和复杂场景理解上展现出了超强能力，在医学影像、卫星图像等领域拥有广泛的应用空间。未来，也会继续优化Monkey模型，提升其感知、联想、推理和泛化能力。

本文素材来源Monkey论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动