腾讯推出首个游戏大模型，能生成《巫师3》、《对马岛之魂》等3A巨作！

添加书签

AIGC开放社区
2024-09-17

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

AI除了能生成文本、图片、视频、音乐，还能生成点啥呢？腾讯现在整了个大的，推出了首个面向3A开放世界游戏的大模型——GameGen-O。

GameGen-O可以通过模拟各类3A游戏，例如，《巫师3》、《赛博朋克2077》、《对马岛之魂》、《荒野大嫖客2》、《刺客信条》以及最近爆火的《黑神话：悟空》里的角色、动态环境、复杂动作和多样化事件，从而生成高质量的游戏场景。

例如，下面这个就是GameGen-O模拟《巫师3》女主角之一西里，在野外徒步的游戏场景。整个场景的高清度、景深、光影、物体建模相当优秀。

文本提示词：当主角前进时，拓宽他们前面的道路。主角沿着路径平稳移动，减少与远处建筑物的距离。随着时间的推移，增强村庄结构的可见性和细节始终保持晴朗的天空和一致的日光。

这个是《巫师3》里男主角杰洛特骑着马，在夕阳下散步的场景。文本提示词：在日落的天空下展示一条郁郁葱葱的绿色乡村小路，两旁是石墙和树木。让主角骑着马沿着小路稳步前进。

对马岛之魂主角-镜井仁在林中散步。

这个金字塔看着熟悉吗？AI应该是模拟了《刺客信条-起源》里的金字塔。

模拟《赛博朋克2077》开车的场景。

《荒野大镖客2》的男主角在海边散步。

GameGen-O的架构使用了堆叠时间 DiT和空间 DiT。这种设计使得模型能够有效地处理视频数据中的时间序列信息和空间信息，对于生成连贯且视觉上吸引人的游戏内容至关重要。GameGen-O还使用了掩码注意力机制，扩大其生成方法和模拟质量。

为了构建数据集，腾讯搜集了超过32,000 个游戏视频，每个视频的长度从几分钟到几个小时不等。然后经过人工数据标注产生了15,000 个可用视频。这些选定的视频通过场景检测被切割成片段，然后基于美学、光流和语义内容进行了严格的排序和过滤。

随后，使用专家模型和多模态大型模型进行了结构化注释。为了实现交互式可控性，从这个注释数据集中选择了最高质量的片段，并进行了解耦标注。这种标注旨在描述片段内容状态的变化，确保了一个更精细、更交互式的数据集用于训练模型。

GameGen-O的训练过程分为基础模型预训练和指令调整两个阶段：在第一阶段，模型通过文本到视频和视频延续的方式在OGameData上进行预训练，赋予其生成开放世界游戏的能力；在第二阶段，预训练模型被冻结，使用可训练的InstructNet进行微调，这使得基于多模态结构指令生成后续帧成为可能。

所以，GameGen-O的模拟能力相当强劲，只要给够游戏数据，都能按照你的要求模拟出来全新或者类似的游戏场景。除了文本提示，还支持操作信号和视频作为提示方法。

本文素材来源GameGen-O，如有侵权请联系删除

END