字节跳动、浙大推出Coin3D:用几何代理,控制3D模型生成

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

字节跳动、浙江大学的研究人员联合推出了创新模型Coin3D。

与传统方法相比,Coin3D的创新点在于允许用户通过简单的几何代理来指导3D模型生成,同时支持进行互动式操作,例如,修改生成指令、调整形状或对局部细节进行微调再生等。

为了评估Coin3D的性能,研究人员使用CLIP分数来衡量文本与生成对象之间的匹配度,并借助ImageReward和GPTEvals3D来评测多视角3D模型的质量。实验结果显示,Coin3D在整体指标上表现最佳,并证明了基于几何代理的条件控制能够显著提升3D模型生成的质量。

论文地址:https://arxiv.org/abs/2405.08054

3D适配器

3D适配器模块是Coin3D的核心模块之一,其设计灵感来源于体积多视图扩散模型,旨在将3D感知控制引入到扩散生成过程中,确保生成的3D对象严格遵循用户定义的形状指导。

在生成的过程中,3D适配器通过对代理形状的体素化处理,将用户在3D建模软件(如Tinkercad、SketchUp或Blender)中轻松构建的简单形状集合转变为3D控制体积,这个体积本质上是一个包含大量体素的特征网格。

在操作方面,3D适配器接收两个关键输入:第一个是来自代理形状样本的特征体积FV,它通过将代理的表面点体素化填充到一个初始化为零的占用网格中得到,网格内的点如果包含任何形状点,则标记为1;

第二个是多视图图像融合体积FtI,该体积通过反投影和融合由去噪UNet fU在特定时间戳产生的多视图图像而构造。这一过程同步地在所有预设视图上执行去噪迭代,整合了跨视图相关性与视图依赖的自注意力机制,确保生成的3D对象与代理形状保持一致。

体积-SDS,确保一致模型重建质量

虽然3D适配器可以控制模型的整体框架生成,但直接从合成的多视图图像重建3D模型可能会遭遇质量不佳、模糊等难题,尤其是当视点数量有限时。

而体积-SDS是专门用来解决这些难题的,该技术在模型重建阶段利用代理引导的特征体积,通过在评分蒸馏采样过程中有效利用受控的3D上下文,显著提高了网格重建的保真度和一致性。

这也意味着,在生成的多视图图像基础上,通过集成体积-SDS损失函数,可以减少不合理的几何体,例如,浮点错误并增强模型底部等结构的合理性,最终输出的3D模型不仅符合用户的预期形状,而且在细节上更加精致和准确。

交互式特定编辑

为了让用户在不破坏整体结构的前提下,自由地对3D模型的任意部分进行调整和创新,例如,用户可以将盘子上的南瓜球重新生成为红苹果,Coin3D提供了交互式特定编辑功能。

该功能利用一个简化的几何“代理”来指导和限制编辑过程。这个代理是由基本形状,例如,立方体、球体、圆柱体等拼接而成的粗略几何体,它代表了用户想要生成或修改的3D模型的基本结构。

用户可以通过调整代理形状的尺寸、位置、组合方式等,快速构建出模型的大致轮廓,而不需要从零开始进行复杂的建模操作。

生成形状后,用户可以指定想要修改的模型部分,系统会自动识别这部分与代理形状相对应的区域。代理限定编辑的关键在于,它不仅限定了编辑范围,还确保了编辑的自然过渡和风格一致性。

例如,如果用户想要在一个动物模型的背部添加一个背包,只需在代理上相应位置做出修改,系统就能理解这一意图,并只在模型的背部应用变化,同时保证新增的背包与原有模型风格和谐统一,避免了不自然的融合效果。

本文素材来源Coin3D论文,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区