Stability.ai开源3D模型，仅需0.5秒就能快速生成

添加书签

AIGC开放社区
2024-08-05

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

著名开源大模型平台Stability.ai开源了3D生成模型——Stable Fast 3D（以下简称“SF3D”）。

用户通过图片仅需0.5秒就能快速生成高质量3D模型，还包括UV展开网格、材质参数、具有减少照明烘焙的反照率颜色，以及可选的四边形或三角形重网格等，这也是目前最快的3D生成模型。

开源地址：https://github.com/Stability-AI/stable-fast-3d

huggingface：https://huggingface.co/stabilityai/stable-fast-3d

在传统的3D重建模型中，变换器通常输出较低分辨率的Triplane表示，这会导致在高频和高对比度纹理场景中出现明显的混叠伪影，在实际应用中效果较差需要频繁的手动处理才能使用。

而SF3D是基于TripoSR架构，通过引入多个新模块来改进输出质量。增强的Transformer网络预测更高分辨率的三平面，有助于减少混叠伪影。该网络从DINO切换到改进的DINOv2以获取图像标记，低分辨率（64×64）的三平面会引入明显伪影，而通过提高分辨率可以缓解这一问题。

还受PointInfinity的启发，增强的Transformer网络输出更高分辨率的三平面，例如，通过避免在更高分辨率三平面标记上的自注意力，使复杂度与输入大小呈线性关系，从而产生96×96分辨率、1024通道的三平面，进一步通过打乱输出特征的维度。

为了增强反射对象的输出网格外观，在渲染时生成更好的模型材质，SF3D通过 “Material Net”的网络来实现这一点，该网络从输入图像中预测整个物体的单一金属和粗糙度值。

为了稳定训练并防止直接回归时的网络崩溃，SF3D采用了一种概率预测方法，预测Beta分布的参数，并通过最小化对数似然来训练网络。

SF3D还引入了“Light Net”的网络来预测输入图像中的光照，从而解决因光照变化（如阴影）导致的问题。

Light Net通过使用从变换器得到的高分辨率Triplane来预测球形高斯照明图。这种巧妙设计允许SF3D在渲染时考虑到3D空间关系和物体表面的照明变化，从而生成没有混入光照效果的均匀物体。

SF3D使用了一种光照解耦损失函数，确保学习到的照明与训练数据中观察到的照明条件一致，从而解决了外观和阴影之间的歧义。

为了全面评估SF3D的性能，研究人员选择了GSO和OmniObject3D作为主要的数据集。这些数据集包含了多种类型的3D对象，能够充分测试SF3D在不同场景下的表现。为了确保测试的公正性和可比性，所有比较方法都在相同的硬件环境下运行。

并将SF3D与OpenLRM、TripoSR、LGM、CRM、InstantMesh和ZeroShape知名3D模型进行了综合对比。结果显示，SF3D优于当前主流3D模型，能够重建准确的形状产生更详细的纹理，并且视觉质量更高。

本文素材来源Stability.ai官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动