Stability.ai开源3D模型,仅需0.5秒就能快速生成

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

著名开源大模型平台Stability.ai开源了3D生成模型——Stable Fast 3D(以下简称“SF3D”)。

用户通过图片仅需0.5秒就能快速生成高质量3D模型,还包括UV展开网格、材质参数、具有减少照明烘焙的反照率颜色,以及可选的四边形或三角形重网格等,这也是目前最快的3D生成模型。

开源地址:https://github.com/Stability-AI/stable-fast-3d

huggingface:https://huggingface.co/stabilityai/stable-fast-3d

在传统的3D重建模型中,变换器通常输出较低分辨率的Triplane表示,这会导致在高频和高对比度纹理场景中出现明显的混叠伪影,在实际应用中效果较差需要频繁的手动处理才能使用。

而SF3D是基于TripoSR架构,通过引入多个新模块来改进输出质量。增强的Transformer网络预测更高分辨率的三平面,有助于减少混叠伪影。该网络从DINO切换到改进的DINOv2以获取图像标记,低分辨率(64×64)的三平面会引入明显伪影,而通过提高分辨率可以缓解这一问题。

还受PointInfinity的启发,增强的Transformer网络输出更高分辨率的三平面,例如,通过避免在更高分辨率三平面标记上的自注意力,使复杂度与输入大小呈线性关系,从而产生96×96分辨率、1024通道的三平面,进一步通过打乱输出特征的维度。

为了增强反射对象的输出网格外观,在渲染时生成更好的模型材质,SF3D通过 “Material Net”的网络来实现这一点,该网络从输入图像中预测整个物体的单一金属和粗糙度值。

为了稳定训练并防止直接回归时的网络崩溃,SF3D采用了一种概率预测方法,预测Beta分布的参数,并通过最小化对数似然来训练网络

SF3D还引入了“Light Net”的网络来预测输入图像中的光照,从而解决因光照变化(如阴影)导致的问题。

Light Net通过使用从变换器得到的高分辨率Triplane来预测球形高斯照明图。这种巧妙设计允许SF3D在渲染时考虑到3D空间关系和物体表面的照明变化,从而生成没有混入光照效果的均匀物体。

SF3D使用了一种光照解耦损失函数,确保学习到的照明与训练数据中观察到的照明条件一致,从而解决了外观和阴影之间的歧义。

为了全面评估SF3D的性能,研究人员选择了GSO和OmniObject3D作为主要的数据集。这些数据集包含了多种类型的3D对象,能够充分测试SF3D在不同场景下的表现。为了确保测试的公正性和可比性,所有比较方法都在相同的硬件环境下运行。

并将SF3D与OpenLRM、TripoSR、LGM、CRM、InstantMesh和ZeroShape知名3D模型进行了综合对比。结果显示,SF3D优于当前主流3D模型,能够重建准确的形状产生更详细的纹理,并且视觉质量更高

本文素材来源Stability.ai官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区