图片直接生成3D视频模型,开源Stable Video 3D来啦!
添加书签专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
3月19日,著名大模型开源平台stability.ai在官网开源了,图像直接生成3D视频模型——Stable Video 3D(以下简称“SV3D”)。
这与其之前发布的Stable Zero123、Zero123XL模型相比,SV3D在生成质量、多视角、泛化能力、3D建模、一致性、光照效果等方面实现大幅度提升。
SV3D一共有两个版本:SV3D_u,支持单个图像生成轨道视频,无需相机调节;
SV3D_p扩展了 SVD3_u 的功能,支持单个图像和轨道视图,从而可以生成沿特定的摄像机路径创建 3D 视频。
huggingface地址:https://huggingface.co/stabilityai/sv3d
github地址:https://github.com/Stability-AI/generative-models?tab=readme-ov-file
论文地址:https://stability.ai/s/SV3D_report.pdf
长期以来,用单张图像重建3D物体模型一直是计算机视觉领域的一大挑战。传统的3D重建方法是,需要从多个角度拍摄目标物体的照片,再通过复杂的算法进行3D建模,整个过程费时、费力并且效果也不理想。
而SV3D借助了视频扩散模型在时间连贯性、特征/轨迹识别的诸多优势,将其应用在物体的空间上3D一致性视图,进而快速获得3D物体信息,达到3D模型重建的卓越效果。
多视角合成和模型改良
SV3D核心模块之一,基于其自研的Stable Video Diffusion(简称SVD)视频模型之上。
为了达到理想的3D模型重建,研究人员对SVD进行了性能改良:U-Net网络骨干保持不变,由多层3D卷积和Transformer注意力模块构成,同时将输入图像的CLIP嵌入作为附加条件输入到Transformer注意力模块中;
移除了原SVD中控制帧率和动作的条件输入,因为这些对静态物体合成无任何帮助;在每个残差块中,将相机轨迹的仰角和方位角嵌入与噪声时间步长进行拼接后输入。
这种巧妙的技术重构,使得模型不仅可利用条件图像进行像素级推理,还能结合显式的相机姿态来控制生成的视角。同时可通过视频模型在时序上学习到的一致性知识,来指导在空间上生成物体的一致多视图。
相机轨迹功能
为了扩展模型的多种生成能力,SV3D设计了两种类型的相机轨迹作为条件输入,
静态轨迹:相机在物体水平面内环绕方位角均匀分布,仰角固定为条件图像的仰角。但这种设置的缺陷可能会遗漏物体的顶部或底部视图。
动态轨迹:从静态轨迹出发,对方位角加入少量噪声,对仰角加入平滑的随机正弦波,使相机在垂直方向也能环绕物体,可充分展现物体的全貌。
这种双轨迹生成设计,突破了传统的生成3D模型视角的局限性,并显著提高了多视图的一致性、细节还原和控制性。
3D模型优化
为了提升模型生成内容的一致性、精细程度、质量等,SV3D采用了从“粗”到“细”的优化策略。
粗优化:首先利用多视图渲染结果对Instant NGP框架中的NeRF模型进行优化,得到物体的初始粗糙几何形状和体积密度场。
研究人员在粗优化中设计了”遮罩分数”的损失函数。多视图渲染结果中无法看到的部分,会将相应的像素排除在损失函数的计算中避免被视为噪声,可以让模型专注学习可见区域。
细优化:在得到粗糙的NeRF模型后,使用另一种神经表示DMTet来进行细节优化。DMTet兼有体数据结构和网格表面的优势,能高效表达细节丰富的几何结构和纹理,可以重新利用多视图渲染结果以及之前训练的NeRF预测作为精细优化目标。
SV3D实验数据
研究人员在GSO、OmniObject3D等数据集上评估了,SV3D对静态轨迹和动态轨迹视频的生成能力。他们将生成了对应真实相机轨迹的视频,并将每一帧与地面真实帧进行对比,计算感知相似度、峰值信噪比、结构相似性等多种指标,全面评估视频质量和多视角一致性。
与Stable Zero123、Zero123、EscherNet等模型相比,SV3D在所有评估指标上都展现出卓越表现,能生成更高分辨率、细节更丰富、与输入图像更加贴合、多视角更加一致的视频。
本文素材来源stability.ai官网,如有侵权请联系删除
END
本篇文章来源于微信公众号: AIGC开放社区