图片直接生成3D视频模型，开源Stable Video 3D来啦！

添加书签

AIGC开放社区
2024-03-20

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

3月19日，著名大模型开源平台stability.ai在官网开源了，图像直接生成3D视频模型——Stable Video 3D（以下简称“SV3D”）。

这与其之前发布的Stable Zero123、Zero123XL模型相比，SV3D在生成质量、多视角、泛化能力、3D建模、一致性、光照效果等方面实现大幅度提升。

SV3D一共有两个版本：SV3D_u，支持单个图像生成轨道视频，无需相机调节；

SV3D_p扩展了 SVD3_u 的功能，支持单个图像和轨道视图，从而可以生成沿特定的摄像机路径创建 3D 视频。

huggingface地址：https://huggingface.co/stabilityai/sv3d

github地址：https://github.com/Stability-AI/generative-models?tab=readme-ov-file

论文地址：https://stability.ai/s/SV3D_report.pdf

长期以来,用单张图像重建3D物体模型一直是计算机视觉领域的一大挑战。传统的3D重建方法是，需要从多个角度拍摄目标物体的照片,再通过复杂的算法进行3D建模,整个过程费时、费力并且效果也不理想。

而SV3D借助了视频扩散模型在时间连贯性、特征/轨迹识别的诸多优势，将其应用在物体的空间上3D一致性视图,进而快速获得3D物体信息，达到3D模型重建的卓越效果。

多视角合成和模型改良

SV3D核心模块之一，基于其自研的Stable Video Diffusion（简称SVD）视频模型之上。

为了达到理想的3D模型重建，研究人员对SVD进行了性能改良：U-Net网络骨干保持不变,由多层3D卷积和Transformer注意力模块构成，同时将输入图像的CLIP嵌入作为附加条件输入到Transformer注意力模块中；

移除了原SVD中控制帧率和动作的条件输入,因为这些对静态物体合成无任何帮助；在每个残差块中,将相机轨迹的仰角和方位角嵌入与噪声时间步长进行拼接后输入。

这种巧妙的技术重构，使得模型不仅可利用条件图像进行像素级推理,还能结合显式的相机姿态来控制生成的视角。同时可通过视频模型在时序上学习到的一致性知识,来指导在空间上生成物体的一致多视图。

相机轨迹功能

为了扩展模型的多种生成能力，SV3D设计了两种类型的相机轨迹作为条件输入，

静态轨迹:相机在物体水平面内环绕方位角均匀分布，仰角固定为条件图像的仰角。但这种设置的缺陷可能会遗漏物体的顶部或底部视图。

动态轨迹:从静态轨迹出发,对方位角加入少量噪声,对仰角加入平滑的随机正弦波,使相机在垂直方向也能环绕物体，可充分展现物体的全貌。

这种双轨迹生成设计，突破了传统的生成3D模型视角的局限性，并显著提高了多视图的一致性、细节还原和控制性。

3D模型优化

为了提升模型生成内容的一致性、精细程度、质量等，SV3D采用了从“粗”到“细”的优化策略。

粗优化：首先利用多视图渲染结果对Instant NGP框架中的NeRF模型进行优化,得到物体的初始粗糙几何形状和体积密度场。

研究人员在粗优化中设计了”遮罩分数”的损失函数。多视图渲染结果中无法看到的部分,会将相应的像素排除在损失函数的计算中避免被视为噪声，可以让模型专注学习可见区域。

细优化：在得到粗糙的NeRF模型后,使用另一种神经表示DMTet来进行细节优化。DMTet兼有体数据结构和网格表面的优势,能高效表达细节丰富的几何结构和纹理，可以重新利用多视图渲染结果以及之前训练的NeRF预测作为精细优化目标。

SV3D实验数据

研究人员在GSO、OmniObject3D等数据集上评估了，SV3D对静态轨迹和动态轨迹视频的生成能力。他们将生成了对应真实相机轨迹的视频,并将每一帧与地面真实帧进行对比,计算感知相似度、峰值信噪比、结构相似性等多种指标,全面评估视频质量和多视角一致性。

与Stable Zero123、Zero123、EscherNet等模型相比，SV3D在所有评估指标上都展现出卓越表现,能生成更高分辨率、细节更丰富、与输入图像更加贴合、多视角更加一致的视频。

本文素材来源stability.ai官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动