谷歌推出V2A，可为视频大模型自动匹配语音

添加书签

AIGC开放社区
2024-06-20

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

谷歌Deepmind在官网推出了视频转音频模型V2A。

用户可以用视频+文本提示的方式，通过V2A为视频模型自动匹配语音。例如，为紧张、恐怖、惊悚的片段自动匹配语音，可以进一步节省制作时间和提高效率。同时可以与谷歌的视频模型Veo相结合使用。

目前，Sora、可灵、Gen-3、Dream Machine等知名模型生成的视频没有任何声音，用户如果想使用这些视频还需要二次加工配音。

但在嘴型、音轨匹配方面就比较麻烦，而V2A可以生成无限数量的音轨，用户可以根据实际需求来选择最贴近的内容。

例如，为一个骑马的牛仔视频配上音乐，提示词，草原上夕阳西下时，悠扬柔和的口琴声响起。

水下游动的水母、海洋生物、海洋

电影、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声

音乐会舞台上的鼓手，周围是闪烁的灯光和欢呼的人群。

一只狼对着月亮嚎叫

下面这个视频短片的人物嘴型，就通过AI语音进行了精准匹配。

模型架构方面，V2A首先将视频和音频提示输入编码，生成初始的压缩表示。然后，通过迭代的方式，扩散模型不断优化音频，从而使其与视觉信息和文本提示同步。

这一步骤确保生成的音频不仅具有高逼真度，还能准确反映视频中的场景和动作。最后，生成的音频被解码，转换为音频波形，并与视频数据结合。

为了提高音频质量并增加对特定声音生成的控制，V2A技术在训练过程中加入了多种训练数据，包括AI生成的详细音频描述和对话的转录。

通过这些额外的注释，V2A系统能够学习将特定的音频事件与各种视觉场景关联起来，并根据提供的注释或转录做出响应。

使得V2A技术在处理视频像素和生成音频时，不需要手动调整生成的声音与视频的对齐，从而避免了繁琐的声音、视觉和时间元素的调整，为生成逼真的音效奠定了坚实的基础。

此外，V2A在改进频中语音的口型同步方面进行了大量优化，会从视频输入和文字转录中抽取信息，生成初步的音频表示并通过扩散模型不断细化。

为了进一步提升口型同步的准确性，V2A在训练过程中加入了更多的信息，包括AI生成的详细音频描述和对话转录。可帮助V2A能够学习将特定的音频事件与各种视觉场景关联起来，并根据提供的注释或转录做出响应。这不仅改善了语音与口型的同步，还提高了整体音频生成的质量。

本文素材来源谷歌官网，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动