快手开源创新视频模型，轻松制作各种搞笑、鬼畜视频

添加书签

AIGC开放社区
2024-07-21

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

快手、中国科学技术大学、复旦大学的研究人员联合开源了创新视频模型——LivePortrait。

用户通过LivePortrait，只需要上传一张静态图片，一个示例视频，就能快速制作各种鬼畜、搞笑视频，同时提供了图像编辑功能，可以改变人物的眼睛和嘴巴张开比例。

目前，LivePortrait在Github非常火爆，开源时间很短却已突破7000颗星，非常适合快手、B站、抖音等平台或开发生成式AI应用。

开源地址：https://github.com/KwaiVGI/LivePortrait

在线demo：https://huggingface.co/spaces/KwaiVGI/LivePortrait

LivePortrait使用与案例展示

「AIGC开放社区」通过LivePortrait提供的在线demo体验了一下，简单、易用生成的效果相当好。

1）登录上面的在线试用地址，左面是上传要更改的图像，右面是上传示例视频。

2）这里咱们就用前去买瓜的刘华强试试，然后示例视频是平台自带的非常魔性的一个小姑娘。

3）上传完毕之后，点击下面的Animate 即可完成生成。通常只需要40秒左右，这在同类模型中速度相当的快。

完成后，会生成两个视频，一个是单图像视频，另外一个是带对比的视频。

4）给大家看看结果对比一下，我们上传了一张静态的图像，在示例视频的帮助下，将静态图像变成了非常搞笑的动态视频，而且嘴型、眼睛的运动轨迹、频率、表情基本一致。

在试一个蒙娜丽莎的，让她的静态图像也动起来。

古墓丽影的主角劳拉，也来一段搞笑秀。

在演示一下图像编辑功能，华强的眼睛好像有点小，咱给他改改。同样地址向下滑动就能看到这个功能，同样先上传一张图像，然后，需要改动target eyes-open ratio和target lip-open ratio这两个参数。

参数越大，眼睛和嘴巴也就张开的约夸张。

其实这个功能和PS的液化功能很像，但是比那个强大的多，例如，在更改完刘华强的嘴型后连大门牙都给补上了，这一点PS还是很难做到的。

对比下效果看看。

LivePortrait架构简单介绍

LivePortrait能生成逼真、精准的视频效果并对图像进行高效更改，隐式关键点（implicit keypoints）技术发挥了重要作用。

与传统的显式关键点不同，隐式关键点不是直接通过人脸检测算法获得的具体坐标点，而是通过神经网络隐式学习和表示，使得它们能够更细致地捕捉面部特征在不同表情和姿态下的复杂变化。

Blendshapes通常用于3D动画中，通过调整不同的形状权重，可以实现人脸面部肌肉的拉伸、收缩，从而模拟出微笑、皱眉、眨眼等各种表情，但这些都是明确规定出来的在应对变化方面很差。

而LivePortrait通过隐式关键点与Blendshapes之间的联系，利用小规模的多层感知机（MLP）来微调这些关键点，进而控制面部表情的精细变化。因此，LivePortrait框架中内置了拼接和重定位两大模块。

拼接模块主要负责将动画过程中各个帧之间的差异无缝连接起来，确保整个动画流程的连贯性和自然度。它通过优化隐式关键点，确保即使在处理多个人物的肖像动画时，也能实现无缝拼接，避免了传统方法中可能产生的不自然断裂感。

重定位模块则是为了提高动画中特定部位，为眼睛和嘴唇的精确度而设计的。通过这个模块，LivePortrait能够精确控制眼睛的睁开程度和嘴唇的形态，确保动画人物的眼神交流和说话动作更加真实可信。

例如，在动画人物讲话时，嘴唇的开合与语音同步，而在眨眼瞬间，眼睛的闭合动作也会更加自然。

此外，研究团队还收集了大约6900万张高质量的肖像图像，涵盖了各种风格和大小，通过混合图像和视频的训练策略，来提升LivePortrait的生成质量和泛化能力。

本文素材来源LivePortrait论文，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动