媲美Sora,最长2分钟!快手发布文生视频大模型-可灵

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

国内著名短视频平台快手的AI团队发布了文生视频大模型“可灵”( Kling)。

可灵通过文本就能生成2分钟、1080P、每秒30帧的超长视频。在色彩、视频质量、动作一致性、文本语义理解等方面可以媲美OpenAI的Sora,同时具备模拟物理世界的技术特性。

值得一提的是,与其他demo模型相比,可灵已经开放测试,直接在其官网下载应用就能马上体验。

体验地址:https://kling.kuaishou.com/#create-video-view

可灵生成的2分钟视频,场景切换非常丝滑

据悉,可灵使用了与Sora一样的Diffusion Transformer架构,3D时空联合注意力机制等,该架构巧妙地融合了时间与空间的信息,对视频数据进行综合分析和处理。

可精准捕捉到视频帧内的局部空间特征以及跨帧的时间动态特征,从而更全面地理解和再现视频中的运动信息。

所以,无论是快速移动的物体、剧烈变化的场景,还是复杂的人物动作都能被精确捕捉,使得生成的视频内容动态性十足,同时具有很高的物理世界真实感。

在生成一些跨度较大的场景时,例如,四季变化、剧烈视角切换等,通过3D时空联合注意力机制在编码器和解码器之间建立多维度的关联,确保了即使在大幅度剧烈运动的情况下,生成的视频内容也能保持流畅和连贯,从上面可灵生成的视频就能看出来这一技术特点。

此外,可灵采用了可变分辨率的训练策略,在模型的训练阶段,引入不同分辨率的数据输入,让模型学习到丰富的特征表示。轻松适配手机、平板、PC等不同设备,以满足电影制作、游戏开发、社交营销、在线教育等不同业务场景的需求。

下面「AIGC开放社区」为大家展示一下由可灵大模型生成的视频。

文本提示:一只戴着太阳镜的柯基在热带岛屿的海滩上漫步

一个戴眼镜的中国男孩在快餐店里闭着眼睛享用美味的芝士汉堡。

一只白猫开车穿过繁忙的市中心街道,背景中有高楼和行人。

一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。

一个中国男人坐在桌前,用筷子吃面条。

正在弹吉他的大熊猫。

这些由可灵生成的视频案例在动作协调性/一致性、色彩、运动率方面,与同类型相比还是相当出色的,有兴趣的小伙伴可以直接下载使用啦。

本文素材来源可灵大模型官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区