上海AI实验室发布——“央视听媒体大模型”

添加书签

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

7月20日,第二届全球媒体创新论坛在上海召开,230余位来自国际组织、中外主流媒体机构、中外智库、跨国企业等各领域代表,通过线上线下方式参与论坛及相关活动。在本届论坛上,上海人工智能实验室(上海AI实验室)、中央广播电视总台联合发布“央视听媒体大模型”(CMG Media GPT)。

据了解,此前在2023世界人工智能大会开幕式上,上海AI实验室联合中央广播电视总台等单位发起成立了大模型语料数据联盟。此次双方共同发布“央视听媒体大模型”,将“以原创技术,促内容原创”,携手推动视听媒体编创范式变革,以科技创新加速赋能视听产业应用。

“当我们谈论大模型时,不应只关注对话聊天功能,更应看到它在提高生产效率方面的作用。”上海AI实验室主任助理乔宇表示,上海AI实验室将与学术界、产业界紧密合作,共同推动大模型落地应用,使之成为推动生产力变革的技术基础设施和社会发展的重要基石。

目前,“央视听媒体大模型”具备了强大的视频理解能力和视听媒体问答能力,AI相当于拥有了感知真实世界的“眼睛”和“耳朵”。

同时,该大模型可根据提供的视频创作文字——从主持词到新闻稿件,甚至诗歌。媒体编辑可在大模型的协助下,一键为视频生成风格各异的解说词,当前生成内容已覆盖美食、文化和科技等多个领域。

上海AI实验室科研团队介绍,“央视听媒体大模型”具备的视觉理解能力,源于跨模态互动技术的最新突破——大模型将图像/视频视为另一种“语言”,并将视觉与语言对齐,从而降低人工智能视觉任务的门槛。基于对多模态数据的建模,“央视听媒体大模型”可感知图像的风格与纹理笔触,通过将用户输入的文本指令与图像对齐,实现按照用户需求生成画面及风格一致的其他内容。

业内人士表示,以大模型的多模态理解、交互和生成能力为基础,媒体工作者将来有望在“聊天”中完成工作。

本文来源经济参政报,如有侵权请联系删除

END