终于来了,OpenAI测试GPT-4o高级语音模式!

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

OpenAI宣布开始向小部分ChatGPT Plus用户,测试GPT-4o的高级语音模式。

本次测试将主要搜集安全、功能方面的反馈,OpenAI会在8月初分享一份全面的GPT-4o评估报告。随后,还会发布视频和屏幕共享新功能。

获取测试权限的用户会收到OpenAI发送的一份邮件,一位专门写AI专栏的作者已经拿到了测试资格。

他希望GPT-4o可以像足球解说员那样,用激情的语气去解说一场球赛,并在最关键的进球时刻表现出热血澎湃的呐喊。

第一次GPT-4o好像并没有达到Cristiano的要求。随后又要求GPT-4o来了一次更激情的,这一下真把AI逼成黄健翔了,有当年德国世界杯解说那味了

严重怀疑,GPT-4o这段学习了当年意大利对阵澳大利亚的那场经典比赛,并且还在解说中加入了背景噪音这一点挺神奇的。

还有人用GPT-4o进行口语练习,并且会对你的发音进行评分。这对于教育来说帮助是非常大,可以让很多没钱请私教的家庭也能公平的享受教育福利。

多语言支持是GPT-4o的一大技术特点,有人测试了法语、西班牙语和乌尔都语,听起来都挺丝滑的。

有网友表示,GPT-4o相当于为每个人配备了一个专业翻译,以后全球各个国家交流将不会有太大的障碍,这对于旅游是好事,翻译行业基本要被抢饭碗了。

还有人伤感的说,他的所有朋友都去世了。但通过这个语音模式和自定义GPT就能“复活”他们,再次与他们聊天自己也不会感到孤独了。看来语音模式用途还挺广泛的。

虽然开放测试了,但只是一小部分,这让人很头疼啊。那其他用户需要等三天、一周还是一个月呢?

其实OpenAI已经宣布了,经过本轮测试后,预计今年秋天OpenAI会向所有ChatGPT Plus用户开放GPT-4o的语音模式。但仍然有人已经迫不及待的想使用了。

早在今年5月14日,OpenAI发布了最新可跨视频、音频、文本进行实时推理的旗舰模型GPT-4o。

语音推理模式成为GPT-4o主打功能,支持超过40种语言,能提供实时翻译、唱歌、练习口语、做数学题、讲笑话等。当时在全球科技界引起巨大轰动,随后宣布在几周内开启测试。

但一共拖了两个月才开始测试,OpenAI表示是因为产品还有安全、性能、算力等方面的问题需要调整,所以延缓了发布时间。

由于ChatGPT Plus需要付费并且国内访问比较麻烦,可以尝试一下商汤科技在今年WAIC 2024大会上推出的“国产版GPT-4o”—— 日日新5o大模型

日日新5o不仅在理解文本和图像方面表现出色,还能够理解和生成视频内容,展现出强大的多模态理解与生成能力,能够进行跨文本、音频、图像与视频的推理,提供更加丰富和准确的回答。

商汤的日日新5o展示

在全球权威测评中,日日新5.5的得分超过了GPT-4o,显示出其在英文能力、指令跟随、长文本理解等方面的显著提升。

此外,5o模型采用了混合端边云协同专家架构,基于超过10TB tokens的高质量数据训练,能够在保持高性能的同时降低推理成本,有兴趣的小伙伴可以体验一下。

本文素材来源OpenAI,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区