重磅！OpenAI发布GPT-4o，非常惊艳语音版ChatGPT！

添加书签

AIGC开放社区
2024-05-14

5月14日凌晨，OpenAI在官网正式发布了新旗舰模型GPT-4o，可跨视频、音频、文本进行实时推理，全球生成式AI领域再次迎来历史性时刻。

OpenAI通过GPT-4o打造的语音版ChatGPT助手，可以与用户跨音频、视频进行交流，例如，让GPT-4o进行实时翻译、唱歌、做数学题、讲笑话等。简单点说吧，以后家教、翻译、秘书的饭碗都不保了。

2013年曾获得奥斯卡最佳原创剧本的电影《Her》，为我们呈现了一场人与AI的“恋情”，Her的无所不能展现出了AI强大和恐怖的一面。

11年后，GPT-4o将这部电影变成了现实，人人都可以拥有一个Her。

GPT-4o功能展示

OpenAI对GPT-4o的功能进行了大量展示，这里「AIGC开放社区」就选几个有代表性的吧。例如，通过手机与GPT-4o视频，让其解读一下你的想法。

首先，OpenAI的员工拿着手机拍摄了周围的场景，很快GPT-4o便给出周围的环境描述。接着员工让GPT-4o猜测他今天要做什么的时候，它说可能会与OpenAI有关，开一个发布会之类的。

当员工说出这个发布会与“你”有关时，它的回答有点让人觉得恐怖，居然会像人一样表现出惊讶和停顿，这是以往任何语音助手都不具备的技术特征。

OpenAI总裁兼联合创始人Greg Brockman让两个GPT-4o语音助手互相对话并唱歌。

一位父亲希望GPT-4o可以辅导他的儿子做一道很难得数学题。它没有像以往的ChatGPT一下子把所有答案都给出来，而是像家教一样，一句一句的用引导的方式告诉他应该如何解答这道题。

当「AIGC开放社区」看到这里时也为那些辅导老师捏了一把汗，估计在进化几次连家教的饭碗也不保了。

和GPT-4o相处久了，应该向它介绍点朋友吧。这不OpenAI展示了GPT-4o社牛的一面，直接解读了一条宠物狗。

当你想与法国人、塞尔维亚人、匈牙利人进行对话时怎么办？只能用翻译软件吧，但是那种传统的太慢了不太适合交流。通过GPT-4o可以做到实时翻译了，当你说完一句话时，它已经帮你翻译好了并且是语音输出的。

怎么样，看完这几个案例对GPT-4o有何感受，是不是和电影中的Her几乎差不多了？更惊喜的是OpenAI宣布免费开放使用，即便你不是付费用户也没问题。

GPT-4o测试数据

GPT-4o是一个多模态模型，可以在一个神经网络中输入和输出文本、视频、音频3种数据格式。

根据OpenAI给出的官网评测显示，GPT-4o的语音响应可以短至232毫秒，平均响应为320 毫秒。GPT-4o的英语文本和代码能力和 GPT-4 Turbo 的性能差不多。

GPT-4o在MMLU的评测中创下了88.7% 的新高分，超过了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。

GPT-4o的音频ASR性能比 Whisper-v3 显着提高了对所有语言的语音识别能力，特别是对于那些非常稀少的小语种，并且音频的翻译能力超过了谷歌的Gemini。

目前，GPT-4o的文本和图像功能已经在ChatGPT中开放使用，免费注册用户也可以体验该功能。

开发人员通过API可以访问GPT-4o 的文本和视觉功能。与GPT-4 Turbo相比，GPT-4o 速度提高了2倍价格低了50%，并且极大降低了tokens限制。

未来几周内，OpenAI会在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版。让我们期待一下更强的Her出现吧。

本文素材来源OpenAI官网，如有侵权请联系删除

即将举行的活动