Sam Altman:GPT-4o幕后揭秘,GPT-5会很特别

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

5月16日,OpenAI首席执行官Sam Altman接受了,硅谷著名风险投资公司红点(Redpoint)的董事兼总经理Logan Bartlett专访。

本周二,OpenAI重磅发布了可跨文本、视频、音频推理的多模态大模型GPT-4o,其多元化的玩法、低延迟以及拟人化的声音,让11年前的科幻电影《Her》成为现实,人人都能拥有一个超强语音AI助手,似乎人类离AGI又更近了一步。

下面,「AIGC开放社区」根据这部46分钟的专访视频,以问答和解读的方式为大家整理所有主要关键内容,深度了解GPT-4o以及未来将发布的GPT-5,那就让我们开始吧。

专访第一段

Bartlett:GPT-4o可以跨文本、视频、音频进行推理,这很重要吗?

Altman:确实,我很早之前就有用语音控制计算机的想法,这是一种前所未有的综合推理模式。

语音助手有很多,例如,苹果的Siri但用起来非常不自然,机器味很浓,并且在语义理解方面也不是很好。所以,我想改变这一现状。

Bartlett:GPT-4o哪些用例让你感到很惊讶?

Altman:在发布GPT-4o之前,我体验了一周左右的时间,其中有一个用例是让我很惊喜的。

我只需要把手机放在桌子上与GPT-4o对话,就能完成很多之前需要频繁切换应用、浏览器才能完成的工作,就像不停地切换谷歌浏览器标签那样。

所有的工作内容都可以快速为你在一个平台中呈现出来,这对于依赖保持专注和效率的开发人员和专业人士来说是一个巨大的改变。

Bartlett:GPT-4o拥有如此特别的能力,你们做了哪些改变和尝试?

Altman:过去几年我们一直在研究音频、视频大模型,以及如何通过一种更高效的方法来训练、结合它们。

所以,GPT-4o的出现不是偶然,也不是最近才做的决定,而是很多年的技术沉淀和积累的结果,这是一种必然会出现的产品。

Bartlett:GPT-4o的低延迟,对于用户来说意味着什么?

Altman:GPT-4o的平均延迟只有200—300毫秒左右,这种交互效率在之前是无法想象的,也极大拓宽的了应用场景。

例如,可以帮助人们进行实时翻译、语音交互和视频分析等,眼睛有障碍的人通过GPT-4o可以实现重现“光明”;

而听力受损的用户可以基于文本和视觉功能完成日常交流;医生可以使用 GPT-4o 实时解析医学图像、转录患者数据以及分析医疗记录中的文本数据

所以,医学领域将是GPT-4o最大受益群体之一。

Bartlett:OpenAI下一步的重要产品是GPT-5吗?会使用更新颖的架构、功能吗?

Altman:我们现在暂时可以称它为GPT-5,但发布的时候会很特别,可能会换一种叫法,功能也与现在的有很大不同。

例如,从OpenAI发布GPT-1到现在的GPT-4,产品功能和叫法都是比较偏传统的。

到真正发布GPT-5时,可能名字会变,功能可能类似“虚拟大脑”一样去帮助用户处理各种任务,将是一种非常特别的尝试。

专访第二段

Bartlett:开源大模型领域正在追赶、超越,对此你有何看法?

Altman:非常好,他们做的不错,正在将一些领先的源代码分享给不同的群体。

Bartlett:未来的12个月,哪些应用程序领域最有前途?

Altman:编程领域,当然,这代表了我个人的偏见,但确实是这样的。

Bartlett:《华尔街日报》曾报道过,你要花一大笔钱打造AI芯片厂与英伟达等展开竞争,真的有这个必要吗?

Altman:首先,我有信心找到降低训练、推理等与AI相关的开发成本,但这需要巨大的算力支撑;其次,我希望将生成式AI技术分享给全人类使用,这对算力有巨大的需求;

第三,只有更多的人使用AI,才能为其提供实时反馈,实现功能上的迭代闭环。而算力是做这三件事的重要基础。

专访最后一段

Bartlett:人们一直在谈论AGI,它到底是什么样子的?现在来看好像这个概念还是比较抽象的,你是如何看待AGI的?

Altman:很多人会觉得AGI会像电影《星球大战》里的浮空车那样充满科幻感。其实,我觉得AGI就是可以帮助用户自动处理、协调好所有工作。例如,这个工作之前需要100人来做,现在通过AGI一个人就能做好。

Altman还谈到了他在YC时的投资心得、企业成长以及对其他产品、项目的看法,有兴趣的小伙伴可以查看文章中的原采访视频。

本文素材来源Logan Bartlett博客,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区