谷歌发布Gemini Live:对标GPT-4o,让每一个人都有贾维斯

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

谷歌在今天凌晨举办的“Made by Google 2024”大会上,正式发布了智能语音助手Gemini Live。

Gemini Live的功能与OpenAI在5月推出的GPT-4o语音模式类似,支持自然语言提问,能识别图像、视频和语音是一个多模态智能助手。

例如,打开Gemini Live拍摄一幅清明上河图,然后让其讲解这幅画的历史来历。在讲解的过程中,可以任意打断其对话就像朋友聊天一样。

也可以授权Gemini Live访问你的邮箱、地图和通讯录,只需要向它说”今晚8点,帮我约阿乐去有福气酒楼吃饭。”就能帮你自动完成,基本上和钢铁侠的AI助理贾维斯差不多。

虽然OpenAI的GPT-4o语音模式展示的很早,但属于起大早赶了一个晚集至今3个月的时间还在小范围测试,而谷歌直接快刀斩乱麻领先OpenAI发布语音助手,抢占了安卓手机的市场。

所以,不少用户表示这一次谷歌确实领先了OpenAI一步。当产品性能差不多的情况下,谁能领先发布,谁就能抢占先机。

从大语言模型再到语音助手,看来谷歌的Gemini是要和OpenAI的ChatGPT死磕到底了。

也有人认为,Gemini Live的出现,可能会让很多人放弃使用苹果。其实这个不用着急,谷歌已经明确表示了会在iOS系统中发布只是时间问题。

在Gemini Live演示的现场出现了一个小插曲,主持人拍了一个日历,然后向Gemini Live提问“请查看我的日历,看看她今年来旧金山的时,我是否有空?”尴尬的一面出现了,Gemini Live没有任何反应。

连续问了三次,在第三次主持人已经汗流浃背的时候,Gemini Live才开始回答,“我发现她将于2024年11月9日来旧金山。我查看了你的日历,那段时间你没有任何活动。”

现场瞬间爆发出惊喜的尖叫声~

台下的尖叫声确实让人绷不住,属于演艺圈老传统了。

前两次的提问丝毫没有反应,那一刻对于主持人来说,世界仿佛都静止了。

那个尖叫声让我咳嗽的厉害,俺甚至都无法呼吸了~

不过也有人表示,相比于提前录制好的演示demo,即便是失败两次也喜欢这种直接演示的,他的勇气、真诚和敢于冒险精神那是相当值得称赞的。

Gemini Live的使用方法非常简单,长按电源按钮或对着手机直接说“Hey Google”就能开始使用。

Gemini Live除了能理解语音、图片、视频之外,还能生成图片,例如,帮我生成一张用于生日庆祝的图片,并且可以直接放在谷歌生态应用中使用。

谷歌表示,Gemini Live已经与其邮件、云盘、相册、天气等原生应用进行了集成,未来会扩展至Keep、Tasks、Utilities等知名应用,可以帮助人们自动完成更多的日常任务。

目前,安卓手机Gemini Advanced英文版订阅用户已经可以使用Gemini Live,提供了10种语音选择和45种语言,未来几周谷歌将扩展至iOS系统和更多语言。

本文素材来源谷歌官网,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区