ChatGPT重磅升级:可以看图、听声音、说话啦!
添加书签专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!
美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。
早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图,连识别声音也来了,这是OpenAI实现AGI(通用人工智能)战略重要技术环节。
OpenAI表示,在接下来的两周内,向Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用,图片识别全平台可以使用。
用语音与ChatGPT交流
ChatGPT新的语音功能由一个文本到语音模型提供支持,能够仅通过文字和几秒钟的样本语音生成类似人类的音频。
OpenAI与专业的配音演员合作,创建了5种合成语音,同时使用了自研开源语音识别系统 Whisper,将用户的语音转录成文本。
简单来说,以后用户想将文本直接生成语音,可以在ChatGPT中完成了。
例如,让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。
本文素材来源OpenAI官网,如有侵权请联系删除
END