GPT-4 Turbo大更新,全面开放Vision功能!

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

4月10日,OpenAI在社交平台宣布,全面开放GPT-4 Turbo API中的Vision(视觉识别)功能,并且很快将上线至ChatGPT。

开发者在使用Vision时可以使用JSON 模式和函数调用。这也就是说,可以通过Vision去做更多复杂、精准的操作,例如,图像的分类、检测、数据转换等。

2023年11月6日,OpenAI在首届开发者大会上发布了GPT-4 Turbo模型,当时已经向部分开发人员开放了Vision。

该功能与传统的OCR(光学字符识别)类似,不过Vision可以将提取的数据与大模型相结合使用,所以,玩法和应用场景更广阔一些。

目前,已经有很多企业和个人开发者通过Vision开发了很多实际的业务用例。

例如,前段时间爆火的首个AI代理Devin的视觉识别功能,便由Vision提供技术支持。

可以快速提取、识别用户输入的任何超链接或图像,并且能基于提取的内容进行深度对话,实现更多的代码功能。

著名应用Snap的开发团队通过Vision,开发了一个识别功能。可以快速检测全球世界各地的美食,并提供详细的营养见解以及饮食需求。

例如,在得到食物的营养列表后,可以继续发问能根据这个食物,给我一份详细的3周减肥计划吗?

有人用Vision开发了一个可视化代码平台,用户只需要在白板UI上进行绘制,就能通过Vision强大的识别和转换能力,将草图直接生成网站。

简单来说,Vision相当于大模型的“眼睛”,可以将很多看到的图像、标签、符号等转化成特定的数据,这极大的扩大了开发应用的边界。

此外,GPT-4-turbo的训练数据也进行了更新,已经截止至2023年12月,比之前多了8个月的时间。上下文方面最多支持12.8万tokens。

本文素材来源OpenAI社交平台,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区