GPT-4 Turbo大更新，全面开放Vision功能！

添加书签

AIGC开放社区
2024-04-11

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

4月10日，OpenAI在社交平台宣布，全面开放GPT-4 Turbo API中的Vision（视觉识别）功能，并且很快将上线至ChatGPT。

开发者在使用Vision时可以使用JSON 模式和函数调用。这也就是说，可以通过Vision去做更多复杂、精准的操作，例如，图像的分类、检测、数据转换等。

2023年11月6日，OpenAI在首届开发者大会上发布了GPT-4 Turbo模型，当时已经向部分开发人员开放了Vision。

该功能与传统的OCR（光学字符识别）类似，不过Vision可以将提取的数据与大模型相结合使用，所以，玩法和应用场景更广阔一些。

目前，已经有很多企业和个人开发者通过Vision开发了很多实际的业务用例。

例如，前段时间爆火的首个AI代理Devin的视觉识别功能，便由Vision提供技术支持。

可以快速提取、识别用户输入的任何超链接或图像，并且能基于提取的内容进行深度对话，实现更多的代码功能。

著名应用Snap的开发团队通过Vision，开发了一个识别功能。可以快速检测全球世界各地的美食，并提供详细的营养见解以及饮食需求。

例如，在得到食物的营养列表后，可以继续发问能根据这个食物，给我一份详细的3周减肥计划吗？

有人用Vision开发了一个可视化代码平台，用户只需要在白板UI上进行绘制，就能通过Vision强大的识别和转换能力，将草图直接生成网站。

简单来说，Vision相当于大模型的“眼睛”，可以将很多看到的图像、标签、符号等转化成特定的数据，这极大的扩大了开发应用的边界。

此外，GPT-4-turbo的训练数据也进行了更新，已经截止至2023年12月，比之前多了8个月的时间。上下文方面最多支持12.8万tokens。

本文素材来源OpenAI社交平台，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动