超强实体ChatGPT机器人：语音推理、视觉识别，“终结者”来啦！

添加书签

AIGC开放社区
2024-08-07

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

Figure.AI联合创始人Brett Adcock正式发布了最强实体机器人——Figure 02。

Figure 02在前一代01的基础之上进行了大量软硬件更新，搭配了6个RGB，成了OpenAI最新的多模态大模型，第四代人体骨骼手，外骨骼结构，更智能的语音推理模式，VLM视觉识别等。

下面「AIGC开放社区」为大家解读一下Figure 02的主要特色功能。

语音推理模式，这是本次Figure 02主打功能之一，通过板载麦克风 + 扬声器+OpenAI的多模态模型，使其能够像人类一样进行多轮深度语音对话，这对于仓储、家务等业务场景帮助非常大，可以让机器人准确执行各种操作，例如，可以在一个10000平米的大仓库，拿取特定的货物。

同时随着用户与机器人的互动增加，Figure 02能通过大模型不断优化其对话策略，学习用户的偏好和习惯，以提供更加个性化语音交流。

全新的视觉模型，上面那个案例提到去仓储拿货物，这不仅需要Figure 02能理解人类的语音命令，还要能导航到目的地并进行物体识别，而视觉模型便充当了“眼睛”的作用。

Figure 02搭载了6个RGB摄像头，分别在头部、前躯干、后躯干，使其能实现多角度视觉识别。有人问过Brett，为什么不使用激光雷达扫描，他表示，一方面这会极大增加硬件成本，另一方面可能会出现很多意想不到的故障。

在摄像头捕获图像等数据后会交给视觉模型进行实时分析，快速响应环境中的变化，例如，障碍物、路径变化和取货物体等。

第四代人体骨骼手，每个手指和手腕都设计有多个关节，一共提供了16个自由度。允许手部执行复杂而精细的动作，这些自由度模仿了人类手部的自然运动范围，包括手指的弯曲、伸展、抓握以及手腕的旋转和倾斜。

这意味着Figure 02可以牢固地抓住物体，同时避免损坏脆弱物品，例如，在工业生产中，可以精准地抓取和操作各种工具和零部件；

在服务领域，能够像人类的手一样完成诸如搬运物品、整理物件等工作，进一步扩大了商业应用场景。

为了帮助Figure 02承受各种外力作用，同时能够有效地抵御碰撞载荷可能带来的损害，使用了外骨骼结构。

与第一代的01版本相比，Figure 02的外骨骼在结构设计、材料选择、制造工艺等多个方面都进行了大量更新，受到的冲击力以及缓解能力也更好。

更隐蔽、合理的结构布线，对于实体机器人来说一直是非常难的挑战。而Figure 02使用的集成布线技术，通过将电源线和数据线整合到单一的电缆中，减少了连接点的数量，减少了因接触不良或连接点磨损导致的故障风险。

此外，集成布线技术使得电线可以被隐藏在机器人的内部结构中，实现了布线的隐蔽性。不仅使得机器人的外观更加整洁美观，还保护了电线不受外部环境的影响，如灰尘、水分和机械冲击。

除了集成布线之外，Figure 02还设计了定制的电线端子和连接器，能够承受频繁的插拔而不易损坏，同时确保了电流和数据传输的高效稳定。定制的连接器还具备良好的兼容性和互换性，简化了维护和检修流程，降低了长期运营成本。

CPU、GPU作为实体机器人最重要的硬件部分，是实现多模态推理的关键。与前一代相比，Figure 02使用了最新的AI芯片算力和推理能力提升了3倍，使其能自动完成更多复杂、困难的任务。

为了充分发挥GPU、CPU的性能，Figure 02对其软件系统也进行了深度优化。包括内存管理、任务调度和I/O处理等多个方面，确保了数据在CPU和GPU之间的高效传输和处理，同时可以运行更多高性能的大模型。

目前，宝马已经在实际制造业务中使用了Figure系列实体机器人，相信随着新一代的推出，将会有更多工厂来使用这种多模态、高性能机器人。

本文素材来源Figure.AI，如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区

即将举行的活动