超强实体ChatGPT机器人:语音推理、视觉识别,“终结者”来啦!

添加书签

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

Figure.AI联合创始人Brett Adcock正式发布了最强实体机器人——Figure 02。

Figure 02在前一代01的基础之上进行了大量软硬件更新,搭配了6个RGB,成了OpenAI最新的多模态大模型,第四代人体骨骼手,外骨骼结构,更智能的语音推理模式,VLM视觉识别等。

下面「AIGC开放社区」为大家解读一下Figure 02的主要特色功能。

语音推理模式,这是本次Figure 02主打功能之一,通过板载麦克风 + 扬声器+OpenAI的多模态模型,使其能够像人类一样进行多轮深度语音对话,这对于仓储、家务等业务场景帮助非常大,可以让机器人准确执行各种操作,例如,可以在一个10000平米的大仓库,拿取特定的货物。

同时随着用户与机器人的互动增加,Figure 02能通过大模型不断优化其对话策略,学习用户的偏好和习惯,以提供更加个性化语音交流。

全新的视觉模型,上面那个案例提到去仓储拿货物,这不仅需要Figure 02能理解人类的语音命令,还要能导航到目的地并进行物体识别,而视觉模型便充当了“眼睛”的作用

Figure 02搭载了6个RGB摄像头,分别在头部、前躯干、后躯干,使其能实现多角度视觉识别。有人问过Brett,为什么不使用激光雷达扫描,他表示,一方面这会极大增加硬件成本,另一方面可能会出现很多意想不到的故障。

在摄像头捕获图像等数据后会交给视觉模型进行实时分析,快速响应环境中的变化,例如,障碍物、路径变化和取货物体等。

第四代人体骨骼手,每个手指和手腕都设计有多个关节,一共提供了16个自由度。允许手部执行复杂而精细的动作,这些自由度模仿了人类手部的自然运动范围,包括手指的弯曲、伸展、抓握以及手腕的旋转和倾斜。

这意味着Figure 02可以牢固地抓住物体,同时避免损坏脆弱物品,例如,在工业生产中,可以精准地抓取和操作各种工具和零部件;

在服务领域,能够像人类的手一样完成诸如搬运物品、整理物件等工作,进一步扩大了商业应用场景。

为了帮助Figure 02承受各种外力作用,同时能够有效地抵御碰撞载荷可能带来的损害,使用了外骨骼结构。

与第一代的01版本相比,Figure 02的外骨骼在结构设计、材料选择、制造工艺等多个方面都进行了大量更新,受到的冲击力以及缓解能力也更好。

更隐蔽、合理的结构布线,对于实体机器人来说一直是非常难的挑战。而Figure 02使用的集成布线技术,通过将电源线和数据线整合到单一的电缆中,减少了连接点的数量,减少了因接触不良或连接点磨损导致的故障风险。

此外,集成布线技术使得电线可以被隐藏在机器人的内部结构中,实现了布线的隐蔽性。不仅使得机器人的外观更加整洁美观,还保护了电线不受外部环境的影响,如灰尘、水分和机械冲击。

除了集成布线之外,Figure 02还设计了定制的电线端子和连接器,能够承受频繁的插拔而不易损坏,同时确保了电流和数据传输的高效稳定。定制的连接器还具备良好的兼容性和互换性,简化了维护和检修流程,降低了长期运营成本。

CPU、GPU作为实体机器人最重要的硬件部分,是实现多模态推理的关键。与前一代相比,Figure 02使用了最新的AI芯片算力和推理能力提升了3倍,使其能自动完成更多复杂、困难的任务。

为了充分发挥GPU、CPU的性能,Figure 02对其软件系统也进行了深度优化。包括内存管理、任务调度和I/O处理等多个方面,确保了数据在CPU和GPU之间的高效传输和处理,同时可以运行更多高性能的大模型。

目前,宝马已经在实际制造业务中使用了Figure系列实体机器人,相信随着新一代的推出,将会有更多工厂来使用这种多模态、高性能机器人。

本文素材来源Figure.AI,如有侵权请联系删除

END

本篇文章来源于微信公众号: AIGC开放社区