谷歌展示全球首个多任务RoboCat:仅需100次训练,可自我优化!

添加书签

专注AIGC领域的专业社区,关注OpenAI、百度文心一言等大语言模型(LLM)的发展和应用落地,关注LLM的基准评测和市场研究,欢迎关注!

6月21日,谷歌旗下的DeepMind展示了可自我进化的,多任务AI机器人——RoboCat。(论文:https://arxiv.org/abs/2306.11706
据悉,RoboCat的学习速度比目前最先进的模型还要快,仅需要最少100次演示就能完成训练,可通过自我生成的数据进行优化、改进。
DeepMind表示,RoboCat对于工业、汽车业、制造业、互联网以及其他多任务领域非常有用,仅需很短的时间就能完成动作训练投入到实际业务中,可大幅度提升生产效率。
RoboCat展示
RoboCat如何实现自我进化
RoboCat是基于DeepMind发布的多模态大模型Gato开发而成。Gato可以在模拟和物理环境中处理语言、图像和动作。
DeepMind将Gato 的架构与大量图像序列和各种机器人手臂动作的训练数据集相结合,解决了数百个不同的任务。
在第一轮训练结束后,DeepMind让 RoboCat 进入“自我进化”训练周期,其中包含一系列以前从未见过的人物。每个新任务的学习都遵循以下五个步骤:
1)使用由人类控制的机械臂,收集100-1000 个新任务或机器人的演示。
2)在新任务/手臂上微调 RoboCat,创建一个衍生代理。
3)衍生代理平均对新任务/手臂进行 10,000 次练习,生成更多训练数据。
4)将演示数据和自生成数据合并到 RoboCat 现有的训练数据集中。
5)在新的训练数据集上,训练新版本的RoboCat。
所有这些训练的结合意味着,最新的RoboCat 将是基于数百万条轨迹的数据集,来自真实和模拟的机械臂,包括自我生成的数据。
DeepMind使用四种不同类型的机器人和许多机械臂来收集基于视觉的数据,这些数据代表RoboCat 将被训练执行的任务。 
快速学习多种不同机械臂
经过多样化的训练,RoboCat在几个小时内就学会了操作不同的机械臂。虽然RoboCat是在带有双指夹具的手臂上进行训练,但它能够适应带有三指夹具和两倍的可控输入的更复杂的手臂。
RoboCat在观察了短短几个小时内收集到的1000 次人类控制演示后,可以轻松地使用新的机械手臂。
通过相同水平的演示,RoboCat可以适应解决结合精度和理解的任务,例如,从碗中取出正确的水果并解决形状匹配的难题,这是更复杂的控制所必需的。 
持续自我优化
RoboCat具备良性的训练循环体系:学习的新任务越多,学习更多新任务的能力就越好。在从每个任务的500次演示中学习之后,RoboCat 的初始版本在之前未见过的任务上仅成功了36%。
但最新的 RoboCat 经过了更多样化任务的训练,在相同任务上的成功率提高了一倍多。
学习的大幅度改进主要归功于RoboCat持续的自我优化功能,类似于人类在加深特定领域的学习时,如何发展更多样化的技能。
RoboCat 独立学习技能和快速自我优化、学习的能力,尤其是当应用于不同的机器人设备时,将有助于为新一代通用机器人铺平道路。
关于DeepMind
DeepMind创立于2010年,总部位于英国伦敦。2014年,DeepMind被谷歌公司以约5亿美元的价格收购,此后成为了谷歌旗下的一部分,专注于AI研究。

DeepMind最知名的项目是AlphaGo,这是一个使用深度学习和强化学习的围棋程序。2016年,AlphaGo在一场五局比赛中以4胜1负的成绩战胜了世界冠军围棋选手李世石,引起了全球的关注。此后,DeepMind又推出了AlphaGo的升级版—AlphaGo Zero和AlphaZero。

本文素材来源谷歌DeepMind,如有侵权请联系删除

END