智东西
作者 | 云鹏
编辑 | 心缘
(资料图片仅供参考)
智东西6月21日消息,刚刚, 谷歌DeepMind推出了一种可以自我改进、自我提升(self-improving)的用于机器人的AI智能体,名为RoboCat。
DeepMind称它是全球第一个可以解决和适应多种任务的机器人AI智能体, 并且它可以在各类真实的机器人产品上完成这些任务。
RoboCat操控机械臂完成各种各样的任务,来源:Google DeepMind
整体来看,RoboCat最主要的突破在三个方面:
1、DeepMind让一个神经网络能在多个不同的机器人上工作,可以快速操作新的机械臂,解决新的复杂任务。
2、RoboCat学习的新任务越多,就越擅长学习和解决额外的新任务。
3、RoboCat是通用机器人领域的重要研究进展,能够减少对人类监督训练的需求。
RoboCat解决更多类型的任务,来源:Google DeepMind
AI智能体可以自己操控机械臂,学习玩套圈、搭积木、抓水果了!效率极高,还不需要多少人力。
只需要通过100次左右的演示,RoboCat就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。
最重要的是, 不论是它操控的机械臂还是它要完成的任务,RoboCat之前都从来没见过。
RoboCat可以解决的各类任务,来源:Google DeepMind
这种 “通用性学习能力” 是RoboCat的强项,此外,RoboCat最主要的特点就是 “学得快”, 这种能力对于加快机器人领域的研究有重要意义,因为有了这种能力,人类监督训练的需求就会极大减少,这是创造通用机器人非常重要的一环。
在DeepMind演示视频中,RoboCat可以通过自主学习完成“套圈”、“搭积木”、“拿放水果”等任务。目前 RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。
RoboCat前后版本完成任务成功率对比,来源:Google DeepMind
并且根据DeepMind论文, RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案, 领先幅度还是比较明显的,这也是DeepMind研究的重要价值所在。
RoboCat与基于视觉的模型在完成现实世界训练任务成功率方面的对比,来源:Google DeepMind
值得一提的是,RoboCat用到的关键技术之一,是一种 多模态模型(multimodal model)Gato, 而Gato在西班牙语里意为“猫”,也就是“cat”,这也是“RoboCat”这一命名的由来之一。
此前研究人员已经在机器人大规模学习多种任务方面进行了探索,并将对语言模型的理解与现实世界的机器人能力相结合。 而RoboCat的进步性在于,它是第一个可以解决和适应多种任务的机器人AI智能体。
DeepMind认为,RoboCat独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将 对新一代通用机器人AI智能体的发展起到重要推动作用。
论文地址:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf
首先,我们来看看这个RoboCat到底能做什么。
从DeepMind的演示视频中我们可以看到,研究人员在机器人的摄像头下面将物体摆好,机器人就会将摆好的物体状态设定为“目标图像”,在设定好目标图像后,研究人员会将物体的摆放位置还原,然后让机器人操作还原刚才的物体摆放状态。
RoboCat完成“套圈”任务,来源:Google DeepMind
在“套圈”这个任务中,RoboCat可以很好的操控机械臂还原橘红色圆圈的位置。
在同一类“套圈”任务中,RoboCat还可以解决更复杂的情况,比如区分大圈和小圈并准确套在对应的金属柱上。
RoboCat完成更复杂的“套圈”任务,来源:Google DeepMind
DeepMind还演示了一个任务,就是抓水果。这个任务RoboCat已经在此前的训练中看到过,但值得注意的是,此前的训练数据中从来没有过“人手”出现,这次研究人员给RoboCat设定的目标图像中却包含了人手,最终,RoboCat仍然可以顺利完成任务。
RoboCat在目标图像有“人手”干扰的情况下完成抓水果任务,来源:Google DeepMind
这还没完,后续研究人员进一步提高难度,让RoboCat操控了一个它之前从未见过的机械臂,这个机械臂跟之前抓水果用的有所不同,但最终RoboCat依然可以操控这一新的机械臂来成任务。
RoboCat操控从未见过的机械臂完成此前学过的任务,来源:Google DeepMind
在另一个“搭积木”的测试中,研究人员展示了RoboCat的另一项技能,当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态。
当目标图像设定好后,不论初始积木位置是怎样的,RoboCat都可以很好的还原目标图像中的积木状态,来源:Google DeepMind
除了搭积木,RoboCat还可以完成将水果从碗里拿进拿出这样的任务。
具体来看RoboCat背后的硬核技术,DeepMind提到, RoboCat用到了一种多模态模型Gato ,Gato模型可以在模拟环境和物理环境中处理语言、图像和动作,研究人员将Gato的架构与一个大型训练数据集进行了结合,这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。
在第一轮训练之后,研究人员让RoboCat进入一个“自我提升(self-improvement)”的训练周期,在这个训练周期中,RoboCat会学习解决很多以前从未见过的任务。
每项新任务的学习分为五个步骤:
1、收集100-1000个由研究人员控制的机械臂完成的新任务演示。
2、在新任务所使用的机械臂上微调(Fine-tune)RoboCat,创建一个专用的衍生代理。
3、衍生代理在机械臂上练习10000次,以生成更多的训练数据。
4、将演示数据和自生成数据合并到RoboCat的现有训练数据集中。
5、在新的训练数据集上训练RoboCat的新版本。
RoboCat的训练周期示意图,它能够自生成额外的训练数据,来源:Google DeepMind
上述所有这些训练的结合,意味着RoboCat的数据集将包含数百万次的训练轨迹数据,这些数据来自真实机械臂以及模拟机械臂,包括了RoboCat自生成的数据。
RoboCat从各种训练数据类型和任务中学习,来源:Google DeepMind
研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。
RoboCat使用现实和虚拟机械臂积累训练数据,来源:Google DeepMind
在上述这种多样化的训练方式下, RoboCat可以在几个小时内学会操作不同的机械臂,包括一些更加复杂的从未见过的机械臂。
RoboCat可以操作这些机械臂完成之前见过的任务,比如套圈、拿取水果,甚至是在对应形状的格子中放上对应形状的物品,这些任务会考验RoboCat操作的精准度、理解力以及对于形状匹配难题的解决能力。
RoboCat用新机械臂完成此前学过的任务,来源:Google DeepMind
用DeepMind的话来说, RoboCat是一个“自我提升的通才”, 因为它是基于一个良性的训练循环来学习新任务。简单来说, 它学习的新任务越多,它就能更好地学习和解决额外的新任务。
最初版本的RoboCat,在每个新任务进行500次演示后,只有36%的概率能成功的完成之前从未见过的任务,但是最新版本的RoboCat已经将这一成功率提升至74%。
这些提升归功于RoboCat不断增长的经验广度,就像人类在特定领域不断深化学习,从而发展出更加多样化的能力一样。
今天,机器人在我们的生活中已经广泛应用,但大部分机器人只能完成特定的任务,这些机器人基本上都是被提前编程设定好的。
在制造可以完成更多种类任务的“通用机器人”方面,研究进展一直很缓慢,因为收集现实世界中的训练数据是非常费时费力的。
RoboCat这种独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。
在全球AI研究热点涌向大模型的当下,谷歌DeepMind似乎对大模型竞赛并不热衷,仍专注于解决AI如何与物理世界交互的问题,并将研究重心锁定在优化机器人技术的基础模型上。
而最新发布的RoboCat,绝对是个了不起的AI模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务,只需100次演示就能学会在不同的机器人上执行各种任务,从自生成训练数据提高技能的方法令人眼前一亮。
多模态AI模型的引入,为迈向通用机器人的历程贡献了又一个激动人心的进展!
来源:Google DeepMind
关键词:
智东西作者|云鹏编辑|心缘智东西6月21日消息,刚刚,谷歌DeepMind推出更多
2023-06-23 01:07:59点击上方蓝字关注我们2023年6月21日,第十五届北京市体育大会——北京更多
2023-06-23 01:10:021、【潇湘溪苑】【原创】我是你的可有可无(exo,微虐)【潇湘溪苑】【更多
2023-06-22 22:38:15继长城集团发布了全新Hi4智能电混四驱系统后,首搭该技术的枭龙MAX也随更多
2023-06-22 22:44:25启动仪式现场。红网时刻新闻6月22日讯(记者肖依诺郭薇灿通讯员徐孟琴更多
2023-06-22 21:40:04目前,全国已夏播粮食72 3%,进度同比快0 9个百分点。今年更多先进农机更多
2023-06-22 21:30:2522日上午,宁夏医科大学总医院组织多学科专家对烧烤店燃气爆炸事故中的更多
2023-06-22 20:46:46“门前艾蒲青翠,天淡纸鸢舞。粽叶香飘十里,对酒携樽俎。”这是北宋文更多
2023-06-22 20:31:20“村BA”又开幕了!火爆出圈一年以来,这项发源于贵州省台江县的乡村篮更多
2023-06-22 19:36:471、suo第一声还有sha第一声sa第一声。本文到此分享完毕,希望对大家有更多
2023-06-22 19:11:54为进一步推动中华优秀传统文化传承发展,丰富居民群众传统节日文化生活更多
2023-06-22 19:10:051、猴猴龙虎虎生威。本文到此分享完毕,希望对大家有所帮助。更多
2023-06-22 19:03:43【枕头下面全是武器是什么意思梗】今天的关注度非常高,直接上了热搜榜更多
2023-06-22 18:07:16包装机械上市公司龙头名单是哪些?(2023 6 22),包装机械上市公司龙头更多
2023-06-22 18:03:23准备食材:米饭一小盆,蒜苔6根,鸡蛋1个,辅料:油两匙,盐适量,烹饪步更多
2023-06-22 18:04:58当地时间22日,俄罗斯总统普京向无名烈士墓献花圈,纪念卫国战争爆发82更多
2023-06-22 18:00:24日本博主拍摄中国佛山,印度网友:佛山城市能排进印度城市前五名佛山城更多
2023-06-22 16:52:196月18日,广东东莞,“东莞龙舟第一景”万江龙舟赛正式开锣竞逐。(图更多
2023-06-22 16:53:01趋势跟踪型交易策略的交易逻辑:截断亏损,让利润奔跑,控制风险,让盈更多
2023-06-22 16:37:35随着苹果在本月初的WWDC大会上发布了诸多新硬件,而为了搭配新硬件使用更多
2023-06-22 16:51:44