视觉检测领先者
全国咨询热线:13812953225

CMU华人18万打造高能机器人完爆斯坦福炒虾机器人!全自主操作1小时学会开12种门

发布时间:2024-02-07 08:50:10 人气: 来源:bob平台官网入口
案例介绍

  斯坦福炒菜机器人的大火,开启了2024年机器人元年。最近,CMU研究团队推出了一款能在开放世界达成目标的机器人,成本仅18万元。没见过的场景,它可以靠自学学会!

  最近,CMU的研究者只花费2.5万美元,就打造出一个在开放世界中可以自适应移动操作铰接对象的机器人。

  结果发现,一个小时内,机器人学会打开20个从未见过的门,成功率从行为克隆预训练的50%,飙升到在线%。

  斯坦福的ALOHA虽然令人印象非常深刻,但很多动作都需要人类协同控制,但这个机器人,则是完全自主完成的一系列操作。

  它背后的核心思想,就是在测试时进行RL,使用CLIP(或任何视觉语言模型)作为学习的奖励函数。

  这样,就像ChatGPT用RLHF进行预训练一样,机器人能对人类收集的轨迹进行预训练(通过远程控制),然后通过新场景进行RLHF,这样就掌握了训练以外的技能。

  由于多种原因,在「开放世界」中开发和部署,可处理看不见的物体机器人系统具有极大的挑战性。

  针对学习「通用移动操作」的挑战,研究人员将研究重点放在一类有限的问题——涉及铰接式物体的操作,比如开放世界中的门、抽屉、冰箱或橱柜。

  别看,开门、打开抽屉、冰箱这种日常生活中的操作对于每个人来说,甚至小孩子来说轻而易举,却是机器人的一大挑战。

  为了有效地操纵开放世界中的物体,研究中采用了「自适应学习」的框架,机器人不断从交互中收集在线样本做学习。

  这样一来,即使机器人遇到了,不同铰接模式或不同物理参数(因重量或摩擦力不同)的新门,也能够最终靠交互学习实现自适应。

  为了实现高效学习,研究人员使用一种结构化的分层动作空间。它使用固定的高级动作策略和可学习的低层控制参数。

  使用这种动作空间,研究人员通过种种远程操作演示的数据集,初始化了策略(BC)。这为探索提供了一个强有力的先验,并降低了执行不安全动作的可能性。

  而这次,CMU团队能够以更便宜的成本——2.5万美元(约18万元),打造了一台在通用世界使用的机器人。

  研究人员选用了AgileX的Ranger Mini 2底座,因其具有稳定性,全向速度控制,和高负载称为最佳选择。

  为了使这样的系统有效,能够有效学习至关重要,因为收集现实世界样本的成本很高。

  手臂采用了xArm做相关操作,有效负载为5公斤,成本较低,可供研究实验室广泛使用。

  CMU机器人系统使用了Jetson计算机来支持传感器、底座、手臂,以及托管LLM的服务器之间的实时通信。

  对于实验数据的收集,是通过安装在框架上的D435 IntelRealsense摄像头来收集RGBD图像,并使用T265 Intel Realsense摄像头来提供视觉里程计,这对于在执行RL试验时重置机器人至关重要。

  看得出,CMU的机器人系统不论是在手臂负载力,还是移动自由度、全向驱动的底座、成本等方面有着非常明显的优势。

  为了实现这一个动作,对于从实感相机获得的场景RGBD图像,研究者使用现成的视觉模型,仅仅给出文本提示,就能获取门和把手的掩码。

  此外,由于门是一个平面,因此能使用相应的掩码和深度图像,来估计门的表面法线。

  使用相机校准,将把手的2D掩码中心投影到3D坐标,这就是标记的抓取位置。

  这是十分有益的,因为根据把手的类型,机器人可能需要到达稍微不同的位置,通过低级连续值参数,就可以来学习这一点。

  在控制机器人时,策略会输出与要执行的原始数据相对应的索引,以及运动的相应低级参数。

  参数的符号决定了速度控制的方向,顺时针或逆时针用于解锁和旋转,向前或向后用于打开物体。

  在这个项目中考虑的铰接物体,由三个刚性部分组成:底座部分、框架部分和手柄部分。

  它们的底座和框架通过旋转接头(如在橱柜中)或棱柱接头(如在抽屉中)连接。框架通过旋转接头或固定接头连接到手柄。

  因此,研究者确定了铰接物体的四种主要类型,分类取决于与手柄的类型和关节机构。

  对于手柄没有铰接的情况,主体框架能够正常的使用旋转接头(C型)绕铰链旋转,或者沿着柱接头(例如抽屉)前后滑动(D型)。

  虽然并不详尽,但可以说这四种分类基本涵盖了机器人系统可能遇到的各种日常铰接物体。

  然而,总还有机器人看不到的新型铰接物体,为了提供操作这些新型铰接物体的泛化优势,研究者首先收集了离线演示数据集。

  在BC训练数据集中,包含了每个类别的3个对象,研究者为每个对象收集10个演示,总共生成120个轨迹。

  训练和测试对象在视觉外观(例如纹理、颜色)、物理动力学(例如弹簧加载)和驱动(例如手柄关节可能是顺时针或逆时针)方面存在显着差异。

  在图4中,包含了训练和测试集中使用的所有对象的可视化,以及它们来自集合的哪个部分,如图5所示。

  在这项工作中,研究者们面临的最大挑战就在于,怎么样去使用不属于BC训练集的新对象进行操作?

  为了解决这一个问题,他们开发了一个能够完全自主强化学习(RL)在线适应的系统。

  确保机器人所采取的探索动作对其硬件来说是安全的,这一点至关重要,特别是它是在关节约束下与物体交互的。

  因此,为了部署系统,研究者使用了基于在线采样期间读取联合电流的安全机制。

  如果机器人采样到导致关节电流达到阈值的动作,该事件就会终止,并重置机器人,以防止手臂可能会损害到自身,并且会提供负面奖励,来抑制此类行为。

  如果机器人成功开门,则奖励+1,如果失败则奖励0,如果存在安全违规则奖励-1。

  具体来说,他们使用CLIP来计算两个文本提示与机器人执行后观察到的图像之间的相似度得分。

  研究者使用的两个提示是「门已关闭」和「门已打开」,他们会计算最终观察到的图像和每个提示的相似度得分。

  如果图像更接近指示门打开的提示,则分配奖励+1,否则分配奖励0。如果触发安全保护,奖励为-1。

  在这个过程中,机器人会采用视觉里程计,利用安装在其底座上的T265跟踪摄像头,使其能够导航回初始位置。

  每次行动结束时,机器人会放开抓手,并移回原来的SE2基地位置,并拍摄If的图像以用于计算奖励。

  研究人员在CMU校园内四栋不同建筑中(12个训练对象和8个测试对象),对全新架构加持的机器人系统来进行了广泛的研究。

  如下图6所示,呈现了从行为克隆初始策略开始,利用在线次迭代微调的持续适应性能。

  每次改进迭代包括5次策略rollout,之后使用等式5中的损失对模型进行更新。

  可以看到,最新方法将所有对象的平均成功率从50%提高到95%。因此,通过在线交互样本不断学习能够克服初始行为克隆策略的有限泛化能力。

  自适应学习过程能够从获得高奖励的轨迹中学习,然后改变其行为,更频繁地获得更高的奖励。

  在BC策略性能尚可的情况下,比如平均成功率约为70%的C类和D类对象,RL能够将策略完善到100%的性能。

  此外,即使初始策略几乎没办法执行任务,强化学习也能够学习怎么样操作对象。这从A类实验中能够准确的看出,模仿学习策略的成功率非常低,只有10%,完全没有办法打开两扇门中的一扇。

  这表明,RL可以从模仿数据集中探索出可能不在分布范围内的动作,并从中学习,让机器人学会怎么样操作未见过的新颖的铰接物体。

  研究团队针对2个特别难以进行行为克隆的对象(A类和B类各一个(按压杠杆和旋钮手柄)运行了这一基线。

  在前一种情况下,只使用第一张观察到的图像作比较,并执行整个检索到的动作序列;而在后一种情况下,每一步执行后都会搜索最近的邻居,并执行相应的动作。

  从表3中能够准确的看出,这种方法非常无效,进一步凸显了实验中训练对象和测试对象之间的分布差距。

  正如Action-replay基线一样,研究人员在两个测试门上对此做评估,每个门都从把手和旋钮类别进行评估。

  从表2中,使用VLM奖励的在线自适应性能与使用人类标注的地面实况奖励相近,平均为80%,而使用人类标注的奖励则为90%。

  另外,研究人员还在图7中报告了每次训练迭代后的性能。学习循环中不再需要人类操作员,这为自主训练和改进提供了可能性。

  研究人员根据经验与另一种流行的移动操纵系统来进行比较,即Stretch RE1(Hello Robot)。

  他们测试机器人由人类专家远程操作,以打开不同类别的两扇门的能力,特别是杠杆门和旋钮门。每个物体都进行了5次试验。

  如表IV所示,这些试验的结果揭示了Stretch RE1的一个重大局限性:即使由专家操作,其有效负载能力也不足以打开真正的门,而CMU提出的AI系统在所有试验中都取得了成功。

  总而言之,CMU团队在这篇文章中提出了一个全栈系统,用于在开放世界中进行进行自适应学习,以操作各种铰接式物体,例如门、冰箱、橱柜和抽屉。

  最新AI系统利用高度结构化的动作空间,能够从很少的在线样本中学习。通过一些训练对象的演示数据集进一步构建探索空间。

  CMU提出的方法能够将来自4个不同对象类别中,8个不可见对象的性能提高约50%-95%。

  值得一提的是,研究还发现这一系统还可以在无需人工干预的情况下通过VLM的奖励进行学习。

  Haoyu Xiong是CMU计算机科学学院机器人研究所的研究生研究员,专注于AI和机器人技术。他的导师是Deepak Pathak。

  Russell Mendonca是CMU大学机器人研究所的三年级博士生,导师是Deepak Pathak。他本人对机器学习、机器人学和计算机视觉中的问题非常感兴趣。

  之前,他曾毕业于加州大学伯克利分校电气工程和计算机科学专业,并在伯克利人工智能实验室(BAIR)与Sergey Levine教授一起研究强化学习。

  Kenneth Shaw是卡内基梅隆大学机器人研究所的一年级博士生,导师同样是Deepak Pathak。他的研究重点是,实现与人类一样的机械手的灵巧操作。机械手该怎么样设计成是何在我们的日常生活中应用?我们如何教机械手模仿人类?最后,我们怎么样去使用模拟和大规模数据来解锁新的灵巧操作行为?

  Deepak Pathak是卡内基梅隆大学计算机科学学院的助理教授,还是机器人研究所的成员。他的工作是人工智能,是计算机视觉、机器学习和机器人学的交汇点。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  库克大赞Vision Pro是“明天的技术”!黄牛直呼炒不动,马斯克嘲讽:为何要将电视机挂在鼻子上?【附头显设备行业发展趋势】

  滞留旅客在湖南慈利10人一桌免费吃席,店方:一中午供应69桌,当地政府买单

  最不希望看到的事:假若查尔斯驾崩,卡米拉会成为英国君主吗?哈里的孩子们竟然也有机会?

  留学花了几百万,却什么都不学?从英美顶级名校毕业的他,看到名校生的另一种沉沦