论文标题:
Learning Visuotactile Skills with Two Multifingered Hands
论文作者:
Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, and Jitendra Malik
1. 机器人新挑战:多指手指操作
在自动化和智能化日益普及的今天,机器人在工业生产、医疗辅助、家庭服务等多个领域扮演着越来越重要的角色。然而,大多数现有的机器人手臂都仅限于执行一些简单的、重复性高的任务,它们的操作能力远远不能满足复杂任务的需求。特别是在需要精细操作和高度协调性的场合,机器人的表现往往不尽人意。
为了提升机器人的灵巧性,科学家们开始尝试模仿人类的双手操作。人类的双手是自然界中最灵巧的工具之一,它们能够完成从精细的手术缝合到粗重的搬运工作等一系列复杂任务。要让机器人达到类似的灵巧度,关键在于赋予它们多指操作的能力。多指手不仅能够提供更多的自由度,还能够通过不同的手指组合来适应各种形状和大小的物体。
在这一领域,加州大学伯克利分校的研究团队取得了突破性进展。他们开发的系统能够让机器人通过视觉和触觉数据学习完成复杂任务的技能。这项技术的核心在于模拟人类的感知和运动模式,使机器人能够更加精细和灵活地操作物体。
▲图1 | 系统搭建及视觉触觉学习的四种任务©️【深蓝AI】编译
2. 机器人的“感官世界” :HATO系统低成本的远程操作
视觉和触觉是人类感知世界的两个重要途径。
**而在机器人的世界观中,「视觉」提供了物体的位置、形状和运动信息,「触觉」则提供物体的质地、重量和接触状态等信息。**而将这两种感知方式结合起来,可以极大地提高机器人对环境的理解和操作的精确性。
在这项研究中,科学家们为机器人配备了先进的视觉和触觉传感器。视觉传感器包括多个RGB-D相机,它们能够捕捉物体的彩色图像和深度信息。触觉传感器则安装在机器人的指尖上,能够检测到细微的压力变化。通过这些传感器,机器人能够获得丰富的环境信息,从而更加准确地判断如何抓握和操作物体。
▲图2 | 指尖触觉传感器布局©️【深蓝AI】编译
此外,研究者们还开发了一种新的数据处理和学习算法,使机器人能够从人类操作员的演示中学习知识:通过分析操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。这种方法不仅提高了学习效率,还使机器人能够更好地适应新的环境和任务。
为了收集用于训练机器人的数据,研究者们设计了一种名为HATO的低成本远程操作系统。该系统利用现成的虚拟现实(VR)硬件,包括VR头显和手柄,来模拟机器人的动作。 HATO系统是一种低成本的双手多指远程操作系统,它利用现成的虚拟现实(VR)硬件,特别是Meta Quest 2平台,来实现对机器人手臂和手部的直观控制。该系统通过VR控制器的姿态映射来控制机器人臂的末端执行器姿态,同时利用控制器的握把按钮和拇指杆来精细操控手部的关节位置。HATO的核心在于其软件套件,它不仅支持多模态数据的收集,包括视觉、触觉和本体感知信息,还负责将控制器的输入转换为机器人系统的精确控制命令。此外,HATO系统还包括一个数据收集管道,用于记录和处理所有传感器数据,以及支持策略学习与部署的算法。
使用HATO系统,操作员可以戴上VR头显,通过手柄来控制机器人的手臂和手。手柄的姿态和按钮状态被实时捕捉并转换为机器人的动作指令。这种设计不仅使数据收集过程更加直观和自然,还大大降低了系统的成本和复杂性。
HATO系统还支持多模态数据的收集,包括视觉、触觉和本体感知数据。这些数据被同步记录并用于训练机器人的决策模型。通过分析操作员的动作和相应的感知反馈,机器人能够学习如何在不同的任务中使用合适的抓握方式和操作策略。
3. 实验:快速平滑的策略部署,机器人的灵巧性显著提升
在人类的学习过程中,观察和模仿是获取新技能的重要途径。同样,在机器人的技能学习中,观察人类操作员的行为并从中学习也是一个有效的策略。加州大学伯克利分校的研究人员开发的系统正是基于这样的理念,通过分析人类操作员的动作和相应的感知反馈,机器人能够逐渐学会如何根据物体的特性和任务的要求来调整自己的动作。
在训练过程中,机器人首先通过多个传感器收集操作数据。这些数据包括视觉信息、触觉信号和本体感知数据,它们共同构成了机器人的“观察”。视觉信息帮助机器人识别物体的位置和形状,触觉信号提供了物体的质地和重量等信息,而本体感知数据则告诉机器人自己身体各部分的状态。接着,机器人使用一种称为“扩散策略”的算法来处理这些观察数据,并预测下一步的动作。这种算法的核心思想是将动作预测视为一个条件生成问题,即在给定当前观察的情况下,预测未来一系列动作的概率分布。通过这种方式,机器人可以生成一系列可能的动作,并选择最优的动作来执行。 此外,为了提高学习效率,研究人员还提出了一种异步推理算法。这种算法允许机器人在执行任务的同时,不断学习和调整自己的动作。
这意味着机器人可以在实际操作中不断试错,并从错误中学习,从而快速提高自己的技能。
在机器人的技能学习中,如何将学习到的策略有效地部署到实际任务中,是一个关键的技术挑战。传统的策略部署方法通常需要机器人在执行任务时停下来进行推理,这不仅降低了任务的执行效率,也使得机器人难以处理需要连续控制的复杂任务。为了解决这个问题,研究人员提出了一种新颖的异步推理算法。该算法的核心思想是将推理过程与任务执行过程分离,让它们并行运行。
具体来说,机器人在执行任务的同时,一个远程推理服务器会不断地处理最新的观察数据,并生成动作序列的预测。接着,预测结果会被发送回机器人,与之前的时间步长上的预测结果进行整合,计算出一个平滑的动作序列。这样,机器人就可以在不中断任务执行的情况下,实时地调整自己的动作,从而实现更加流畅和连续的任务执行。
这种异步推理算法的另一个优势是它可以提高策略的鲁棒性。在实际应用中,机器人可能会遇到一些训练数据中未曾出现的特殊情况。通过实时的推理和调整,机器人可以更好地适应这些新的情况,从而提高任务的成功率。
▲图3 | 平行手爪遥操作常见故障©️【深蓝AI】编译
在经过一系列的学习和训练后,机器人在执行复杂任务方面取得了显著的进步。研究人员设计了四个具有挑战性的任务来测试机器人的技能,包括递滑溜的物体、堆叠积木、倒酒和上菜。
▲图4 | 四个不同的任务©️【深蓝AI】编译
在递物体的任务中,机器人需要用一只手拿起一个滑溜的物体,然后递给另一只手。这个任务考验了机器人的抓握能力和双手协调能力。实验结果显示,机器人能够稳定地抓握物体,并准确地将其递给另一只手,成功率达到了100%。
在堆叠积木的任务中,机器人需要将两个大块的积木叠放在另一个积木上。这个任务不仅需要精确的力量控制,还需要良好的空间定位能力。实验结果表明,机器人能够准确地判断积木的位置, 并用适当的力量将其叠放在一起,从而成功完成任务。
在倒酒的任务中,机器人需要用一只手拿起酒瓶,另一只手拿起酒杯,然后将酒从瓶中倒入杯中。这个任务考验了机器人的精细操作能力和动态控制能力。 实验结果显示,机器人能够平稳地执行倒酒动作,成功地将酒倒入杯中,而没有溅出。
在上菜的任务中,机器人需要用一只手拿起平底锅,另一只手拿起铲子,然后将牛排从锅中铲起并放到盘子上。这个任务需要机器人精确地控制力量和动作, 以防止牛排滑落。实验结果表明,机器人能够成功地完成这个任务,将牛排完好无损地放到了盘子上。
▲图5 | 视觉和处决对于四种任务表现的影响©️【深蓝AI】编译
4. 更智能、更通用的机器人
HATO系统的成功为机器人的未来发展开辟了新的可能性。通过视觉和触觉数据的学习,机器人不仅能够提高自己在特定任务上的表现,还能够更好地理解和适应环境,从而在更广泛的场景中发挥作用。这种基于学习的方法可以大大提高机器人的适应性。传统的机器人系统通常只能在特定的、预先编程的环境中工作。而通过学习,机器人可以快速地适应新的任务和环境,甚至能够处理一些未知的或不确定的情况。
这种方法还可以提高机器人的通用性。在传统的机器人系统中,不同的任务通常需要不同的编程和调整。而通过学习,机器人可以掌握一系列相关的技能,并能够根据任务的具体要求灵活地选择和组合这些技能。此外,这种方法还为机器人的个性化和定制化提供了可能。不同的操作员可能有不同的操作风格和习惯,通过学习,机器人可以适应不同操作员的特点,从而提供更加个性化的服务。
当然,这项技术仍然处于发展的早期阶段,还有很多挑战需要克服。例如,如何提高学习算法的效率,如何处理更加复杂和动态的环境,以及如何确保机器人的安全性和可靠性等。我们期待机器人将变得更加智能、更加灵活、更加通用。
编译|Scarlett
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。