相信做机器人的朋友最近一段时间一定被斯坦福华人团队这个Mobile ALOHA的工作深深所震撼,这个工作研究了一个能做饭,收拾衣服,打扫卫生的服务机器人,完成了传统机器人所不能完成的诸多任务,向大家展示了服务机器人的美好愿景,让大家觉得这种机器人进入家庭指日可待。但不同于其他类似工作,该项目的主页上也放出了诸多失败的视频,让大家觉得机器人还处于非常初始阶段,容易犯下非常低端的错误。那承载着美好期望的家庭服务机器人发展到底怎样呢?离走进我们的家庭还有多远呢?还请跟随笔者先来了解这个具有重要意义的工作。
Mobile ALOHA: 一个低成本的具身智能移动操作机器人软硬件开发系统
背景介绍
机器人利用专家数据进行模仿学习可以学习到很多传统方法(依赖于抓取位姿估计和运动规划)所做不到的任务,比如使用工具、叠抹布、整理家务等,打开了通往通用机器人的希望之门。大多数家庭服务任务都需要双臂操作和底盘移动,如同人类一样,这就需要机器人具有类人架构的硬件和全身协调控制算法,当前在双臂移动机器人领域主要有两大挑战:a) 缺乏适合整体远程操作以便采集数据和训练部署验证的硬件平台; b) 移动和双臂协调自主完成任务。为了解决这些问题,本工作提出了Mobile ALOHA的低成本整体远程操作系统,该系统通过在轮式底座上安装ALOHA,使用户能够通过物理连接来控制移动基座,同时使用双手控制ALOHA。这使得他们能够同时记录基座速度数据和手臂操纵数据,形成一个整体远程操作数据采集系统,本工作开源了完整的软硬件设计图纸和代码,希望可以推进整个领域的发展。
主要贡献
(1) Mobile ALOHA,一个低成本的整体远程操作系统,可用于遥操作数据采集和模仿学习部署验证;
(2) 发现简单的协同训练方法能够实现对复杂移动操作任务的高效学习。
模仿学习网络方法与训练部署验证
任 务: 倒红酒(Wipe Wine), 烹饪虾(Cook Shrimp), 清洗平底锅(Rinse Pan),使用橱柜(Use Cabinet), 呼叫电梯(Call Elevator), 推动椅子(Push Chairs),击掌(High Five);
训练数据: 825条静态双臂操作数据 + 每个人物20~100条专家示教数据;
方法: ACT, Diffusion Policy, VINN
实验验证问题:
(1) Mobile ALOHA是否可以通过联合训练吸收少量的移动操作数据来获得复杂的移动操作技能 ?
(2)Mobile ALOHA是否可以在不同的模仿学习方法上工作,包括ACT , Diffusion Policy和基于检索的VINN?
实验结果和结论:
- 与静态操作数据联合训练能极大地提升准确率
- 联合训练的效果对于混合数据的比例不敏感,这个结论可以帮助减少训练新任务时对混合数据比例的调节;
- 联合训练效果由于预训练和微调。
个人拙见
本工作在算法研发上并没有任何贡献,使用的三个模仿学习均是前人的成果,实验结论也得不到令人耳目一新的结论,本工作最大的贡献在于开源了模仿学习一整套软硬件方案,使得高校团队也有能力做大规模模仿学习的工作,要知道在此之前这个领域大都有大厂高额投入才能完成的,比如谷歌的RT1、英伟达的VIMA和Meta的RoboAgent等。
同时该工作作者也很务实地放出了诸多失败的视频,在此之前的工作大都只展示其成功的一面,让大家觉得服务机器人马上就要走进千家万户了,作者公开这些视频展示了机器人的潜能,同时也显示了这种机器人离走进我们家庭还需要一段时间,但这个方向绝对是值得我们为之探索和奋斗的,这个工作也为这个领域作出了巨大的贡献。
笔者研究模仿学习也由来已久,模仿学习就是将深度学习中的自监督学习用到机器人领域,学习的是一个机器人观测到动作的映射网络,监督学习所有的问题模仿学习都有,同时还带来了机器人领域的更多问题,最大的问题就是泛化性,作者自己也承认这个工作纯属research,不具备任何泛化性,也难以落地,现在学术界正在通过搜集大规模不同机器人真实数据集(Open-X-Embodiment dataset),希望像训练大语言模型那样先用大规模数据集来做预训练,然后在真实场景中采集少量数据进行微调,提高方法的适用性,但这有一个问题,不同机器人数据对实际部署机器人的用处难以保证是正向的,特别是两者的传感器执行器布局类型差异较大时;笔者预测工业界会有不同的解决方案,同一场景下的机器人形态会日渐趋于大一统,比如将来进入我们生活中的人形机器人,没必要多种身高的机器人,而那些不愿意走向统一的机器人形态,终将因为自身数据量太少丧失竞争而被淘汰出局。