对AO-Grasp: Articulated Object Grasp Generation的简单理解
文章目录
- 1. 做的事情
- 2. AO-Grasp数据集
- 2.1 抓取参数化和label标准
- 2.2 语义和几何感知的抓取采样
- 3. AO-Grasp抓取预测
- 3.1 预测抓取点
- 3.2 抓取方向预测
- 4. 总结
1. 做的事情
引入AO-Grasp,grasp proposal generation method,生成稳定和可操纵的6DoF铰接物体抓取策略,可以完成打开/关闭橱柜的任务。给定单个铰接物体的部分点云,AO-Grasp使用最新的运动性抓取点预测模型来预测物体上的最佳抓取点,并利用最先进的刚性物体抓取方法来找到对应逐点的抓取方向。
2. AO-Grasp数据集
AO-Grasp数据集是一组模拟数据集,有在铰接物体上的运动抓取。由5个常用家庭家具/应用类别(箱子、洗碗机、烤箱、垃圾桶、保险柜)的61个实例上的48K个6DoF的grasp组成。
对于每个实例,在闭关状态和9个随机采样的打开状态下生成抓取动作,并为每个状态随机蔡阿姨给你20个相机视点。
2.1 抓取参数化和label标准
AO-Grasp数据集使用二指gripper。抓取被表示为 g = ( t , R ) ∈ S E ( 3 ) g=(t,R)∈SE(3) g=(t,R)∈SE(3), t t t是抓取位置, R R R是抓取方向。
与刚性物体抓取相反,抓取的稳定性通常通过摇动物体或施加干扰力验证,我们要求与铰接物体进行语义上有意义的交互,如打开微波炉的门。因此设计了抓取评估过程,不仅衡量抓取稳定性,还衡量可操纵性。
首先在g处生成完全打开的gripper,若没有探测到碰撞,则关闭gripper完成抓取。接着使gripper朝最佳方向运动以驱动物体部件,以执行动作,这个方向是通过物体GT的关节状态和axis获得的。在固定数量的步骤后,终止运动,若满足两个条件则抓取成功:
-
gripper仍然与物体交互,表示grasp是稳定的;
-
被抓取的部件移动了一定的距离,则表示是可运动的。
2.2 语义和几何感知的抓取采样
给定物体实例,目标是采样一组打好标签的抓取。在物体表面均匀采样抓取位置对刚性物体来说是很方便的,但运动性抓取通常集中在很小的范围内(如关闭微波炉的把手),使得均匀采样不够高效。为战胜这个挑战,利用物体语义和几何的先验引导采样。
抓取可运动性与语义强相关。因此,使用部件网格的语义标签来识别可运动比肩,如门,可操纵的零件如旋钮和把手。应用语义感知的采样,更偏向采样可运动部件上的抓取点。
抓取质量同样受物体几何影响。因此偏置采样朝向高曲率变化区域和远离joint axis的点:
应用几何感知的采样。Following [32], we sample the gripper forward axis within a cone aligned with the surface normal, then uniformly sample the wrist rotation.
3. AO-Grasp抓取预测
输入是铰接物体部分点云,输出是一组6DoF的抓取姿态。
首先,AO-Grasp预测机器人应该抓取物体的哪个位置,这是通过Grasp Point Predictor进行预测的,在AO-Grasp数据集上训练。通过损失设计和训练策略选定来泛化到新的视点和新的物体下。
接着,生成抓取方向,抓取由Grasp Point Predictor预测的抓取点,AO-Grasp由Contact-GraspNet(最先进的刚性物体抓取方法)生成旋转。
最后,从逐点抓取分数和抓取方向,通过选择具有高抓取概率的点来组成抓取建议的最终集合。
3.1 预测抓取点
PointNet++提取特征,MLP预测这个点的抓取概率。使用一下两个策略来获得跨视角、跨物体实例和类别的泛化:
1. 学习视角独立的点对应关系: Actionable Grasp Point Predictor必须理解抓取概率分数是视角独立的,一个好的抓取点在视角改变的情况下应当没有影响。
使用Siamese网络结构来学习视角独立的逐点特征,如图2(a)所示。训练损失为:
2. 计算密集的“pseudo ground truth”热图: 直接用AO-Grasp数据集中的二进制抓取标签训练会导致在测试类别上较差的泛化性,因为模型会容易过拟合稀疏的数据,为缓和这种过拟合,通过给点云的每个点 p ( i ) p^{(i)} p(i)分配pseudo ground truth标签 h p g t ( i ) h^{(i)}_{pgt} hpgt(i)来增强数据:
总损失:
3.2 抓取方向预测
用了Contact GraspNet来预测的。没有做创新。
4. 总结
感觉通篇看下来,前面看起来很精彩的样子,但是关于摘取方向的预测好像有点点子烂尾,因为没什么很大的技术创新。。。