6-DOF GraspNet: Variational Grasp Generation for Object Manipulation

总结:

使用变分自动编码器(VAE)对抓取进行采样,并使用基于点网的抓取评估器模型对采样的抓取进行评估和细化

摘要:

我们将抓取生成问题表述为 使用变分自编码器对一组抓取进行采样,并使用抓取评 估器模型对采样的抓取进行评估和重新精细。Grasp Sampler和Grasp refine网络都将深度相机观测到的3D点 云作为输入。

1.简介

抓取选择是机器人操作中最重要的问题之一。在这 里,机器人观察一个物体,需要决定在哪里移动它的抓 手(3D位置和3D方向)来拾取物体(见图1)。抓手的选择是 复杂的,因为抓手的稳定性取决于物体和抓手的几何形 状、物体质量分布和表面摩擦。物体周围的几何形状对 抓取点的可达性提出了额外的约束,而不会导致机器人 机械手与场景中的其他物体发生碰撞(见图2)。

通常,这 个问题是通过几何启发的启发式方法来解决的,以选择 物体周围有希望的抓取点,可能随后会对采样抓取[31] 的稳定性和可达性进行更深入的几何分析。

这些方法中 的许多都依赖于物体的完整3D模型的可用性,这在现实 场景中是一个严重的限制,例如,机器人只能用嘈杂的 深度相机观察场景。为了克服这一限制,人们可以移动 相机来生成完整的物体模型或执行形状补全,然后进行 基于几何的抓取分析。然而,在受限的空间中移动相机并且对于抓取生成和评估进行形状补是不可能的。

最近,几个小组引入了深度学习技术来评估原始点 云数据的抓取质量[21,19,31,15]。

虽然这些方法提供了很 好的抓取评估,但它们仍然使用手动设计的启发式方法 对样本抓取进行评估,或者依赖于黑盒优化技术,如 CEM[19,35]。此外,它们并没有提供有效的方法来改善 采样抓取。

在本文中,我们引入了第一个基于学习的框 架,用于有效地为未知对象生成各种稳定抓取集。
我们 的方法引入了两种网络架构,用于采样、评估和改进抓 取。本文的主要贡献是:

  1. 可训练的变分自编码器(VAE),可将观察对象的部 分点云映射到该对象的不同抓取集。重要的是,我 们的VAE提供了所有可能的、有效的抓点的高覆盖 率,同时只产生少量的失败抓点。
  2. 为了提高VAE样本的精度,我们引入了一个抓取 评估器网络,该网络将观察对象和机器人抓取器 的点云映射到6D抓取器姿势的质量评估。至关重 要的是,我们证明了该网络的梯度可用于改进抓 取样本,例如移动抓取器以避免碰撞或确保抓取 器与物体良好对齐。
  3. 我们证明,我们的方法优于以前的方法,使机器 人能够拾取17个物体,成功率为88%。生成不同的 抓取是非常重要的,因为不是所有的抓取都是机 器人执行的运动学上可行的。我们进一步表明, 我们的方法在保持高成功率的同时生成了不同的 抓取样本集

本文组织如下。我们首先对比了使用深度学习的 抓取相关方法,然后解释了我们方法的不同组成部分: 抓取采样、评估和细化。最后,我们在一个真实的机 器人平台上评估了我们的方法,并展示了不同超参数 在各种消融研究中的影响。

2.相关工作

目前解决机器人抓取问题的主要方法是数据驱动抓取。 虽然早期的方法是基于手工制作的特征向量[27,1,7], 但最近的方法利用卷积架构来操作原始视觉测量[13,25, 21,19,14]。

这些抓取合成方法中的大多数都是通过将抓 取表示为图像[8]中的定向矩形来实现的。这种3-DOF 表示将夹持器姿态限制为与图像平面平行。这种表示 的缺点是多方面的:由于它限制了抓取的多样性,考虑 到手臂或任务施加的额外约束,拾取物体可能是不可 能的。在静态图像传感器的情况下,它还会导致严重 限制的工作空间[19]。Yan等人[35]通过包含 重建目标物体几何形状的辅助任务来规避这个问题。Zhou等人 [37]学习了一个抓握评分函数,他们也使用该函数进行 抓握细化。这两种方法[35,37]都 只在模拟中进行评估。

我们的方法解决了预测完整的6-DOF预抓姿势的 问题。

很少有方法将问题表述为对单个最佳抓取姿势的 回归[28,16]。它们本质上缺乏预测可能抓取的不同分 布的能力。Choi et al.[4]对24个预定义方向进行分类, 选择一个6-DOF预抓姿势。如此粗糙的SO(3)分辨率必 然会导致预测抓取的多样性有限。

相比之下,抓点检 测方法(GPD)[31,15]对候选抓点进行更密集的采样:对 观测到的点云中的一个点进行随机采样,并构建一个 与估计的表面法线和主曲率的局部方向对齐的达布框 架。尽管这种启发式方法创建了一组相当多样化的候 选抓点,但它无法沿着薄结构(如马克杯、盘子或碗的 边缘)生成抓点,因为从噪声测量中估计这些表面法线 是具有挑战性的。

我们学习的抓握采样器不会受到这 种偏差的影响。因此,我们提出的方法可以找到GPD 无法找到的抓手(参见第4.2节)。

除了使用监督学习之外,抓取也被表述为一个强 化学习问题[9,36]或它的近似[14]。学习到的抓取策略 比只描述最终的抓取姿势更具表现力。尽管如此,这 些方法的动作空间通常是se(2),将多样性限制在自上 而下的抓取。

Deep Neural Networks for Learning from 3D Data深度学习在3D点云数据上的成功要比它在RGB图像上 的巨大成功晚得多。在早期,三维数据被表示为三维体素 [20] 或从 2.5 深度图像中提取特征[6],并使用卷积神经网络对其进行类似于 RGB 图像的处理。Qi 等人[23, 24]引入了一种新的架构,称为PointNet 和 PointNet++,能够表示三维数据并高效地提取表示。PointNet的成功引入了代表3D数 据的不同网络架构[33,30],在3D物体姿态估计、语 义分割和零件分割方面有了显著改进[30,24,22,34]。 为了估计一个成功的喘息,抓取的6-DOF姿势需要是 准确的。在单个RGB图像上操作不能提供所需的精度, 因为输入和输出不在同一域中。因此,我们在SE(3) 中使用3D点云和point - net ++[24]来生成和评估抓地 率。

Variational Autoencoders 变分自编码器[10](VAE)是深度生成模 型的主要类别之一。vae可以以无监督的方式进行训 练,以最大化训练数据的似然性。它们已被应用于各 种任务,如未来预测[12,32],生成新颖的观点[11]和 目标分割[29]。在这项工作中,我们使用VAE对SE(3) 中的一组不同的把握进行采样。

我们模型的整体架构类似于GANs[5]。生成器模 块是一个基于潜在空间和观测点云x的不同样本的 VAE,它生成不同的抓取建议,评估网络(鉴别器)根 据它们成功的可能性接受或拒绝它们。生成器和鉴别 器都将对象的3D点云X作为输入的一部分。

3. 6DOF抓取姿势生成

我们将抓取姿势生成表述为生成机器人抓取姿势 集的过程,这样在这些姿势中的任何一个位置关闭抓 取器都会导致对物体的稳定抓取。此外,该过程应该 生成不同的姿势集,最终覆盖物体可能被抓住的所 有可能方式。在SE(3)中给出了机器人夹持器的姿态, 指定了夹持器的三维平移和三维方向。

在这里,我们 专注于生成单个对象的抓取姿势,由于机械手的到达 和由于场景中的其他对象而产生的额外约束超出了本 工作的范围,可以通过轨迹优化技术来处理。由于在 所有可能抓取的空间中成功抓取的子空间很窄,抓取 姿势生成是具有挑战性的。抓取姿势中的微小扰动可 以将成功的抓取转变为失败的抓取。为了生成不同的 稳定抓握集,我们的方法使用变分自编码器网络进行 采样抓握姿势,然后进行迭代评估和细化过程。

具体而言,我们旨在学习后分布p(g ∗ | x),其中g ∗表示所有成功的grasps和x的空间是相机观察到的对象的部分点云。每个Graspg∈G∗由(r,t)∈Se(3)表示,其中r∈SO(3)和T∈R3是grasp g的旋转和翻译。 grasps在对象参考框架中定义,其原点是x,是观察到的点云的质量中心。它的轴与相机框架的轴平行(见图3-A)。成功的grasps g ∗的分布可能是复杂的,脱节的。例如,杯子的G ∗分布沿边缘,手柄和底部具有多个模式。在每种模式中,成功的掌握空间是连续的,但可以将不同模式的掌握彼此分开。每个对象类别的单独模式的总数根据对象的形状和比例而变化。

由于G ∗的模式的数量未知,因此我们建议学习一个最大化成功graspsg∈G∗可能性的发生器模块。由于发电机仅在训练过程中观察到成功的抓取,因此它也可能会产生失败的graspsg∈G-。为了检测和完善这些负grasps,对评估模块进行了训练,以预测p(s | g,x),即,grasp g和观察到的点云X的成功概率。应用于采样的掌握,评估模式可以预测成功的掌握,并通过网络逐步传播成功,以产生改善的抓地力。可以重复此过程。丢弃所有保持阈值以下的抓地力,提供了最终的高质量掌握。我们方法的概述如图3-B所示。

3.1 Variational Grasp Sampler 变分抓取采样器

3.2 抓取姿势评价

抓取采样器只使用正抓取训练连续后验分布P(G | X, z)。因此,它可能包含分布模式之间的失败抓取。 这些过渡性的把握和其他误报需要被识别和修剪掉。 为此,我们需要一个把握评估网络,为每个把握分配 一个成功概率P(S|g, X)。这个网络需要相对于观察到的 点云X来推理抓取,但它也必须能够外推到物体未观 察到的部分。其他方法学习仅根据物体的局部观察部 分对抓取物进行分类[31,19]。在实践中,物体的观测 点云存在缺陷,如缺失或有噪声的深度值。为了缓解 这个问题,以前的方法求助于使用高质量的深度传感 器[19]或使用多视图[31],这限制了系统在受控环境之 外的部署。在这项工作中,我们仅使用对象的不完美 观测点云X对每次抓取进行分类。

抓取姿势的成功取决于抓取相对于对象的相对姿 势。评估器网络的输入是点云X和抓手g。与抓手采样 器类似,我们为抓手评估器使用点网[23]架构。对抓取 物进行分类有多种方法。第一种简单的方法是将抓手g 的6D姿态与第一层中每个点x∈x的特征相关联。我们 的实验表明,这样的表征导致抓握分类的准确性很差。 相反,我们建议用一种与物体点云更紧密联系的方式 来表示抓握g:我们通过一个根据6D抓取姿势g渲染的点 云Xg来近似机器人抓取器。物体点云X和抓取器点云 Xg通过使用一个额外的二进制特征组合成一个点云, 该特征表明一个点是属于物体还是属于抓取器。在点 网架构中,每个点的特征是点本身及其相邻点的特征 加上点之间的相对空间关系的函数。使用统一的点云 X∪X g,可以很自然地使用抓取姿势g和物体点云X之 间的所有相对信息来对抓取物进行分类。通过优化利 用交叉熵损失对抓握评估器进行优化。

其中y是抓取的基础真值二元标签,表示抓取是否成功, s是评估器预测的成功概率。 为了训练一个鲁棒的评估器,模型需要同时训练 正抓取和负抓取。由于所有可能的6D抓取姿势的空间 组合很大,因此不可能对所有的负抓取进行采样。相 反,我们进行硬负挖掘来对负抓取进行抽样。硬负抓 取的集合G − is定义为与积极抓取姿势相似,但要么与物体发生碰撞,要么 距离物体太远而无法抓取物体的抓取姿势。更正式地, G−被定义为:

3.3 迭代抓取姿势细化

xx

4.实验

xx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/446019.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年k8s最新版本使用教程

2024年k8s最新版本使用教程 3. YAML语言入门3.1 基本语法规则3.2 支持的数据结构3.3 其他语法 4 资源管理4.1 k8s资源查询4.2 资源操作命令4.3 资源操作方式4.3.1 命令行方式4.3.2 YAML文件方式 5 Namespace5.1 查看命名空间5.2 创建命名空间5.3 删除命名空间5.4 命名空间资源限…

Java websocket在SpringBoot中使用

Java websocket在SpringBoot中使用 导入坐标 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId><version>3.2.3</version> </dependency>配置websocket 新…

Linux安装MeterSphere并结合内网穿透实现公网远程访问本地服务

文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…

复制表

目录 复制表 将部门 30 的所有员工信息保存在 emp30 表中 将复杂查询结果创建为表 只将 emp 表的结构复制为 empnull 表 从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/135209645 复制表 严格来说&#xff0c;复制表不是复制操作&am…

AI大模型,掀起新一波智能浪潮!

AI大模型的出现&#xff0c;标志着人工智能技术迈入了一个新的阶段。这些巨大的模型不仅在规模上超越了以往任何其他人工智能系统&#xff0c;而且在性能上也取得了巨大的突破。由于其庞大的参数量和复杂的结构&#xff0c;AI大模型在各个领域展现出了强大的学习能力和推理能力…

力扣面试经典150 —— 11-15题

力扣面试经典150题在 VScode 中安装 LeetCode 插件即可使用 VScode 刷题&#xff0c;安装 Debug LeetCode 插件可以免费 debug本文使用 python 语言解题&#xff0c;文中 “数组” 通常指 python 列表&#xff1b;文中 “指针” 通常指 python 列表索引 文章目录 11. [中等] H指…

十大排序算法(冒泡排序、插入排序、选择排序、希尔排序、堆排序、快排、归并排序、桶排序、计数排序、基数排序)

目录 一、冒泡排序&#xff1a; 二、插入排序&#xff1a; 三、选择排序&#xff1a; 四、希尔排序&#xff1a; 五、堆排序&#xff1a; 六、快速排序&#xff1a; 6.1挖坑法&#xff1a; 6.2左右指针法 6.3前后指针法&#xff1a; 七、归并排序&#xff1a; 八、桶…

回溯算法10-非递减子序列(Java/set去重操作)

10.非递减子序列 题目描述 给你一个整数数组 nums &#xff0c;找出并返回所有该数组中不同的递增子序列&#xff0c;递增子序列中 至少有两个元素 。你可以按 任意顺序 返回答案。 数组中可能含有重复元素&#xff0c;如出现两个整数相等&#xff0c;也可以视作递增序列的一…

PyQt6实战1

创建一个json处理的小工具 功能&#xff1a; 1.json格式化 2.jsonpath提取数据 3.保存文件 main.py from PyQt6.QtGui import QFocusEvent from PyQt6.QtWidgets import * from PyQt6.QtCore import * from PyQt6.QtGui import * import sys import json import time impo…

【笔记】原油阳谋论

文章目录 石油的属性能源属性各国石油替代 金融属性黄金石油美元 油价历史油价传导路径 石油供需格局与发展供需格局各国状况美国俄罗斯沙特 产油国困境运输 分析格局分析供需平衡分析价差分析价差概念基本面的跨区模型跨区模型下的价差逻辑 长中短三期分析长期视角——供应看投…

2024年腾讯云99元1年服务器_新老同享_续费99元一年

良心腾讯云推出99元一年服务器&#xff0c;新用户和老用户均可以购买&#xff0c;续费不涨价&#xff0c;续费也是99元&#xff0c;配置为轻量2核2G4M、50GB SSD盘、300GB月流量、4M带宽&#xff1a;优惠价格99元一年&#xff0c;续费99元&#xff0c;官方活动页面 txybk.com/g…

美洲狮优化算法(Puma Optimizar Algorithm ,POA)求解机器人栅格地图最短路径规划(提供MATLAB代码)

一、美洲狮优化算法 美洲狮优化算法&#xff08;Puma Optimizar Algorithm &#xff0c;POA&#xff09;由Benyamin Abdollahzadeh等人于2024年提出&#xff0c;其灵感来自美洲狮的智慧和生活。在该算法中&#xff0c;在探索和开发的每个阶段都提出了独特而强大的机制&#xf…

【JavaSE】抽象类与接口

Object 类 类 java.lang.Object是类层次结构的根类&#xff0c;即所有类的父类。 除Object类之外的任何一个Java类&#xff0c;全部直接或间接的继承于Object类。由此&#xff0c;Object类也被称为根父类。Object类中声明的成员具有通用性&#xff0c;并且Object类中没有声明…

Linux 理解进程

目录 一、基本概念 二、描述进程-PCB 1、task_struct-PCB的一种 2、task_ struct内容分类 三、组织进程 四、查看进程 1、ps指令 2、top命令 3、/proc文件系统 4、在/proc文件中查看指定进程 5、进程的工作目录 五、通过系统调用获取进程标示符 1、getpid()/get…

消息队列 MQ

文章目录 1. MQ 相关概念1.1 什么是 MQ1.2 为什么要用 MQ1.3 MQ 分类1.4 MQ 的选择 1. MQ 相关概念 1.1 什么是 MQ MQ(message queue)&#xff0c;从字面意思上看&#xff0c;本质是个队列&#xff0c;FIFO 先入先出&#xff0c;只不过队列中存放的内容是 message 而已&#x…

选修-单片机作业第1/2次

第一次作业 第二次作业 1、51 系列单片机片内由哪几个部分组成&#xff1f;各个部件的最主要功能是什么&#xff1f; 51系列单片机的内部主要由以下几个部分组成&#xff0c;每个部件的主要功能如下&#xff1a; 1. **中央处理器&#xff08;CPU&#xff09;**&#xff1a;这是…

uniapp隐藏状态栏并强制横屏

uniapp隐藏状态栏并强制横屏 1.manifest.json中&#xff1a; "screenOrientation": ["landscape-primary", //可选&#xff0c;字符串类型&#xff0c;支持横屏"landscape-secondary" //可选&#xff0c;字符串类型&#xff0c;支持反向横屏]…

算法 环形数组是否存在循环 力扣执行速度击败100%

目录 题目 leetcode 457 求解思路 代码 结果 题目 leetcode 457 存在一个不含 0 的 环形 数组 nums &#xff0c;每个 nums[i] 都表示位于下标 i 的角色应该向前或向后移动的下标个数&#xff1a; 如果 nums[i] 是正数&#xff0c;向前&#xff08;下标递增方向&#xff0…

每日一题 — 三数之和

15. 三数之和 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 双指针思想先给数组排序然后固定一个数、再设left、right指针&#xff0c;nums[left] nums[right] -nums[a]大于的话right--&#xff0c;小于的话left每次处理完left、right之后需要判断去重i也需要判…

计算机网络(五)

网络层 网络层的主要目的是实现网络互连&#xff0c;进而实现数据包在各网络之间的传输。 要实现网络层&#xff0c;主要解决三个问题&#xff1a; ①网络层向运输层提供怎样的服务&#xff1f;&#xff08;“可靠传输“、”不可靠传输“&#xff09; ②网络层寻址 ③路由选择…