【强化学习抓取】偏机器人领域(略)

文章目录

  • 1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch
    • 摘要和结论
    • 引言
    • 相关工作
    • 模型框架

1. A Grasp Pose is All You Need: Learning Multi-fingered Grasping with Deep Reinforcement Learning from Vision and Touch

摘要和结论

引言

  • 尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。
  • 深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。一些最近的方法提出了利用离线任务演示数据来解决这个问题,并将这些数据与在线策略训练期间获取的数据结合起来。尽管这些方法显示出了有希望的结果,但演示数据的收集是一个非平凡的过程,需要适当的工具,如动作捕捉(MoCap)或虚拟现实(VR)系统。
  • 为了克服这些限制,作者们提出了一种基于DRL的抓取方法,该方法利用自动收集的演示来初始化策略训练。据作者所知,这是第一个从RGB数据、触觉和本体感知信息中学习这项任务的方法。他们从一个由外部算法生成的抓取姿势开始,将其作为任务的先验信息,并假设这个初始姿势是不准确的,需要根据特定的物体和抓取手进行细化。
  • 因此,机器人首先将末端执行器移动到接近这个姿势的位置以开始抓取动作,然后使用一个单独的策略来接近和抓取物体。他们通过提出的G-PAYN方法训练这个策略。该方法首先利用给定的抓取规划器自动获取一组演示,然后从这些演示的数据开始训练策略。他们为训练过程设计了一个奖励函数,使用抓取成功或失败的度量,同时考虑抓取动作的中间步骤。例如,他们使用来自触觉传感器的信息,并为那些增加接触点数量以实现更稳定抓取的手部配置提供正向奖励。

相关工作

A. 多指抓取(Multi-fingered Grasping):

  • 多指抓取任务由于涉及的自由度(DoFs)数量众多以及手部与物体之间复杂的交互而具有挑战性。
  • 一些最近的研究提出了从点云信息开始的多指抓取合成方法,但这些方法通常受限于训练时使用的硬件,并且没有考虑抓取执行过程中的手部与物体的交互。
  • 另一些方法,如使用基于主成分分析(PCA)的手部协同方法,处理Shadow手的高自由度问题,并训练DRL策略从外部算法给出的抓取姿势开始抓取物体。这些方法使用二进制触觉信息关节扭矩(可能不是所有机器人都可用)和手部关节位置作为输入,但没有考虑物体的信息(例如物体位置或视觉反馈),这些信息可以允许在抓取姿势不适当时进行抓取恢复。
  • 其他方法,如使用动作捕捉系统收集数据,旨在减少多指抓取训练数据的数量,因为多指抓取的数据收集过程具有挑战性。

B. 深度强化学习从演示中学习(Deep Reinforcement Learning from Demonstrations):

  • 利用演示数据学习DRL策略的方法可以分为两类:一类是在训练过程中始终使用演示数据的方法,如DDPGfD和基于DDPG算法的修改版本;另一类是使用演示数据进行策略的预训练,然后在线数据上进行微调的方法,如DAPG和AWAC。
  • 第一类方法通过修改DDPG算法来利用包含在重放缓冲区中的演示数据。
  • 第二类方法使用演示数据进行预训练,然后通过在线获取的数据进行策略的微调。例如,DAPG通过行为克隆进行预训练,然后使用增强损失进行微调,以保持策略接近演示数据。AWAC方法则缓解了离线演示数据和在线训练期间获取的数据之间的分布偏移

模型框架

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/450303.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深入解析Kafka中Replica的妙用

欢迎来到我的博客,代码的世界里,每一行都是一个故事 深入解析Kafka中Replica的妙用 前言Replica的基本概念基本概念和原理:Replica在消息传递中的关键角色: 副本的创建与配置创建 Replica 步骤:Replica 相关的常见配置…

UnoCSS原子CSS引擎—原子化真的是现代前端CSS利器?

追忆往昔,穿越前朝,CSS也是当年前端三剑客之一,风光的很,随着前端跳跃式的变革,CSS在现代前端开发中似乎有点默默无闻起来。 不得不说当看到UnoCss之前,我甚至都还没听过原子化CSS这个概念,很久…

如何用BI工具对数据进行预处理?数据分析的这项技巧你必须掌握。

在当今数字化时代,数据不仅是企业决策的基础,也是创新和发展的关键推动力。在面对庞大而复杂的数据集时,如何进行高效的预处理成为了数据分析领域中至关重要的一步。 在进行数据处理和分析的日常工作中,业务普遍使用Excel和SQL这两…

基于JavaWeb开发的私人牙科诊所管理系统【附源码】

基于JavaWeb开发的私人牙科诊所管理系统[附源码] 🍅 作者主页 央顺技术团队 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 文末获取源码联系方式 📝 🍅 查看下方微信号获取联系方式 承接各种定制系统 &…

嵌入式面经-ARM体系架构-寄存器与异常处理

ARM寄存器组织 寄存器概念 寄存器是处理器内部的存储器,没有地址 寄存器作用 一般用于暂时存放参与运算的数据和运算结果 在某个特定模式下只能使用当前模式下的寄存器,一个模式下特有的寄存器别的模式下不能使用 一共是40个寄存器 寄存器分类 通用寄…

勾八头歌之数据科学导论—数据预处理

第1关:引言-根深之树不怯风折,泉深之水不会涸竭 第2关:数据清理-查漏补缺 import numpy as np import pandas as pd import matplotlib.pyplot as pltdef student():# Load the CSV file and replace #NAME? with NaNtrain pd.read_csv(Tas…

http协议中的强缓存与协商缓存,带图详解

此篇抽自本人之前的文章:http面试题整理 。 别急着跳转,先把缓存知识学会了~ http中的缓存分为两种:强缓存、协商缓存。 强缓存 响应头中的 status 是 200,相关字段有expires(http1.0),cache-control&…

C++中类模板的定义和使用

类模板的定义和使用 引言类模板声明和定义有问有答 示例运行结果注意参数传递ref 引言 类模板就是一个模板,但是数据可以适用多种类型。类模板使用时需要模板的特例化,就变成了模板类。 本文只要是记录一下模板的使用。同时对于引用和右值引用传参做一下…

几个redis常用命令

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 ping:测试连接是否存活 例如:测试当前redis数据库是否存活 127.0.0.1:6379> ping #返回PONG&am…

RHEL9 DNF/YUM仓库管理软件包

DNF/YUM仓库管理软件包 一个基于RPM包的软件包管理器能够从指定的服务器自动下载RPM包并且安装,自动处理依赖性关系,并且一次性安装所有依赖的软件包C/S模式 Server服务端提供RPM软件包与数据库文件repodataClient客户端使用dnf仓库 常用组合 组合参…

半导体湿法技术有什么优势

湿法蚀刻工艺的原理是使用化学溶液将固体材料转化为液体化合物。选择性非常高, 因为使用的化学品可以非常精确地适应单个薄膜。对于大多数解决方案,选择性大于100:1。 批量蚀刻 在批量蚀刻中,可以同时蚀刻多个晶圆,过滤器和循环…

返回值不同算方法重载么?为什么?

1、典型回答 返回值不同不算方法重载 方法重载(Overloading)是指在同一个类中定义了多个同名方法,但它们的参数列表不同,方法重载要求方法: 名称相同参数类型、参数个数或参数顺序,至少有一个不同 方法…

【SQL】601. 体育馆的人流量(with as 临时表;id减去row_number()思路)

前述 知识点学习: with as 和临时表的使用12、关于临时表和with as子查询部分 题目描述 leetcode题目:601. 体育馆的人流量 思路 关键:如何确定id是连续的三行或更多行记录 方法一: 多次连表,筛选查询方法二&…

普发Pfeiffer氦质谱检漏仪HLT260/270系列电路图电路板图纸和接线针脚含义非常详细内部国外资料中英操作说明培训PPT课件打包13个文档

普发Pfeiffer氦质谱检漏仪HLT260/270系列电路图电路板图纸和接线针脚含义非常详细内部国外资料中英操作说明培训PPT课件打包13个文档

使用 gin-api-mono 创建简单的 TODO 服务

介绍 首先介绍一下 gin-api-mono 这个项目,这个项目是由 go-gin-api 作者基于用户的需求衍生出来的一个项目。因为有些用户觉得 go-gin-api 是一个前后端都有的一个开源项目,对于很多用户来说,前端部分是不需要的,所以作者看到这…

护眼灯什么价位的好用?推荐五款好价护眼台灯

如今,我们不难发现许多年轻人早早地就戴上了眼镜,近视问题日益严重。在改善近视问题的众多因素中,营造适宜的照明环境,特别是选择一款合适的护眼台灯,显得尤为重要。然而,对于初次选购护眼台灯的人来说&…

通过sqoop把hive数据到mysql,脚本提示成功,mysql对应的表中没有数

1、脚本执行日志显示脚本执行成功,读写数量不为0 2、手动往Mysql对应表中写入数据十几秒后被自动删除了 问题原因: 建表时引擎用错了,如下图所示 正常情况下应该用InnoDB

Request和Response对象

Request和Response都是Servlet的service方法的参数,Request负责获取请求数据,而Response负责设置相应数据~ 一.Request 1.继承体系 Tomcat负责解析数据,因此由Tomcat来提供实现类~ 2.获取请求数据 请求行 请求头 请求体 需要注意的是只有…

【Greenhills】MULTI IDE工程管理的目录结构

【更多软件使用问题请点击亿道电子官方网站查询】 1、 文档目标 关于的GHS的Project Manager中工程的目录结构的组成 2、 问题场景 在GHS中去创建项目后,对于在Project Manager窗口中的目录结构不太清晰,目录中有多个gpj文件,无法确认哪个是…

掼蛋如何识人

掼蛋的吸引力在于其充满变化和挑战性。它不仅仅可以考验玩家的技巧、智慧和决策能力,也是一种社交活动。通过玩家之间的出牌习惯和方式,能快速帮助我们推测出对方的思维方式和性格特征。 一、保守型 这类玩家按部就班,在游戏开始的时候&#…