【AI视野·今日Robot 机器人论文速览 第七十四期】Wed, 10 Jan 2024

AI视野·今日CS.Robotics 机器人学论文速览
Wed, 10 Jan 2024
Totally 17 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Robotics Papers

Hold 'em and Fold 'em: Towards Human-scale, Feedback-Controlled Soft Origami Robots
Authors Immanuel Ampomah Mensah, Jessica Healey, Celina Wu, Andrea Lacunza, Nathaniel Hanson, Kristen L. Dorsey
软机器人技术中尚未开发的功能是本体感觉反馈控制,其中仅使用机器人身体上的传感器即可感测和控制软执行器。此外,由于使用的材料极其柔顺,软执行器通常无法支撑人体规模的负载。开发反馈控制和大负载下驱动的能力,例如500 N 是将软机器人技术应用于日常应用所需的关键能力。在这项工作中,我们独立地演示了控制和驱动人体规模负载的这些关键因素,即软气动折纸机器人的本体感觉体现反馈控制以及这些折纸机器人在开环配置中在人的重量下的驱动。在这两个演示中,执行器均由内部流体压力控制。机器人上的电容式传感器提供位置估计并用作反馈控制器的输入。我们演示了在步进设定点和正弦轨迹跟踪期间单个执行器的位置控制,均方根误差 RMSE 低于 4 mm。我们还通过将三个执行器连接到一个开环控制系统中,该系统具有一个可改变其高度、滚动和俯仰的平台,展示了执行器作为折纸平衡板在人体规模机器人方面的潜力。这项工作通过展示无需视觉跟踪作为输入的闭环反馈位置控制以及可以支撑人的重量的轻质软执行器,为软机器人领域做出了贡献。

A Multi-Modal Approach Based on Large Vision Model for Close-Range Underwater Target Localization
Authors Mingyang Yang, Zeyu Sha, Feitian Zhang
水下目标定位使用实时传感测量来估计感兴趣的水下物体的位置,为水下机器人提供关键的反馈信息。虽然声学传感是水下机器人中最受认可的方法,并且可能是远距离水下目标定位的唯一有效方法,但这种传感方式通常存在分辨率低、成本高和能耗高的问题,因此在应用于水下机器人时性能平庸。近距离水下目标定位。另一方面,光学传感以其高分辨率和低成本的优势越来越受到水下机器人界的关注,特别是在近距离水下目标定位方面具有巨大的潜力。然而,由于可用的训练数据有限,大多数现有的水下光学传感研究仅限于特定类型的目标。此外,这些研究通常侧重于估计算法的设计,而忽略了光照条件对传感性能的影响,从而阻碍了在现实世界中更广泛的应用。为了解决上述问题,本文提出了一种新颖的目标定位方法,该方法结合光学和声学传感测量来估计近距离水下目标的 3D 位置。设计和开发了一个具有可控照明条件的测试平台,以通过实验研究所提出的多模态传感方法。应用大视觉模型来处理光学成像测量,消除了训练数据采集的要求,从而显着扩大了潜在应用范围。

Testing Human-Robot Interaction in Virtual Reality: Experience from a Study on Speech Act Classification
Authors Sara Kaszuba 1 , Sandeep Reddy Sabbella 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy 2 PaleBlue, Stavanger, Norway
近年来,越来越多的人机交互 HRI 方法已在虚拟现实 VR 中实施和评估,因为它可以加快设计迭代并使最终用户更安全地评估和掌握 HRI 原语。然而,确定最合适的 VR 体验并不简单。在这项工作中,我们评估了在智能农业场景中,用户如何在语音行为理解任务中感知沉浸式和非沉浸式 VR。

Augmented Reality and Human-Robot Collaboration Framework for Percutaneous Nephrolithotomy
Authors Junling Fu, Matteo Pecorella, Elisa Iovene, Maria Chiara Palumbo, Alberto Rota, Alberto Redaelli, Giancarlo Ferrigno, Elena De Momi
在经皮肾镜碎石取石术PCNL手术中,外科医生需要在患者背部确定切口点,将针头对准预先计划的路径,然后进行穿刺操作。该过程目前是使用超声波或荧光镜成像进行针定向手动执行的,然而,这意味着精度有限且可重复性低。这项工作将增强现实 AR 可视化与光学透视头戴式显示器 OST HMD 和人机协作 HRC 框架相结合,以增强外科医生的任务完成能力。具体通过眼手标定、系统配准、全息图模型配准来实现视觉引导。笛卡尔阻抗控制器用于在针穿刺任务执行期间指导操作员。进行实验以验证系统性能与传统手动穿刺程序和基于二维监视器的可视化界面的比较。结果表明,所提出的框架分别在所有实验组中实现了最低的中值误差和标准差误差。此外,NASA TLX 用户评估结果表明,与其他实验设置相比,所提出的框架需要最低的工作负载分数来完成任务。

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker
Authors Jingtao Sun, Yaonan Wang, Danwei Wang
跟踪物体 6 DoF 位姿对于各种下游机器人任务和现实世界应用至关重要。在本文中,我们利用类别 6 自由度姿态跟踪,研究了用于空中机器人操纵的空中视觉引导的现实世界机器人任务。空中条件不可避免地会带来特殊的挑战,例如俯仰和横滚的快速视点变化。为了支持这项任务和挑战,我们首先引入一个强大的类别 6 DoF 姿势跟踪器 Robust6DoF 。该跟踪器利用形状和时间先验知识来探索最佳帧间关键点对,这些关键点对是在先验结构自适应监督下以从粗到细的方式生成的。值得注意的是,我们的 Robust6DoF 采用空间时间增强模块,通过时间动态过滤和形状相似性过滤来处理帧间差异和类内形状变化的问题。我们进一步提出了一种姿态感知离散伺服策略 PAD Servo,作为实现最终航空视觉引导任务的解耦方法。它包含两个伺服动作策略,以更好地适应空中机器人操纵的结构特性。对四个众所周知的公共基准的详尽实验证明了我们 Robust6DoF 的优越性。

Large Language Models for Robotics: Opportunities, Challenges, and Perspectives
Authors Jiaqi Wang, Zihao Wu, Yiwei Li, Hanqi Jiang, Peng Shu, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu, Xuhui Wang, Yincheng Yao, Xuan Liu, Huaqin Zhao, Zhengliang Liu, Haixing Dai, Lin Zhao, Bao Ge, Xiang Li, Tianming Liu, Shu Zhang
大型语言模型法学硕士经历了显着的扩展,并且越来越多地跨各个领域进行集成。值得注意的是,在机器人任务规划领域,法学硕士利用其先进的推理和语言理解能力,根据自然语言指令制定精确高效的行动计划。然而,对于机器人与复杂环境交互的具体任务,纯文本法学硕士通常因缺乏与机器人视觉感知的兼容性而面临挑战。本研究全面概述了法学硕士和多模式法学硕士与各种机器人任务的新兴集成。此外,我们提出了一个框架,利用多模态 GPT 4V 通过自然语言指令和机器人视觉感知的结合来增强具体任务规划。我们基于不同数据集的结果表明,GPT 4V 有效增强了机器人在具体任务中的性能。

Autonomous robotic re-alignment for face-to-face underwater human-robot interaction
Authors Demetrious T. Kutzke, Ashwin Wariar, Junaed Sattar
由于传感、导航、操纵和机载计算技术的进步,使用自主水下航行器 AUV 来完成传统上具有挑战性和危险的任务已经激增。由于双向通信的限制以及弥合陆地交互策略与水下交互策略之间的差距的重大技术障碍,UHRI 在水下人类机器人交互中使用 AUV 的增长水平相对较小。支持 UHRI 的一个必要组成部分是建立一个安全的机器人潜水员方法系统,以建立考虑非标准人体姿势的面对面通信。在这项工作中,我们介绍了一种用于增强 UHRI 的立体视觉系统,该系统利用立体图像对的三维重建和机器学习来定位人类联合估计。然后,我们建立一个坐标系约定,对人类相对于相机坐标系所面对的方向进行编码。这允许自动设定点计算,保留人体比例,并可用作基于图像的视觉伺服控制方案的输入。我们表明,我们的设定点计算在数量和质量上都倾向于与实验设定点基线一致。

Robust Control of An Aerial Manipulator Based on A Variable Inertia Parameters Model
Authors Guangyu Zhang, Yuqing He, Bo Dai, Feng Gu, Jianda Han, Guangjun Liu
由无人机和多连杆机械臂组成的能够进行空中操纵的空中机械臂已显示出巨大的应用潜力。然而,无人机与机械臂之间的动态耦合使得空中机械臂的高性能控制变得困难。本文对空中机械手的系统建模和控制问题进行了研究。首先,提出了考虑附加机械臂的动态耦合的无人机动力学模型,该模型被视为对无人机的干扰。在动力学模型中,扰动受到空中机械手系统变惯量参数的影响。然后,基于所提出的动态模型,设计了一种扰动补偿鲁棒H infty控制器,以在机械臂运行时稳定无人机的飞行。

Design and Development of a Remotely-enabled Modular Release Mechanism for Autonomous Underwater Vehicles
Authors Demetrious T. Kutzke, Gustavo E. Miranda L pez, Robert J. Herman, Harryel Philippeaux
我们引入了一种称为远程模块化释放机制的发射装置,通过促进自主水面舰艇 ASV 的自主部署,增强协作自主海上应用的快速测试和原型设计。虽然我们的开发重点是从双体船式 ASV 部署 AUV 的特定应用,但释放机制可以适应不同的可部署物体和拖曳车辆,例如用于海洋学调查的浮标和传感器或单体 ASV。在本文中,我们探讨了许多硬件和软件设计注意事项,以促进与现有海上自主系统的轻松集成。我们阐述了用于探索释放系统的实用性和诊断系统问题的台架测试和水中测试。

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
Authors Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
语言条件机器人操作旨在将自然语言指令转化为可执行动作,从简单的拾取和放置到需要意图识别和视觉推理的任务。受认知科学中的双过程理论的启发,该理论提出了人类决策中快速和慢速思维的两个并行系统,我们引入了具有快速和慢速思维的机器人 RFST,这是一个模仿人类认知架构的框架,可以对任务进行分类并根据两个系统做出决策基于指令类型的系统。我们的 RFST 由两个关键组件组成:1 指令鉴别器,用于根据当前用户指令确定应激活哪个系统;2 慢速思维系统,由与策略网络对齐的微调视觉语言模型组成,该模型允许机器人识别用户意图或执行推理任务。为了评估我们的方法,我们构建了一个包含现实世界轨迹的数据集,捕获从自发冲动到需要深思熟虑的任务的各种行为。我们在模拟和现实场景中的结果证实,我们的方法可以熟练地管理需要意图识别和推理的复杂任务。

RePLan: Robotic Replanning with Perception and Language Models
Authors Marta Skreta, Zihan Zhou, Jia Lin Yuan, Kourosh Darvish, Al n Aspuru Guzik, Animesh Garg
法学硕士在大型语言模型方面的进步已经证明了它们在促进高级推理、逻辑推理和机器人规划方面的潜力。最近,法学硕士还能够为低级机器人动作生成奖励函数,有效地桥接高级规划和低级机器人控制之间的接口。然而,挑战仍然存在,即使计划的语法正确,机器人仍然可能无法实现其预期目标。这种失败可能是由于法学硕士提出的不完善的计划或由于对对象状态的错误假设而阻碍计划子任务执行的不可预见的环境情况。防止这些挑战的一种方法是依靠人类提供的逐步指令,限制机器人系统的自主性。视觉语言模型 VLM 在视觉问答和图像字幕等任务中取得了显着的成功。利用 VLM 的功能,我们提出了一种名为“具有感知和语言模型 RePLan 的机器人重新规划”的新颖框架,该框架可为长期任务提供实时重新规划功能。该框架利用 VLM 对世界状态的理解提供的物理基础,在初始计划未能实现预期目标时调整机器人的动作。我们在包含七个长期任务的四个环境中测试我们的方法。我们发现,RePLan 使机器人能够成功适应不可预见的障碍,同时实现开放式、长期目标,这是基线模型无法做到的。

From axial C-hedra to general P-nets
Authors Georg Nawratil
我们对连续柔性离散轴向锥网进行了完整的分类,称为轴向C hedra。获得的结果也可以用于构建它们的半离散类似物。此外,我们在半离散轴向锥网的确定类中确定了一个新的子类,其成员被称为轴向 P 网,因为它们满足截距定理的比例 P。这些轴向 P 网的已知特殊情况是具有反射规则线的平滑且离散的圆锥形折痕图案。通过使用并行运算,我们甚至可以推广轴向 P 网络。由此产生的通用 P 网构成了丰富新颖的连续柔性半离散表面,允许通过三个控制折线直接访问其空间形状。

Evaluating Gesture Recognition in Virtual Reality
Authors Sandeep Reddy Sabbella 1 , Sara Kaszuba 1 , Francesco Leotta 1 , Pascal Serrarens 2 , Daniele Nardi 1 1 Sapienza Universit di Roma, Rome, Italy, 2 PaleBlue, Stavanger, Norway
随着机器人融入日常生活的各个方面,人机交互 HRI 变得越来越重要。 HRI 的一个关键方面是手势识别,它允许机器人实时解释和响应人类手势。手势识别在 HRI 的非语言交流中发挥着重要作用。为此,人们正在研究这种非语言交流如何加强语言交流并提高系统的整体效率,从而增强机器人的用户体验。然而,手势识别系统需要解决一些挑战,包括数据生成、可转移性、可扩展性、通用性、标准化以及手势系统缺乏基准测试。

The Role of Higher-Order Cognitive Models in Active Learning
Authors Oskar Keurulainen, Gokhan Alcan, Ville Kyrki
构建能够与人类高效协作的机器一直是人工智能的长期目标。特别是在存在不确定性的情况下,最佳合作通常需要人类和人工智能体对彼此的行为进行建模,并使用这些模型来推断潜在的目标、信念或意图,这可能涉及多个层次的递归。先前的认知科学、语言学和机器人学研究也提供了人类行为中这种高阶认知的经验证据。我们倡导一种主动学习人类反馈的新范式,利用人类作为主动数据源,同时考虑到他们更高级别的代理能力。特别是,我们讨论了代理水平的提高如何导致主动学习系统和教师之间的理性沟通形式在性质上有所不同。此外,我们还提供了使用高阶认知模型进行主动学习的实际示例。

Learning Racing From an AI Coach: Effects of Multimodal Autonomous Driving Explanations on Driving Performance, Cognitive Load, Expertise, and Trust
Authors Robert Kaufman, Jean Costa, Everlyne Kimani
在前后实验 n 41 中,我们测试了人工智能教练根据人类驾驶专家的指示建模的解释性通信的影响。参与者被分为 4 个 4 组,以评估人工智能教练的解释信息类型什么和为什么类型解释以及听觉和视觉呈现方式的两个 2 维度。我们直接比较采用这些技术的人工智能辅导课程如何影响观察学习环境中的驾驶表现、认知负荷、信心、专业知识和信任。通过访谈,我们描绘了参与者的学习过程。结果表明,人工智能驾驶教练对于向新手教授驾驶技能非常有用。比较各组之间,我们发现信息的类型和方式会影响绩效结果。我们将差异归因于信息如何引导注意力、减轻不确定性以及影响参与者所经历的超负荷。这些反过来又影响了参与者学习的成功程度。结果表明,在设计有效的 HMI 通信时,应选择高效、模式适当的解释,以便在不产生压倒性的情况下进行指导。此外,他们支持将通信与人类学习和认知过程保持一致的需要。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/313596.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!

项目简介 YAYI 2 是中科闻歌研发的新一代开源大语言模型,中文名:雅意,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。 开源地址:https://github.com/wenge-research/YAYI2 YAYI2-30B是其模型规模,是基…

【C语言题解】 | 144. 二叉树的前序遍历

144. 二叉树的前序遍历 144. 二叉树的前序遍历代码 144. 二叉树的前序遍历 提示: 树中节点数目在范围 [0, 100] 内 函数原型: int* preorderTraversal(struct TreeNode* root, int* returnSize) {首先先观察一下这个函数原型,TreeNode* roo…

为什么要进行漏洞扫描工作

随着互联网的普及和信息技术的飞速发展,网络安全问题愈发引人关注。其中,漏洞扫描作为保障网络安全的重要手段,受到了广泛的关注和应用。本文将详细介绍漏洞扫描的概念、效果、使用场景等,以期为读者提供有关漏洞扫描的全面了解。…

01.坦克大战项目-Java绘图坐标体系

01. Java绘图 01. Java绘图坐标体系 1. 坐标体系介绍 ​ 下图说明了java坐标系。坐标原点位于左上角,以像素为单位。在Java坐标系中,第一个是x坐标系,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标表示…

电脑弹窗‘找不到msvcp120dll,无法继续执行代码’要怎么解决?快速修复msvcp120dll

当你的电脑弹窗‘找不到msvcp120dll,无法继续执行代码’,你是否一脸懵逼不知道要怎么去解决呢?其实这种dll丢失的问题还是比较常见的,所以我们遇到也不会担心,只要了解了,那么我们就可以轻松的修复msvcp120dl文件。下面…

C#实现Excel合并单元格数据导入数据集

目录 功能需求 Excel与DataSet的映射关系 范例运行环境 Excel DCOM 配置 设计实现 组件库引入 ​方法设计 返回值 参数设计 打开数据源并计算Sheets 拆分合并的单元格 创建DataTable 将单元格数据写入DataTable 总结 功能需求 将Excel里的worksheet表格导入到Da…

为什么企业容易陷入“自嗨式营销”,媒介盒子分析

互联网时代,各类信息都传播的非常快,同时信息技术的成熟也让许多企业可以监测广告效果,比如曝光、互动、转化等都可以通过数据体现,然而很多企业在营销过程中却发现,大部分的钱、精力、人力等都被浪费了。出现这种情况…

three.js 使用 tweenjs绘制相机运动动画

效果&#xff1a; 代码&#xff1a; <template><div><el-container><el-main><div class"box-card-left"><div id"threejs" style"border: 1px solid red"></div><div class"box-right"…

数据结构与算法:堆

数据结构与算法&#xff1a;堆 堆堆的定义堆的实现结构分析初始化向上调整算法向下调整算法堆的插入堆的删除得到堆顶元素判断堆是否为空 堆的应用TopK问题 堆 堆的定义 定义&#xff1a; 堆是一种数据结构&#xff0c;本质上是一个特殊的树结构&#xff0c;它是一个完全二叉…

k8s中的基础概念

k8s可以从硬件和软件两方面来理解&#xff1a; 硬件&#xff1a; 1、节点&#xff08;Node&#xff09;&#xff1a;类似于手机、平板、电脑 2、集群&#xff08;Cluster&#xff09;&#xff1a;多个节点组合到一起 3、持久卷&#xff08;Persistent Volumes&#xff09;&…

几款优秀科学开源计算软件介绍

有一些比较优秀的软件&#xff0c;它们在科学计算、数据处理和分析方面具有广泛的应用和功能。以下是一些比较知名的软件&#xff1a; SciPy&#xff1a;SciPy是一个非常流行的科学计算库&#xff0c;提供了大量的数学函数和算法&#xff0c;用于解决各种科学问题。它支持多种操…

【实用技巧】Steam Wallpaper Engine 壁纸引擎向手机导入壁纸方法

一、内容简介 本文介绍如何使用电脑上的 Wallpaper Engine &#xff08;Steam 平台中的壁纸引擎&#xff09;向安卓手机导入并使用壁纸。 二、所需原材料 安卓手机&#xff08;以笔者使用的华为荣耀50为例&#xff09;、安装有Steam以及Wallpaper Engine的电脑 三、导入方法…

清水模板厂家专供 — 易脱模,不翘曲

在现代建筑施工中&#xff0c;清水模板的选择对于实现优质建筑表面尤为关键。我们专供的清水模板&#xff0c;凭借其易脱模和不翘曲的特性&#xff0c;为建筑项目提供了理想的解决方案。 产品特点 易脱模性能&#xff1a;我们的清水模板表面光滑细腻&#xff0c;经过特殊处理…

C++系列-第1章顺序结构-7-浮点型

在线练习&#xff1a; http://noi.openjudge.cn/ https://www.luogu.com.cn/ 总结 本文是C系列博客&#xff0c;主要讲述浮点型的用法 浮点型 1、常量 圆周率是一个常数。计算机程序设计中有一个类似的概念是“常量”。C语言规定&#xff0c;一个常量可以直接调用(如 124、…

linux后台进程的总结

文章目录 方案1 nohup &方案2 screen 方案1 nohup & 1、单独使用 nohup 执行脚本&#xff0c;如下图所示&#xff0c;终端会被接管&#xff0c;就是标准输入stdin 被关闭了&#xff0c;使用ctrlc会导致终止执行&#xff0c;但是可以关闭这个终端&#xff0c;重新打开终…

GVM垃圾收集算法

分代收集理论 目前主流JVM虚拟机中的垃圾收集器&#xff0c;都遵循分代收集理论&#xff1a; 弱分代&#xff1a;绝大多数对象都是朝生夕灭强分带&#xff1a;经历越多次垃圾收集过程的对象&#xff0c;越难以回收&#xff0c;难以消亡 按照分代收集理论设计的“分代垃圾收集…

挑选全身动作捕捉设备需要看哪几点?

随着数字化发展&#xff0c;虚拟数字人成为企业、品牌营销中不可或缺的一环&#xff0c;虚拟数字人可以通过全身动作捕捉设备&#xff0c;能够打破次元壁与用户实时互动。那要怎么挑选全身动作捕捉设备呢&#xff1f; 广州虚拟动力推出了旗舰版惯性动捕设备DreamsCap X1&#…

洗地机是智商税吗?2024洗地机品牌推荐

为了更加便捷地应对家务&#xff0c;人们一直在不断发明各种工具。从最早的扫把和拖布&#xff0c;到后来的吸尘器和扫地机器人&#xff0c;我们的家务清洁方式不断演进。然而&#xff0c;在最近几年&#xff0c;洗地机的出现彻底改变了我们的家庭清洁体验&#xff0c;为我们带…

微服务自动化docker-compose

一、docker-compose介绍 Docker Compose是一个用来定义和运行多个复杂应用的Docker编排工具。例如&#xff0c;一个使用Docker容器的微服务项目&#xff0c;通常由多个容器应用组成。那么部署时如何快速启动各个微服务呢&#xff0c;一个个手动启动&#xff1f;假如有上百个微服…