【具身智能评估3】具身视觉语言规划(EVLP)度量标准汇总

参考论文:Core Challenges in Embodied Vision-Language Planning
论文作者:Jonathan Francis, Nariaki Kitamura, Felix Labelle, Xiaopeng Lu, Ingrid Navarro, Jean Oh
论文原文:https://arxiv.org/abs/2106.13948
论文出处:Journal of Artificial Intelligence Research 74 (2022) 459-515
论文被引:27(11/19/2023)

目前在 EVLP 中使用的度量标准可分为五类,分别从不同角度测量智能体性能:

  • (i)成功率(success)
  • (ii)距离(distance)
  • (iii)路径-路径相似性(path-path similarity)
  • (iv)基于指令的度量标准(instruction-based metrics)
  • (v)物体选择度量标准(object selection metrics)

1. Success

在这里插入图片描述

评估智能体是否成功完成任务的指标在所有 EVLP 任务中都有不同形式的应用。VLN 和 VDN 等指令遵循任务通常将成功率 (Success Rate,SR)定义为智能体距离目标 d t h d _{th} dth 在阈值距离范围内的比例。不同数据集的距离 d t h d _{th} dth 各不相同,

  • R2R 的 d t h d _{th} dth = 3m(Chang et al.,2017)
  • Lani 的 d t h d _{th} dth = 0.47m(Misra et al.,2018)

这种测量方法有一些弱点,特别是对于离散化的状态-动作空间(state-action spaces),它相当依赖于所述离散化的粒度(Thomason et al.,2019a;Krantz et al.,2020)。此外, d t h d _{th} dth 的变化也会影响 SR,这可能会产生误导性结果,正确的执行可能会被认为是错误的(Blukis et al.,2019)。

EQA 没有目标位置的概念;相反,成功与否是根据输出空间的准确性来衡量的,即问题解答的准确性(Das et al.,2018a;Gordon et al.,2018)。其他可以使用的常用分类指标包括(Valuations,2015):

  • 精度
  • 召回率
  • F 分数

这些指标中的任一指标的每类性能也可用于衡量模型是否通过输出常见回复来提高准确率,而这是以牺牲少数类别的性能为代价的。

在大多数情况下,只有当智能体接近最终目的地,回答问题或满足操作指令后,任务才被视为 “complete”。不过,某些数据集,如 ALFRED(Shridhar et al.,2020),Lani(Misra et al.,2018)和 CerealBar(Suhr et al.,2019)也会报告子目标完成情况。例如,增加子目标评分有助于利用子任务的模块性和层次性(Shridhar et al.,2020;Jansen,2020),或缓解成功度量的问题,例如任务早期的失败会影响后面的步骤(Suhr et al.,2019),从而难以评估每个时间步的智能体能力。为了解决这个问题,CerealBar 将轨迹 T 评估为 |T | - 1 个子路径,每个子路径都比下一个短:取这些运行的平均成功率,衡量模型从错误中恢复的能力。子目标评分的另一个好处是,可以更容易地找出具体的智能体错误并进行分类

2. Distance

在这里插入图片描述

虽然成功率是一种直观的衡量标准,但它所提供的关于智能体在空间中行进效率的信息非常有限。在导航和操作任务中,距离度量可以量化这类信息。这方面的两个有用指标:

  • 导航/位移误差(Navigation Error,NE):衡量的是智能体在距离目标位置多远时选择停止,从而提供智能体无法到达目标位置的程度信息。为了进一步分析智能体是否学会了有效地停止,NE 通常与 Oracle 导航误差(Oracle Navigation Error,ONE)相结合。
    • ONE:测量的是沿智能体轨迹到目标位置最近点的距离。
    • NE和ONE测量值的显著差异可能表明在停止方面存在问题。
  • 导航/位移所需的总行程/运动,即路径长度(Path Length,PL):NE 和 ONE 测量方法假定任务有一个指定的目标或目标位置。就 VLN 和 VDN 而言,这是一个合理的假设。然而,对于 EQA,甚至是 EGM 来说,情况未必如此。例如,在 EQA 中,某些问题(如有关物体状态的问题)的答案可能来自房间的不同点。与其评估离目标的距离,不如考察所走路径的长度(PL)。在现实世界中,最大限度地缩短路径长度是一个重要的考虑因素。为了只考虑成功的路径,可以通过归一化反路径长度(SR weighted by normalized inverse Path Length,SPL)计算加权 SR

从本质上讲,距离不仅可用于推导 VLN 和 VDN 的成功指标,还可用于量化智能体路径的误差和效率。就导航而言,这衡量的是导航员偏离目标的程度。这为评估和比较模型性能增加了一个维度。

3. Path-Path Similarity

在这里插入图片描述

距离度量无法捕捉到智能体是否遵循了真实路径(ground-truth path)。对于 VLN 和 VDN 等遵循指令的任务,用户会指定一条带有指令的路径,我们可能希望明确遵循这些指令,而不是寻找最短路径。Jain et al.(2019)讨论了路径相似度度量的必要条件:

  1. 度量标准应衡量所走路径与参考路径之间的保真度(fidelity),而不仅仅是目标。
  2. 错误不应该是硬性惩罚,度量标准应该偏向于偏离并遵循真实路径(ground-truth path)的路径,而不是完全缩短真实路径的路径。
  3. 最大值应该是唯一的,只有在完全匹配的情况下才会出现。
  4. 数据集的基本规模不应影响输出的价值。
  5. 指标应允许快速自动性能评估。

我们相信,这些需求可以更广泛地应用于任何指令跟随任务。早期衡量路径跟随的指标之一是编辑距离(Chen et al.,2019b)。

  • 编辑距离(Edit Distance,ED)衡量的是匹配两个图形所需的变化次数。ED 不符合标准 #2,因为它只根据绝对偏差进行惩罚。
  • Jain et al.(2019)引入了覆盖率加权长度得分(Coverage weighted by Length Score,CLS),这是一种满足上述所有 5 条标准的度量方法。CLS 由路径覆盖率(目标路径与参考路径之间平均每点重叠程度的度量)与长度得分的乘积得出,长度得分会对比参考路径短和比参考路径长的路径进行惩罚。Jain et al.(2019)将其作为基于 RL 的智能体的目标,验证了它的实用性。

Ilharco et al.(2019)在此基础上提出了两种测量方法:

  • 归一化动态时间规整(normalized Dynamic Time Warping,nDTW):是一种相似性函数,用于识别参考路径和查询路径中元素的最优规整。
  • 成功加权归一化动态时间规整(Success weighted by normalized Dynamic Time Warping,SDTW):将 nDTW 限制为成功的轮数(episodes)。

这些度量指标具有许多理想的特性:它们尊重上述理想条件,可有效用作基于 RL 的智能体的奖励信号,并可与人类判断进行比较。与 CLS、SPL、SR 等替代方案相比,这些特性使它们始终更受青睐。

4. Instruction-based

在这里插入图片描述

不同的方法可用于衡量图像和文本形式的路径之间的对齐:

  • 语义命题图像描述评估(Semantic Propositional Image Caption Evaluation,SPICE):(Anderson et al.,2016)
  • 基于共识的图像描述评估(Consensus-based Image Description Evaluation,CIDEr):(Vedantam et al.,2015)

虽然这些方法最初用于 VQA,但最近也被改用于 VLN(Zhao et al.,2021)。

对齐度量也可作为训练的一部分。

  • 某些方法(Fried et al.,2018b;Tan et al.,2019)会生成合成指令,以增加不同质量的可用数据。
  • Huang et al.(2019)训练了一个对齐模型,其中使用 BiLSTM 对指令和路径进行编码,并输入二分类分类器。正输出分配给匹配的路径指令对,负输出分配给不匹配的指令路径对。然后,二分类分类器器被用作对路径进行排序的评分函数。得分低的路径将从训练中删除,从而在减少总数据集大小的同时,显著提高性能。

5. Object Referral

EGM 和 EOR 需要通过遮蔽或从真实边界框中选择目标。Chen et al.(2019b)和 Shridhar et al.(2020)使用交并比(Intersection over Union,IoU)作为评估指标,这是 CV 中常用的指标,特别是在目标检测任务中(Padilla et al.,2020)。然而,这并不是唯一的指标,也不是信息量最大的指标。

最近,Kim et al.(2020)提出了三个指标来评估目标的选择效果:

  • 收集目标正确性(Collected Target Correctness,CTC)
  • 放置目标正确性(Placement Target Correctness。PTC)
  • 对等放置目标距离(reciprocal Placement Object Distance,rPOD)

CTC 衡量选择的目标是否正确;PTC 衡量放置的目标是否正确。需要注意的是,CTC 和 PTC 都可以看作是阈值 IoU 问题,因为有些智能体(Shridhar et al. 2020)就是这样决定是否拾取一个目标的。rPOD 是一种标准化的测量方法,如果物体的摆放位置与理想位置相差甚远,则得分为接近零分;如果摆放位置完全正确,则得分为 1 分。

虽然只适用于 EGM 和 EOR,但测量目标选择交互的质量也很重要。这是任务的另一个方面,也是了解语言的哪些方面对模型来说更难的一个好方法。目标识别方面的最新研究(Padilla 等人,2020 年)表明,有许多衡量标准和变体。在这些任务中,即使是更传统的指标,如精度、召回率和 F 分数,目前也没有报告。这样做可以提供更多有关边界框准确性的信息。此外,我们还可以报告每个类别的准确率,这将有助于识别哪些目标未被模型检测到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/253855.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【开源项目】WPF 扩展 -- 多画面视频渲染组件

目录 1、项目介绍 2、组件集成 2.1 下载地址 2.2 添加依赖 3、使用示例 3.1 启动动画 3.2 视频渲染 3.3 效果展示 4、项目地址 1、项目介绍 Com.Gitusme.Net.Extensiones.Wpf 是一款 Wpf 扩展组件。基于.Net Core 3.1 开发,当前是第一个发布版本 1.0.0&am…

设计模式——状态模式

引言 状态模式是一种行为设计模式, 让你能在一个对象的内部状态变化时改变其行为, 使其看上去就像改变了自身所属的类一样。 问题 状态模式与有限状态机 的概念紧密相关。 其主要思想是程序在任意时刻仅可处于几种有限的状态中。 在任何一个特定状态中…

Mysql利用备份数据恢复单表

1、说明 之前的备份是使用Xtrabackup8做的备份 使用了独立表空间(innodb_file_per_table1),就可以单独恢复这个表。 2、在备份的目录下执行Prepare 根据自己之前备份的目录,选择执行路径 我之前的备份目录是 /tmp/backup/2023-12-16/full cd /tmp/…

chrome升级后,调试vue在控制台输出总是显示cjs.js

当前chrome版本120.0.6099.72 在vue中使用console.log输出时,总是显示cjs.js多少多少行,不能显示源文件名及行数 【解决方案】 打开控制台的设置 左侧找到“Ignore List”,取消勾选"enable Lgnore Listing",并重启chr…

C# WPF上位机开发(知识产权ip保护)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 上位机软件如果是和硬件模块搭配开发,这个时候大部分上位机基本上都是白送的,不会收取相关的费用。但是,如果上…

VR虚拟现实的七大应用领域

一、工业领域 园区利用虚拟现实技术优化生产管理与节能减排,实现提质增效降本。发展支持多人协作和模拟仿真的虚拟现实开放式服务平台,打通产品设计与制造环节,构建虚实融合的远程运维新型解决方案,适配各类先进制造技术的员工技…

EasyExcel 简单导入

前边写过使用easyexcel进行简单、多sheet页的导出。今天周日利用空闲写一下对应简单的导入。 重点:springboot、easyExcel、桥接模式; 说明:本次使用实体类student:属性看前边章节内容; 1、公共导入service public …

slurm 23.11.0集群 debian 11.5 安装

slurm 23.11.0集群 debian 11.5 安装 用途 Slurm(Simple Linux Utility for Resource Management, http://slurm.schedmd.com/ )是开源的、具有容错性和高度可扩展的Linux集群超级计算系统资源管理和作业调度系统。超级计算系统可利用Slurm对资源和作业进行管理&a…

I/O流的相关内容

首先我们了解一下什么是文件: 文件其实就是让我们用来保存数据的地方,它可以用来保存信息,图片,以及音频等各类数据。 文件流: 那我们是如何通过我们的程序来进行对文件的操作呢?这里我们就要提出一个概…

Vue学习计划-Vue2--VueCLi(八)vuex统一状态管理实现数据共享

1. vuex是什么 概念:专门在Vue中实现集中式状态(数据)管理的一个Vue插件,对Vue应用中多个组件的共享状态进行集中式的管理(读/写),也是一种组件间通信的方式,且适用于任意组件间通信…

gitlab 安装

1.安装依赖 sudo apt updatesudo apt-get upgradesudo apt-get install curl openssh-server ca-certificates postfix安装gitlab curl -s https://packages.gitlab.com/install/repositories/gitlab/gitlab-ce/script.deb.sh | sudo bash官网下载安装包 要选ubuntu focal 安…

【Hadoop】HDFS设计思想

HDFS设计思想为什么HDFS上的块为什么远远大与传统文件系统? HDFS设计思想 首先需要明确HDFS部署在集群之上。 假设有一个50G的文件,在HDFS中分布式的存储这个文件,首先需要将50G文件分成多个数据块,块的大小可以设置,…

一二三应用开发平台部署文档——开发环境搭建手册

背景 开源平台在ReadMe文档中简要描述了如何部署与启动以及重要注意事项,有小伙伴私信我希望提供一个详细具体的部署说明,然后联想到自己出于学习或研究目的,去搭建一些开源项目时,面对简要的说明也经常遇到障碍,比如…

在金属/绝缘体/p-GaN栅极高电子迁移率晶体管中同时实现大的栅压摆幅和增强的阈值电压稳定性

标题:Simultaneously Achieving Large Gate Swing and Enhanced Threshold Voltage Stability in Metal/Insulator/p-GaN Gate HEMT (IEDM2023) 摘要 摘要:对于增强型GaN功率晶体管的发展,栅压摆幅和阈值电压稳定性通常是互相排斥的。本文展…

c++11--保证稳定性和兼容性

保证稳定性和兼容性 1.变长参数宏定义及__VA_ARGS__ C99中&#xff0c;可使用变长参数空定义&#xff0c;即在宏定义参数列表最后一个参数为省略号。 预定义宏__VA_ARGS__可在宏定义实现部分替换省略号代表的内容。 #include <stdio.h> #define LOG(...) {\fprintf(std…

RTD2513A RTD2513BA 1VGA+2HDMI转双通道1080P LVDS 显示驱动芯片介绍

转载&#xff1a; 易显LCD显示方案设计www.rtddisplay.com

基于Java+Swingt学生信息管理系统

基于JavaSwing学生信息管理系统 一、系统介绍二、功能展示四、其他系统实现五、获取源码 一、系统介绍 1.用户登陆&#xff1a;在帮助按钮处&#xff0c;可以查看登陆账号及密码&#xff1a; 账号admin,密码123456 在未输入的情况下&#xff0c;会提示用户名不能为空&#xff…

git 切换远程地址分支 推送到指定地址分支 版本回退

切换远程地址 1、切换远程仓库地址&#xff1a; 方式一&#xff1a;修改远程仓库地址 【git remote set-url origin URL】 更换远程仓库地址&#xff0c;URL为新地址。 git remote set-url https://gitee.com/xxss/omj_gateway.git 方式二&#xff1a;先删除远程仓库地址&…

正点原子驱动开发BUG(一)--SPI无法正常通信

目录 一、问题描述二、讲该问题的解决方案三、imx6ull的spi适配器驱动程序控制片选分析3.1 设备icm20608的驱动程序分析3.2 imx的spi适配器的驱动程序分析 四、BUG修复测试五、其他问题 一、问题描述 使用正点的im6ull开发板进行spi通信驱动开发实验的时候&#xff0c;主机无法…