Aerial Vision-and-Dialog Navigation阅读报告

Aerial Vision-and-Dialog Navigation

  • 本次报告,包含以下部分:1摘要,2数据集/模拟器,3AVDN任务,4模型,5实验结果。重点介绍第2/3部分
  • 相关主页:Aerial Vision-and-Dialog Navigation (google.com) 包含,code,paper,dataset

一,摘要

这一部分将论文中的摘要,引言,相关工作,合并介绍

          本文提出了一个空中/对话/导航任务,其目的是解放双手来控制无人机。为了完成这个任务,作者创建了一个来自真实图片的 连续场景的 无人机模拟器 和 一个具有3064条条轨迹的对话数据集。在对话的过程中,commander(用户角色)提供初始的导航指令和进一步的指导。fellower(无人机角色)在必要的时候提问。在此基础上,作者提出了两种空中导航任务,一种是ANDH,另一种是AVDN-Full,区别是AVDN-Full是直接给出所有的完整的对话历史预测到达目的地的导航轨迹,AVDN是使用逐轮对话进行子轨迹的导航,从而完成导航到最终目的地的完整任务。作者还提出了一种结合人类注意力预测的transformer-based模型来预测waypoints。

图一简单介绍了一个AVDN任务的例子
在这里插入图片描述
表一中,本文提出的数据集AVDN跟其他VLN数据集进行了比较:
在这里插入图片描述

  • 后面的内容解决以下几点疑问:
    • Q 1: 模拟器能提供那些功能?
    • Q 2: 数据集有哪些信息?
    • Q 3: 导航成功的条件?
    • Q 4: 对话过程是怎么异步进行的?
    • Q 5: 提出的模型方法的流程,输入输出是什么?
    • Q 6: 人类注意力是怎么得到的?怎么使用的?
    • Q 7: 任务的局限性?

二,数据集/模拟器

数据集/模拟器是 任务 的基础,提出的任务不能超过数据集/模拟器的能力范围

figure 2
AVDN
在这里插入图片描述

2.1 模拟器

和R2R任务相似,模拟器的构建需要基于一个开源的大规模3D数据集。
而AVDN任务需要的模拟器,是基于 xView数据集 构建的 (一个开源的,大规模的卫星图像目标检测数据集)

Response for Q1: 模拟器能够提供那些功能

  • 模拟器提供的是一个自上而下的视角,模拟环境是一个连续的环境,无人机可以移动到环境中的任何点,所以模拟器提供的是具有丰富视觉内容的连续帧。
  • 无人机还可以通过键盘控制,无人机观察到的视觉内容可以被实时展示。控制过程中,用户还可以通过点击他们关注的区域来关注界面显示的图像。
  • 除此之外,如图2展示的那样,我们的模拟器能够生成commander视图,观察到起始点,目标区域,当前的视图,过去的行动轨迹。

2.2 数据集

2.2.1 数据集结构

Response for Q1: 数据集有哪些信息
数据集包含了导航轨迹 (time step(T)= 0, 1, 2……M):

  • T=0时,commander提供一个初始指令。相邻的时间步之间存在对应的导航子轨迹。
  • 在中间的每一个时间步(0<T<M),都有对应的(来自fellower的)问题和(来自commander)答案。
  • 在T=M时,到达目标区域,由follower决定导航轨迹结束。

有T=M个fellower的视图序列, < u 0 T , u 1 T , , , , u N T T > , N T <u_0^T, u_1^T,, , ,u_{N_T}^T>,N_T <u0T,u1T,,,,uNTT>NT是T-th序列的长度,每个视图的中心总是落在轨迹上。因此,基于每个视图,我们能检索到无人机的的位置,方向,高度( c i , d i , h i c_i,d_i,h_i ci,di,hi).
对于每个视图区域u,还有一个对应的大小相同的二进制的人类注意力的mask,fellower关注白色区域。

2.2.2 数据集收集

Response for Q 3: 导航成功的条件
导航成功的情况是,当fellower宣称到达了真正的目标区域时。如果视图中心 c i c_i ci在目标区域时候,并且到达的区域 u j u_j uj和目标区域Des 的交并比大于0.4时,认为到达了目的地。

2.2.3 数据集分析

AVDN数据集包含了3064个空中导航轨迹,每个轨迹包含多轮对话。平均来说,每个轨迹只包含两轮对话,对话的轮数和是最大的time step M是相同的。3064个完整的轨迹可以被分割成6269条子指令和对应的轨迹。

图3展示了常用词和路径长度分布,轨迹平均长度是287m。
在这里插入图片描述

表二展示了对不同数据集分割的统计分析,平均每个数据集分割包含1.2平方千米的卫星图像区域(相当于一个大学校园那么大)。
在这里插入图片描述

关于指令,包含两种,一种是详细的描述目的地的指令,一种是粗略的初始指令和后面的对话进一步描述。
描述方向的方式也包含两种,一种是以自我为中心的,例如“turn right”,占82%。一种是非以自我为中心的,例如“turn south”,占30%。还有部分指令包含了这两种指令。

三,AVDN任务

本节介绍具体的任务,包含AVDN和AVDN-Full两种,两个模型都需要预测一系列的视觉区域

Respone for Q 4:对话过程是怎么异步进行的?
github的issue中的回复。
在这里插入图片描述

  • 对于这个问题的解答可以看完第四节模型的预测过程后,再回头来看
  • agent跑到不同的地方,应该提出不同的问题?
    在训练的时候,无论agent跑没跑偏,都无所谓,因为我们有ground truth导航点,我们预测一个对或错的导航点之后,下一个起始位置一定是从正确的轨迹上的点开始。推理测试的时候,没有正确的子轨迹和waypoint供参考,如果预测到一个不在数据集中的waypoint上,则必须回溯到正确的轨迹上,而测试集没有正确的轨迹,所以只能回到起始点。
  • 根据作者回复的最后一句话,在推理时,对话历史总是准备好的(而不是交互的),根据这一对话历史完成预测之后必须到达下一个起始位置,也就是说进行下一个预测任务。也就是说,在训练train的时候,该任务是有一定的对话的意思,但是在测试test的时候,没有ground truth轨迹,只能在测试一开始将对话历史输入进去,中间过程不再对话。
3.1 AVDN

任务目标是让agent根据对话历史中的指令预测一个引导至目标区域的导航动作(而不是直接导航到目标区域)。
具体来说,在Ti到 T i − 1 T_{i-1} Ti1这一步,agent预测一个动作 a ^ j \hat{a}_j a^j
输入是(从T=0到T=Ti)对话和一系列的图像 u ^ 0 , u ^ 1 , , , , u ^ j − 1 > \hat{u}_0, \hat{u}_1,, , ,\hat{u}_{j-1}> u^0,u^1,,,,u^j1>,
目标区域和当前的导航time step有关,
在这里插入图片描述

3.2 AVDN-Full

和AVDN的区别是,AVDN-Full的输入是整个导航对话和视觉内容,agent需要预测一个完整的(从起始点 u 0 0 u_0^0 u00到目标区域Des)轨迹,

所以,AVDN-Full为agent提供完整的监督,包括了更精确的目的地描述,更长的表达,更复杂的视觉grounding挑战。

3.3 评估指标

SR成功率和SPL(导航轨迹和导航路径长度加权)都是最基本的导航指标。

GOAL progress是对话导航独有的评估指标,用来评估通往目的地进展的距离,其实就是轨迹的欧拉距离减去预测中心到目标区域的距离。

四,模型

不细讲模态的编码方法,重点在于讲解模型预测的输入输出流程,阅读时请结合模型流程图

在这里插入图片描述
Response for Q1: 模型的流程,输入输出是什么

多模态编码

输入来自三个模态,无人机接收到的方向,图像和历史对话。
起始的时候,接收整个对话历史,包含question和指令。
在每个时间步,之前的方向和图像都被输入到模型中。其中,使用一种卫星图像的预训练模型提取图像编码,整个模型总体上和ET(21年提出的室内导航方法)类似。
多模态的总体输入输出可以表示为
{ z 1 : L l , z 1 : t v , z 1 : t x } = F M T ( { z 1 : L l , z 1 : t v , z 1 : t x } ) \{z_{1:L}^l, z_{1:t}^v, z_{1:t}^x \} = F_{MT}(\{ z_{1:L}^l, z_{1:t}^v, z_{1:t}^x\}) {z1:Ll,z1:tv,z1:tx}=FMT({z1:Ll,z1:tv,z1:tx})
这里的输出不是最终的预测结果,而是一种融合跨模态特征表示。

至于导航进度 g ^ \hat{g} g^,用于决定何时停止。如果导航进度大于阈值,无人机将结束导航,不执行预测waypoint的动作

导航预测和waypoint控制

导航输出是
( w ^ , g ^ ) = F N D ( { z 1 : L l , z 1 : t v , z 1 : t x } ) (\hat{w},\hat{g})=F_{ND}(\{z_{1:L}^l, z_{1:t}^v, z_{1:t}^x \}) (w^,g^)=FND({z1:Ll,z1:tv,z1:tx})
其中, w ^ \hat{w} w^是一个3D坐标(x,y,h)x,y表示位置,h表示高度。
预测的waypoint也控制着无人机的方向,方向朝着移动的方向。因此, w ^ \hat{w} w^也控制着无人机的移动,下一个视图中心,宽度和旋转由 w ^ \hat{w} w^决定。

人类注意力预测(human attention predication)

Q 6:人类注意力是怎么得到的?怎么使用的?
使用 z 1 : t v z_{1:t}^v z1:tv作为输入,编码后预测一个和图像维度大小相同的mask,值越大表示越关注该区域。

Training

首先训练AVDN任务,再训练AVDN-Full任务
waypoint( w ^ \hat{w} w^)和导航进程( g ^ \hat{g} g^)预测使用下面公式训练

人类注意力预测使用下面公式训练:

其中,P是预测的human attention mask,Q是ground truth mask

五,实验结果

在AVDN和AVDN-Full上的预测结果
在这里插入图片描述
实验还证明了,注意力预测有助于最终的导航成功率

在这里插入图片描述

Q 6:任务的局限性是什么?
文中指出的任务局限性在于隐私泄露

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/25569.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于C#的串口扫描枪通信实战

今天搞大事&#xff0c;观众们动起来&#xff0c;搞事的目的是 掌握串口通信及winform开发技术 硬件设备&#xff1a;1、串口激光扫描枪&#xff0c;注意是串口&#xff0c;不是USB口 2、USB转串口的连接线一根&#xff0c;如图连接所示 3、USB扩展器一个&#xff0c;如果你电…

iphone苹果手机如何备份整个手机数据?

手机上的数据变得越来越重要&#xff0c;大家也越来越注重数据安全。如果手机设备丢失的话&#xff0c;不仅是设备的丢失&#xff0c;还是数据的丢失。因此&#xff0c;备份数据就显得很重要。那么&#xff0c;iphone如何备份整个手机&#xff0c;苹果怎么查备份的照片&#xf…

Python量化交易:策略创建运行流程

学习目标 目标 知道策略的创建和运行知道策略的相关设置知道RQ的策略运行流程应用 无 1、体验创建策略、运行策略流程 1.1 创建策略 1.2 策略界面 2、 策略界面功能、运行介绍 2.1 一个完整的策略需要做的事情 选择策略的运行信息&#xff1a; 选择运行区间和初始资金选择回…

笔记本安装CentOS

目标: 1.利用闲置笔记本 2.省电/提高利用率/不安装图形桌面/最小化安装/附加选项:开发工具 step1&#xff1a;镜像下载 CentOS-7.9 163镜像 阿里云镜像 清华大学镜像 随便选一个 step2: 下载U盘系统盘制作工具Rufus U盘写入镜像/安装 step3: 安装完毕进入系统 …

【Linux】文件的压缩和解压

欢迎来到博主 Apeiron 的博客&#xff0c;祝您旅程愉快 &#xff01; 时止则止&#xff0c;时行则行。动静不失其时&#xff0c;其道光明。 目录 1、压缩格式 2、压缩软件 3、tar 命令简介 4、tar 命令压缩 5、总结 1、压缩格式 在市面上有非常多的压缩格式&#xff0c;…

《面试1v1》类加载过程

我是 javapub&#xff0c;一名 Markdown 程序员从&#x1f468;‍&#x1f4bb;&#xff0c;八股文种子选手。 面试官&#xff1a; 你了解Java的类加载过程吗?跟我聊聊classes是如何加载到JVM中的。 候选人&#xff1a; Java的类加载过程由加载、验证、准备、解析和初始化5个…

JAVA变量在不同情况下未赋值与默认初始值

目录 一、默认初始值 二、本地变量 代码 运行结果 二、实例变量 代码 运行结果 三、本地变量和实例变量的区别 1.作用域 2.生命周期 3.初始化 一、默认初始值 数据类型初始值数据类型初始值byte0long0Lchar‘u0000’float0.0fshort0double0.0int0booleanfalse引用nul…

【react全家桶】react-Hook (下)

本人大二学生一枚&#xff0c;热爱前端&#xff0c;欢迎来交流学习哦&#xff0c;一起来学习吧。 <专栏推荐> &#x1f525;&#xff1a;js专栏 &#x1f525;&#xff1a;vue专栏 &#x1f525;&#xff1a;react专栏 文章目录 15【react-Hook &#xff08;下&#x…

普源1G带宽4通道10G采样率数字示波器MSO8104

超高性价比七合一 集成示波器在如今的集成设计领域&#xff0c;一款集成度较高的综合示波器已经成为设计工程师必不可少的得力工具。 MSO8000 系列数字示波器&#xff0c;它集 7 种独立仪器于一体&#xff0c;包括一台示波器、一台 16 通道逻辑分析仪、一台频谱分析仪、一台任…

ipad触控笔是哪几款?一般电容笔和Apple pencil区别

和苹果Pencil最大的区别就是&#xff0c;电容笔没具备重力压感&#xff0c;只有一种倾斜的压感。如果你不经常画画&#xff0c;那么你可以使用一款平替电容笔。这种平替电容笔&#xff0c;不仅仅是用在办公上&#xff0c;还能用来做笔记和练习。更何况&#xff0c;现在苹果一款…

【密码学复习】第十章 身份鉴别

身份鉴别的定义 定义&#xff1a;身份鉴别&#xff0c;又称为身份识别、身份认证。它是证实客户的真实身份与其所声称的身份是否相符的过程。 口令身份鉴别 固定口令&#xff08;四&#xff09; 注册环节&#xff1a;双因子认证 ① 接收用户提供的口令pw&#xff08;PIN&…

JVM-基础知识

JVM基础知识 JVM结构图 字节码文件 Java虚拟机不和包括Java在内的任何语言绑定,它只与字节码文件这种特定的二进制文件格式所关联. Class文件结构不仅仅是JVM的执行入口,更是Java生态圈的基础和核心. 字节码文件内容是什么 字节码是一种二进制的类文件,他的内容是JVM指令,而…

github在线编程

github在线编程 文章目录 github在线编程两种区别演示项目 Ruoyi-VueGitHub Codespaces 演示github 访问项目使用 GitHubCodeSpace 打开该项目查看运行环境安装运行环境初始化myql数据安装 redis运行前端运行后端前后端运行成功测试安装相关插件 GitPod 演示 说明: 目前总结 gi…

把玩数据在内存中的存储

前言&#xff1a;时光如梭&#x1f4a6;&#xff0c;今天到了C语言进阶啦&#x1f60e;&#xff0c;基础知识我们已经有了初步认识&#xff0c; 是时候该拔高拔高自己了&#x1f63c;。 目标&#xff1a;掌握浮点数在内存的存储&#xff0c;整形在内存的存储。 鸡汤&#xff1a…

好玩!AI文字RPG游戏;播客进入全AI时代?LangChain项目实践手册;OpenAI联创科普GPT | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f916; Microsoft Build 中国黑客松挑战赛&#xff0c;进入AI新纪元 近期&#xff0c;伴随着人工智能的新一轮浪潮&#xff0c;Hackathon (黑…

【网络协议详解】——OSPF协议(学习笔记)

目录 &#x1f552; 1. 概述&#x1f552; 2. 相关概念&#x1f558; 2.1 基本思想&#x1f558; 2.2 区域及路由&#x1f558; 2.3 链路状态数据库&#x1f564; 2.3.1 点到点网络&#x1f564; 2.3.2 点到多点网络&#x1f564; 2.3.3 广播网络与非广播多址接入网络&#x1f…

反射枚举

1、定义 java的反射机制是在运行状态中&#xff0c;对于任意一个类&#xff0c;都能直到这个类的所有属性和方法&#xff1b;对于任意一个对象&#xff0c;都能够调用他的任意方法和属性&#xff0c;既然能够拿到那么&#xff0c;我们就可以修改部分类型信息&#xff1b;这种动…

软考A计划-电子商务设计师-计算机系统基础知识

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff0c;以及各种资源分享&am…

Delphi11的多线程ⓞ,附送图片处理代码

Delphi11的多线程ⓞ OLD Coder , 习惯使用Pascal 接下来准备启用多线程&#xff0c;毕竟硬件多核&#xff0c;Timer不太爽了&#xff08;曾经的桌面&#xff0c;都是Timer——理解为“片”&#xff09; 突然想写写&#xff0c;不知道还有多少D兄弟们在。 从源码开始 用D11之…

mybatisplus递归传递多个参数 | mybatisplus传递多个参数获取层级数据 | mybatisplus传递多个参数获取树形数据

搜索关键字&#xff1a; mybatisplus关联查询传递参数|"select""树形结构"|"select""树形结构""传参"| "select""many""传参"| "select""column""传参" 1、…