arXiv-2024 | NavAgent:基于多尺度城市街道视图融合的无人机视觉语言导航

  • 作者:Youzhi Liu, Fanglong Yao*, Yuanchang Yue, Guangluan Xu, Xian Sun, Kun Fu

  • 单位:中国科学院大学电子电气与通信工程学院,中国科学院空天信息创新研究院网络信息系统技术重点实验室

  • 原文链接:NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation (https://arxiv.org/pdf/2411.08579)

主要贡献

论文首个提出由大型视觉语言模型驱动的城市无人机导航模型(NavAgent),能够在城市环境中通过多尺度环境信息融合实现自主导航:

  • 设计并训练了细粒度地标识别器:利用GLIP模型开发了地标视觉识别器,通过NavAgent-Landmark2K数据集进行训练,显著提高了细粒度地标的识别准确率(提升了9.5%)。

  • 构建了动态生长的场景拓扑图:设计了拓扑图编码器,能够整合环境信息和当前视觉信息,增强了无人机在长距离导航中的规划能力。

  • 创建了首个真实城市街景的细粒度地标数据集:NavAgent-Landmark2K数据集包含2000个图像-文本对,涵盖了城市街道场景中的细粒度地标。

  • 在多个基准数据集上的优异表现:在Touchdown和Map2seq数据集上,NavAgent在任务完成率、最短路径距离和关键点准确率等指标上均优于现有的强基线模型。

研究背景

研究问题

论文主要解决无人机视觉语言导航(VLN)在城市环境中的应用。具体来说,现有的VLN方法主要集中在室内地面机器人场景,而在户外城市场景中应用时面临两个主要挑战:一是城市环境中物体众多,难以将图像中的细粒度地标与复杂的文本描述匹配;二是整体环境信息包含多种模态维度,表示的多样性显著增加了编码过程的复杂性。

研究难点

  • 细粒度地标的匹配:在全景观察图像中识别和匹配细粒度地标(如路边的邮箱、垃圾桶等),这些地标在图像中仅占少数像素,且相关的文本描述通常包含多个修饰词。

  • 多模态信息的编码:环境信息包括视觉数据(如观测图像)、语义信息(如地标类别和位置)和地理数据(如环境地图),这些数据类型具有不同的表示方式,并且在空间和时间上高度异构,增加了编码的复杂性。

研究方法

论文提出了NavAgent,用于解决无人机在城市环境中的视觉语言导航问题。

视觉识别器

利用GLIP构建一个地标视觉识别器,能够识别和语言化细粒度地标。通过对Google Street View中的街景图像进行标注,使用BLIP2生成地标的描述,创建了一个名为NavAgent-Landmark2K的细粒度地标数据集。

动态增长的场景拓扑图

开发一个动态增长的场景拓扑图,整合环境信息,并采用图卷积网络(GCN)编码全局环境数据。记录可导航位置作为节点,初始捕捉每个节点的位置和节点之间的方向关系,然后探索当前节点及其相邻节点,将其合并为一个连贯的场景拓扑图。

拓扑图编码器

设计拓扑图编码器以提取节点特征。通过GCN聚合信息,更新每个节点的特征,并使用全局池化提取全局节点特征。

基于大语言模型的动作决策

利用LLM综合多尺度信息。LLM接收导航指令文本、环境观测图像、地标信息和拓扑图特征,生成动作决策。

实验设计

数据集

实验使用了Touchdown和Map2seq两个数据集。Touchdown数据集包含18,402个导航实例,Map2seq数据集包含15,009个导航实例。数据集分为训练集、验证集和测试集。

视觉识别器训练

使用NavAgent-Landmark2K数据集对GLIP进行微调,评估其在细粒度地标识别任务中的性能。

模型训练

在Touchdown和Map2seq数据集上训练NavAgent模型,使用GPT-4作为地标文本提取器,微调后的GLIP作为地标视觉识别器,LLaMa2-13b模型作为决策LLM。

结果与分析

细粒度地标识别

微调后的GLIP在NavAgent-Landmark2K验证集上的细粒度地标识别准确率提高了9.5%。不同地标类别的识别准确率也有显著提高,例如公交车站的识别准确率提高了23.1%。

总体性能

在Touchdown数据集上,NavAgent在开发和测试集上的任务完成率分别比VELMA提高了4.6%和2.2%。在Map2seq数据集上,NavAgent在开发和测试集上的任务完成率分别比VELMA提高了2.4%和0.8%。

消融实验

移除视觉识别器或拓扑图编码器后,模型性能显著下降,验证了这两个模块的有效性。

总结

论文提出了NavAgent,首个由大型视觉语言模型驱动的城市无人机导航模型。通过结合多尺度环境信息,NavAgent在细粒度地标识别和全局环境信息编码方面表现出色。

实验结果表明,NavAgent在Touchdown和Map2seq数据集上均优于现有的最先进方法,验证了其在城市无人机VLN任务中的有效性。

未来工作将致力于提高NavAgent在实际场景中的导航能力,增强其在复杂道路条件和行人障碍物下的稳定性,并扩展其功能以支持实时的人类更新和调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/938349.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

易语言鼠标轨迹算法(游戏防检测算法)

一.简介 鼠标轨迹算法是一种模拟人类鼠标操作的程序,它能够模拟出自然而真实的鼠标移动路径。 鼠标轨迹算法的底层实现采用C/C语言,原因在于C/C提供了高性能的执行能力和直接访问操作系统底层资源的能力。 鼠标轨迹算法具有以下优势: 模拟…

Three.js材质纹理扩散过渡

Three.js材质纹理扩散过渡 import * as THREE from "three"; import { ThreeHelper } from "/src/ThreeHelper"; import { LoadGLTF, MethodBaseSceneSet } from "/src/ThreeHelper/decorators"; import { MainScreen } from "/src/compone…

apache-tomcat-6.0.44.exe Win10

apache-tomcat-6.0.44.exe Win10

赫布定律 | 机器学习 / 反向传播 / 经验 / 习惯

注:本文为 “赫布定律” 相关文章合辑。 未整理。 赫布定律 Hebb‘s law 馥墨轩 2021 年 03 月 13 日 00:03 1 赫布集合的基本定义 唐纳德・赫布(Donald Hebb)在 1949 年出版了《行为的组织》(The Organization of Behavior&a…

uni-app实现小程序、H5图片轮播预览、双指缩放、双击放大、单击还原、滑动切换功能

前言 这次的标题有点长,主要是想要表述的功能点有点多; 简单做一下需求描述 产品要求在商品详情页的头部轮播图部分,可以单击预览大图,同时在预览界面可以双指放大缩小图片并且可以移动查看图片,双击放大&#xff0…

杭州乘云联合信通院发布《云计算智能化可观测性能力成熟度模型》

原文地址:杭州乘云联合中国信通院等单位正式发布《云计算智能化可观测性能力成熟度模型》标准 2024年12月3日,由全球数字经济大会组委会主办、中国信通院承办的 2024全球数字经济大会 云AI计算创新发展大会(2024 Cloud AI Compute Ignite&…

第6章图6.21-6.27-《分析模式》原图和UML图对比

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集

如何在谷歌浏览器中设置广告屏蔽

在数字时代,网络广告无处不在,虽然它们为网站提供了收入来源,但有时也会干扰我们的浏览体验。如果你正在寻找一种方法来减少这些干扰,那么在谷歌浏览器中设置广告屏蔽是一个不错的选择。本文将指导你完成这一过程,并简…

认识网络互联设备(二)

交换机 功能: (1)通过支持并行通信,提高交换机的信息吞吐量; (2)将传统的一个大局域网上的用户分若干工作组,每个端口连接一台设备或者连接一个工作组,有效的解决了拥塞情…

数据可视化-2. 条形图

目录 1. 条形图适用场景分析 1.1 比较不同类别的数据 1.2 展示数据分布 1.3 强调特定数据点 1.4 展示时间序列数据的对比 1.5 数据可视化教育 1.6 特定领域的应用 2. 条形图局限性 3. 条形图图代码实现 3.1 Python 源代码 3.2 条形图效果(网页显示&#…

AMBA-CHI协议详解(十二)

AMBA-CHI协议详解(一)- Introduction AMBA-CHI协议详解(二)- Channel fields / Read transactions AMBA-CHI协议详解(三)- Write transactions AMBA-CHI协议详解(四)- Other transac…

【MATLAB第109期】基于MATLAB的带置信区间的RSA区域敏感性分析方法,无目标函数

【MATLAB第108期】基于MATLAB的带置信区间的RSA区域敏感性分析方法,无目标函数 参考第64期文章【MATLAB第64期】【保姆级教程】基于MATLAB的SOBOL全局敏感性分析模型运用(含无目标函数,考虑代理模型) 创新点: 1、采…

《外国服务区加油站模型:功能与美观的完美结合 caotu66.com》

这个外国服务区加油站模型在设计上独具特色,兼具实用性和美观性。 从整体布局来看,加油站位于服务区的显眼位置。加油站的顶棚采用了现代风格的设计,顶棚的颜色主要是黄色和蓝色,色彩鲜明且具有辨识度。顶棚下方有多个加油柱&…

mybatis-plus超详细讲解

mybatis-plus (简化代码神器) 地址:https://mp.baomidou.com/ 目录 mybatis-plus 简介 特性 支持数据库 参与贡献 快速指南 1、创建数据库 mybatis_plus 2、导入相关的依赖 3、创建对应的文件夹 4、编写配置文件 5、编写代码 …

数据结构(顺序表)JAVA方法的介绍

前言 在 Java 中,集合类(Collections)是构建高效程序的核心组件之一,而 List 接口作为集合框架中的重要一员,是一个有序、可重复的元素集合。与 Set 接口不同,List 保证了元素的顺序性,并允许存…

泊松编辑 possion editing图像合成笔记

开源地址: GitHub - kono-dada/Reproduction-of-possion-image-editing 掩码必须是矩形框

【Flink-scala】DataStream编程模型之状态编程

DataStream编程模型之状态编程 参考: 1.【Flink-Scala】DataStream编程模型之数据源、数据转换、数据输出 2.【Flink-scala】DataStream编程模型之 窗口的划分-时间概念-窗口计算程序 3.【Flink-scala】DataStream编程模型之窗口计算-触发器-驱逐器 4.【Flink-scal…

Linux实操篇-远程登录/Vim/开机重启

目录 传送门前言一、远程登录1、概念2、ifconfig3、实战3.1、SSH(Secure Shell)3.2、VNC(Virtual Network Computing)3.3、RDP(Remote Desktop Protocol)3.4、Telnet(不推荐)3.5、FT…

【计算机网络】期末考试预习复习|上

作业讲解 物理层作业 共有4个用户进行CDMA通信。这4个用户的码片序列为: A: (–1 –1 –1 1 1 –1 1 1);B: (–1 –1 1 –1 1 1 1 –1) C: (–1 1 –1 1 1 1 –1 –1);D: (–1 1 –1 –1 –1 –1 1 –1) 现收到码片序列:(–1 1 –…

CTFHub-ssrf

技能树--Web--SSRF 内网访问 开启题目 尝试访问位于127.0.0.1的flag.php吧 进入环境 根据提示输入即可 127.0.0.1/flag.php 伪协议读取文件 开启题目 尝试去读取一下Web目录下的flag.php吧 进入环境,根据提示输入 file:///var/www/html/flag.php 鼠标右键查看…