基于强化学习的目标跟踪论文合集

文章目录

  • 2020
    • UAV Maneuvering Target Tracking in Uncertain Environments Based on Deep Reinforcement Learning and Meta-Learning
    • UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning
  • 2021
    • Research on Vehicle Dispatch Problem Based on Kuhn-Munkres and Reinforcement Learning Algorithm
    • Multi-Agent Reinforcement Learning Aided Intelligent UAV Swarm for Target Tracking
    • Active Learning for Deep Visual Tracking
  • 2022
    • Remote Sensing Object Tracking With Deep Reinforcement Learning Under Occlusion
  • 2023
    • Deep Reinforcement Learning for Vision-Based Navigation of UAVs in Avoiding Stationary and Mobile Obstacles
    • SRL-TR2: A Safe Reinforcement Learning Based TRajectory TRacker Framework
    • Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking

2020

UAV Maneuvering Target Tracking in Uncertain Environments Based on Deep Reinforcement Learning and Meta-Learning

摘要: 本文结合深度强化学习(DRL)与元学习,提出了一种新颖的方法,名为元双延迟深度确定性政策梯度(Meta-TD3),实现无人机(UAV)的控制,允许无人机快速跟踪目标环境的目标是不确定的。这种方法可应用于各种情况,如野生动物保护、紧急援助和遥感。我们考虑一个多任务经验重放缓冲区为DRL算法的多任务学习提供数据,并结合元学习开发了一种多任务强化学习更新方法,以确保强化学习的泛化能力。与现有的深度确定性策略梯度(DDPG)和双延迟深度确定性策略梯度(TD3)算法相比,实验结果表明,Meta-TD3算法在收敛值和收敛速度方面都取得了很大的提高。在无人机目标跟踪问题中,Meta-TD3只需要几个步骤来训练,使无人机能够快速适应新的目标运动模式,并保持更好的跟踪效果。
在这里插入图片描述

UAV Target Tracking in Urban Environments Using Deep Reinforcement Learning

code: https://github.com/sarthak268/Target-Tracking-Simulator
摘要: 由于视野有限、障碍物能见度障碍、目标运动不确定,无人机在城市环境中进行持续目标跟踪是一项困难的任务。车辆需要在三维空间中进行智能规划,以使目标可见性最大化。在本文中,我们介绍了一种基于深度q网络(TF-DQN)的深度强化学习技术,具有课程训练框架,用于无人机在存在障碍物和目标运动不确定性的情况下持续跟踪目标。通过多次仿真实验,对该算法进行了定性和定量的评价。结果表明,无人机在不同的环境中持续跟踪目标,同时在训练好的环境和看不见的环境中避开障碍物。

在这里插入图片描述

2021

Research on Vehicle Dispatch Problem Based on Kuhn-Munkres and Reinforcement Learning Algorithm

摘要: 随着人工智能和5G通信技术的发展,自动驾驶汽车的可实现性越来越大。城市交通汽车提供出租车服务,有效降低了劳动力成本,实现了智能交通系统。结合5G技术的车辆系统可以快速获取交通信息,为车辆调度提供了决策依据。因此,有必要开发一种有效的方法来分配和分配这些车辆,以最大化系统的潜在收入。本文基于2016年纽约市绿色出租车数据的出行数据进行了车辆调度研究,并提出了两种调度方法。首先,我们将调度问题作为一个最大权值匹配问题。然后,利用库恩和Munkres(KM)算法,提出了一种以减少乘客等候时间为目标的基于距离调度方法。最后,我们用马尔可夫决策过程(MDP)制定了车辆调度决策,并引入了一种基于强化学习(RL)的调度方法,该方法结合了RL算法和KM算法来解决调度问题,使潜水员的长期收入最大化。实验将KM算法与全置换算法进行了比较,证明了KM算法的有效性。介绍了基于远程的调度方法和基于rl的调度方法在小型调度和大规模调度中的性能。首先,我们将调度问题作为一个最大权值匹配问题。然后,利用库恩和Munkres(KM)算法,提出了一种以减少乘客等候时间为目标的基于距离调度方法。最后,我们用马尔可夫决策过程(MDP)制定了车辆调度决策,并引入了一种基于强化学习(RL)的调度方法,该方法结合了RL算法和KM算法来解决调度问题,使潜水员的长期收入最大化。实验将KM算法与全置换算法进行了比较,证明了KM算法的有效性。介绍了基于远程的调度方法和基于rl的调度方法在小型调度和大规模调度中的性能。

在这里插入图片描述

Multi-Agent Reinforcement Learning Aided Intelligent UAV Swarm for Target Tracking

摘要: 过去几年,无人机(uav)被广泛应用于目标跟踪的区域监测和打击。大多数现有的目标跟踪方法依赖于由所装备的相机获得的目标运动帧,或理想地假设一个预先设定的目标轨迹。但在实际应用中,无人机不能事先完全知道目标的真实轨迹,目标也可以根据环境智能地调整其飞行策略。此外,单架无人机有限的飞行性能以及信息捕获和处理能力,难以满足高跟踪成功率的要求。针对上述问题,本文提出了一种端到端协同多智能体强化学习(MARL)方案,该方案使无人机能够根据目标过去和当前的状态,做出协同目标跟踪的智能飞行决策。为了降低功耗,延长无人机跟踪系统的使用寿命,介绍了推进功耗模型和节能策略。此外,为了进一步提高检测的覆盖范围,在跟踪算法中引入了空间信息熵。仿真结果表明,我们提出的算法在平均事件奖励方面优于深度强化学习基线,同时在跟踪成功率、省电效率和检测覆盖率方面也具有较高的性能。

在这里插入图片描述

Active Learning for Deep Visual Tracking

摘要: 卷积神经网络(CNNs)近年来已成功地应用于单目标跟踪任务。一般来说,训练一个深度CNN模型需要大量标记的训练样本,这些样本的数量和质量直接影响训练模型的表征能力。然而,这种方法在实践中是限制性的,因为手动标记如此大量的训练样本是耗时的和非常昂贵的。在本文中,我们提出了一种深度视觉跟踪的主动学习方法,它选择和标注未标记的样本来训练深度cnn模型。在主动学习的指导下,基于训练好的深度cnn模型的跟踪器可以在降低标记成本的同时实现具有竞争力的跟踪性能。更具体地说,为了确保所选样本的多样性,我们提出了一种基于多帧协作的主动学习方法来选择那些应该标注和需要标注的训练样本。同时,考虑到所选样本的代表性,我们采用基于平均最近邻距离的最近邻鉴别方法来筛选孤立的样本和低质量的样本。因此,基于我们的方法选择的训练样本子集只需要一个给定的预算来保持整个样本集的多样性和代表性。此外,我们采用了一个Tversky损失来改进我们的跟踪器的边界盒估计,这可以确保跟踪器实现更准确的目标状态。大量的实验结果证实,我们的基于主动学习的跟踪器(ALT)在7个最具挑战性的评估基准上,与最先进的跟踪器相比,实现了具有竞争力的跟踪精度和速度。

论文的贡献

  • 我们提出了一种新的主动学习方法来训练样本选择,以训练跟踪器中的深度cnn模型。该方法将在给定的预算下选择最多样化和最具代表性的训练样本,在大大降低标记这些训练样本的同时,确保可接受的跟踪性能的成本。
  • 考虑到视频序列中移动目标的时间关系,我们提出了使用多帧合作策略的主动学习方法来选择这些训练样本,以确保所选样本的多样性。
  • 此外,我们采用基于平均最近邻距离的最近邻识别方法对孤立样本进行筛选,保证所选训练样本的代表性,有效保证训练后的深度cnn模型的鲁棒性。
  • 此外,我们采用Tversky损失来改进所提出的跟踪器的边界盒估计策略,使我们的ALT跟踪器能够获得更准确的目标状态。

在这里插入图片描述

2022

Remote Sensing Object Tracking With Deep Reinforcement Learning Under Occlusion

摘要: 目标跟踪是遥感领域空间地球观测的重要研究方向。虽然现有的基于相关滤波器和基于深度学习(DL)的目标跟踪算法取得了很大的成功,但对于目标遮挡问题仍然不能令人满意。由于背景的复杂变化而造成的遮挡和跟踪镜头的偏差,导致物体信息丢失,从而导致检测的遗漏。传统上,被遮挡下的目标跟踪方法大多采用复杂的网络模型,对被遮挡对象进行重新检测。为了解决这个问题,我们提出了一种新的目标跟踪方法。首先,建立了一个基于深度强化学习(DRL)的动作决策-遮挡处理网络(AD-OHNet),以实现遮挡下目标跟踪的低计算复杂度。其次,采用时空背景、物体外观模型和运动矢量来提供遮挡信息,从而驱动完全遮挡下强化学习的动作,有助于在保持速度的同时提高跟踪的准确性。最后,在吉林-1商业遥感卫星的波哥大、香港和圣地亚哥的三个遥感视频数据集上,对提出的AD-OHNet进行了评估。这些视频数据集都有低空间分辨率、背景杂波和小物体等共同问题。在三个视频数据集上的实验结果验证了该跟踪器的有效性和有效性。

论文的贡献:

  • 首先,采用DRL的框架,在不附加网络结构的情况下进行目标跟踪,以提高算法在遮挡条件下的速度。DRL中的状态和动作参数可以与目标跟踪中的连续帧信息相关联。据我们所知,这是第一次使用DRL的想法来解决目标跟踪中的遮挡问题。
  • 其次,我们提出了一种新的方法,通过在跟踪任务中使用目标遮挡信息来驱动动作,这与传统的逐次跟踪检测方法不同。时间和空间上下文之间的连续帧遥感序列,对象外观模型学习网络,和运动向量从动作参数在强化学习采用提供遮挡信息,显著提高了对象跟踪算法的鲁棒性和精度。
  • 其次,我们提出了一种新的方法,通过在跟踪任务中使用目标遮挡信息来驱动动作,这与传统的逐次跟踪检测方法不同。时间和空间上下文之间的连续帧遥感序列,对象外观模型学习网络,和运动向量从动作参数在强化学习采用提供遮挡信息,显著提高了对象跟踪算法的鲁棒性和精度。
    在这里插入图片描述

2023

Deep Reinforcement Learning for Vision-Based Navigation of UAVs in Avoiding Stationary and Mobile Obstacles

摘要: 无人机(uav),也被称为无人机,近年来有了很大的进步。无人机的使用方式有很多种,包括交通运输、摄影、气候监测和救灾。其原因是它们在所有操作中都具有很高的效率和安全性。虽然无人机的设计力求完美,但它还没有完美无缺。在探测和预防碰撞方面,无人机仍然面临着许多挑战。在此背景下,本文描述了一种方法,开发无人机系统自主操作,不需要人工干预。本研究应用强化学习算法训练无人机,在仅基于图像数据的离散和连续的动作空间中自动避免障碍。本研究的新颖之处在于,利用不同的强化学习技术,对无人机的障碍物探测和躲避的优势、局限性和未来的研究方向进行了综合评估。本研究比较了三种不同的强化学习策略,即深度q网络(DQN)、近端策略优化(PPO)和软行动者评论家(SAC),它们可以帮助避免障碍,包括静止和移动;然而,这些策略在无人机上更为成功。该实验是在AirSim提供的虚拟环境中进行的。使用虚幻引擎4,创建了各种训练和测试场景,以理解和分析无人机的RL算法的行为。根据训练结果可知,SAC的性能优于其他两种算法。PPO是所有算法中最不成功的,这表明策略上的算法在具有动态参与者的广泛三维环境中是无效的。DQN和SAC,两种非策略算法,产生了令人鼓舞的结果。然而,由于其有限的离散作用空间,DQN在狭窄的路径和扭曲方面可能不如SAC有利。关于进一步的发现,当涉及到自主无人机时,DQN和SAC等非策略算法比PPO等非策略算法表现得更有效。这些发现可能对未来开发更安全、更高效的无人机具有实际意义。

在这里插入图片描述

SRL-TR2: A Safe Reinforcement Learning Based TRajectory TRacker Framework

摘要: 本文旨在解决一种基于强化学习方法的自动驾驶车辆的轨迹跟踪控制问题。现有的强化学习方法在现实世界中在安全关键任务上的成功应用有限,主要是由于两个挑战: 1)模拟到真实的转移;2)闭环稳定性和安全问题。在本文中,我们提出了一个演员-评论家风格的框架SRL-TR2,其中基于rl的跟踪跟踪器在安全约束下进行训练,然后部署到全尺寸车辆作为横向控制器。为了提高泛化能力,我们采用了一个轻量级的适配器状态和动作空间对齐(SASA)来建立仿真与现实之间的映射关系。为了解决安全问题,当安全约束不得到满足时,我们利用专家策略来接管控制。因此,我们在培训过程中进行了安全的探索,并提高了政策的稳定性。实验表明,在12 km/h~18 km/h的模拟场景下,在12 km/h~18 km/h的情况下,以平均运行时间小于10ms/步,平均横向误差小于0.1 m完成现场测试。
在这里插入图片描述

Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking

摘要:本文提出了一种新的视觉目标跟踪粒子滤波方法,可以有效地处理遮挡和快速运动。该方法采用混沌局部搜索来模拟不规则运动,与普通的粒子滤波方法相比,该方法需要更少的粒子数量。此外,采用一种新的混沌采样方法将粒子强制施加到具有最大多样性似然函数的特定区域,并引入基于状态空间重建的动态信息直方图来表示连续帧上的运动。最后,提出了一种新的区分遮挡和视野外外观更新的准则。我们提出了数值实验证明,所开发的框架优于其他最先进的方法处理不规则运动和不确定性。根据BOBOT、OTB100、OTB2013和VOT2018的研究结果,与基于深度和强化学习、相关滤波器和暹罗神经网络等方法的传统方法相比,提出的策略更接近真实目标状态,提高了跟踪精度。最后,我们解析地证明了该方法的收敛性。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/731750.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

BGP路由反射器实验

实验内容: 通过本实验验证bgp路由反射器的规则 1. 从client收到的路由更新,反射到non-client和client,同时发送给EBGP邻居 2. 从non-client收到的路由更新,只反射到client,同时发送给EBGP邻居 3. 从EBGP邻居收到的路…

PXE自动平台 搭建 银河麒麟 UEFI x86_64 ARM64

1. PXE自动化 原理 要实现PXE自动安装需要以下组件: DHCP服务:服务器通过网络启动时自动分配IP地址。TFTP服务:提供服务器启动下载启动引导EFI。HTTP服务:操作系统镜像下载。 各组件工作原理如下[1]: 开PXE后&…

最新版ChatGPT对话系统源码 Chat Nio系统源码

最新版ChatGPT对话系统源码 Chat Nio系统源码 支持 Vision 模型, 同时支持 直接上传图片 和 输入图片直链或 Base64 图片 功能 (如 GPT-4 Vision Preview, Gemini Pro Vision 等模型) 支持 DALL-E 模型绘图 支持 Midjourney / Niji 模型的 Imagine / Upscale / Variant / Re…

Redis-数据类型-Geospatial(地理空间索引)

文章目录 1、查看redis是否启动2、通过客户端连接redis3、切换到db5数据库4、将地理位置信息(经度和纬度)添加到 Redis 的键(key)中4.1、添加大江商厦4.2、添加西部硅谷 5、升序返回有序集key,让分数一起和值返回的结果…

Doris连接超时问题排查记录

文章目录 一、现象描述二、问题排查1、分析驱动包2、分析Mysql客户端(问题解决) 一、现象描述 先上官网部署地址,按照官网上一步步进行部署 https://doris.apache.org/zh-CN/docs/get-starting/quick-start 基本到最后都挺顺利的&#xff0c…

2022年大作业参考报告-使用C++语言开发小学生成绩管理系统、中学生成绩管理系统、大学生成绩管理系统【240621更新】

背景: 目录 第一章 需求分析 2 1.1 问题描述 2 6.1 功能需求 2 6.2 开发环境 2 6.3 开发过程 2 第二章 概要设计 3 2.1 总体设计 3 2.2 类的定义 3 2.3 接口设计 5 2.4 运行界面设计 6 第三章 详细设计 …

【滚动哈希 二分查找】1044. 最长重复子串

本文涉及知识点 滚动哈希 二分查找算法合集 LeetCode 1044. 最长重复子串 给你一个字符串 s ,考虑其所有 重复子串 :即 s 的(连续)子串,在 s 中出现 2 次或更多次。这些出现之间可能存在重叠。 返回 任意一个 可能具…

vs2022 studio控制台出现中文乱码解决

vs2022 studio控制台出现中文乱码解决 问题解决 问题 这里cout中间的中文,但控制台出现的是乱码对此需要进行修改 解决 打开运行的主文件,也就是整个程序的入口,对他另存为 之后点击编码保存 接着将编码保存的格式变为图片对应的这种 记…

ArcGIS定义1.5度带坐标系与投影转换

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 对于ArcGIS如何定义高斯克吕格3度带、6度带,我相信大部分人都是比较清楚的&#xff0…

ArcGIS批量投影转换的妙用(地理坐标系转换为平面坐标系)

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 这次文章我们来介绍一下,如何巧妙用要素数据集来实现要素的批量投影。不需要ArcGIS的模型构建器与解决。 例如,有多个要素要将CGCS_2000地理坐标系投…

gitlab升级16.11.3-ee

背景 这是事后一段时间补充记录的博客。 升级目的:修补漏洞CVE-2024-4835 未经认证的威胁攻击者能够利用该漏洞在跨站脚本 (XSS) 攻击中,轻松接管受害者账户。 gitlab版本为14.6.2-ee升级至16.11.3-ee 思路 翻阅文档找升级方法及升级版本路径。使用…

Python酷库之旅-第三方库openpyxl(02)

目录 一、 openpyxl库的由来 1、背景 2、起源 3、发展 4、特点 4-1、支持.xlsx格式 4-2、读写Excel文件 4-3、操作单元格 4-4、创建和修改工作表 4-5、样式设置 4-6、图表和公式 4-7、支持数字和日期格式 二、openpyxl库的优缺点 1、优点 1-1、支持现代Excel格式…

Leetcode 第 401 场周赛题解

Leetcode 第 401 场周赛题解 Leetcode 第 401 场周赛题解题目1:3178. 找出 K 秒后拿着球的孩子思路代码复杂度分析 题目2:3179. K 秒后第 N 个元素的值思路代码复杂度分析 题目3:3180. 执行操作可获得的最大总奖励 I思路代码复杂度分析 题目4…

leetcode 二分查找·系统掌握 寻找旋转排序数组中的最小值II

题目: 题解: 本题比普通的寻找旋转排序数组中的最小值多了一个数组中的元素可以重复这一点。 这会时原来的思路出现一个漏洞(大家感兴趣可以看看我做普通版寻找旋转排序数组最小值的思路),就是旋转后的数组中的第二个…

AI在线免费视频工具2:视频配声音;图片说话hedra

1、视频配声音 https://deepmind.google/discover/blog/generating-audio-for-video/ https://www.videotosoundeffects.com/ (免费在线使用) 2、图片说话在线图片生成播报hedra hedra 上传音频与图片即可合成 https://www.hedra.com/ https://www.…

论文浅读之Mamba: Linear-Time Sequence Modeling with Selective State Spaces

介绍 这篇论文提出了一种新型的"选择性状态空间模型"(Selective State Space Model, S6)来解决之前结构化状态空间模型(SSM)在离散且信息密集的数据(如文本)上效果较差的问题。 Mamba 在语言处理、基因组学和音频分析等领域的应用中表现出色。…

读AI新生:破解人机共存密码笔记08超级智能

1. 发现动作 1.1. 时间跨度长的智能行为,需要具备在多个抽象层次上分层规划和管理活动的能力,从攻读博士学位(可能涉及1万亿个动作),到给一根手指发送一个运动控制指令,从而键入求职信的字符,无…

JavaWeb——Mysql的启动/登录/卸载

目录 1.Mysql服务器 2.Mysql的简单使用 2.1 启动Mysql: 2.2 登录Mysql 2.3 退出 3. 连接别人的数据库 4.卸载mqsql 1.Mysql服务器 安装了Mysql的计算机都成为Mysql服务器 2.Mysql的简单使用 2.1 启动Mysql: 第一种方法:搜索服务&am…

用户态协议栈05—架构优化

优化部分 添加了in和out两个环形缓冲区&#xff0c;收到数据包后添加到in队列&#xff1b;经过消费者线程处理之后&#xff0c;将需要发送的数据包添加到out队列。添加数据包解析线程&#xff08;消费者线程&#xff09;&#xff0c;架构分层 #include <rte_eal.h> #inc…

【Redis】List的常用命令以及常用场景

Redis List 是一个简单的链表&#xff0c;支持在两端进行插入和删除操作。这种数据结构在许多场景下非常有用&#xff0c;例如任务队列、消息队列等。Redis 提供了一系列针对 List 的操作命令&#xff0c;帮助我们更高效地操作链表。 1. List常用命令 操作类型命令时间复杂度…