深度强化学习的变道策略:Harmonious Lane Changing via Deep Reinforcement Learning

偏理论,假设情况不易发生

摘要

多智能体强化学习的换道策略,不同的智能体在每一轮学习后交换策略,达到零和博弈。

和谐驾驶仅依赖于单个车辆有限的感知结果来平衡整体和个体效率,奖励机制结合个人效率和整体效率的和谐。

Ⅰ. 简介

自动驾驶不能过分要求速度性能,

考虑单个车辆的厌恶和所在路段的整体交通效率的奖励函数,适当的混合以提高整体的交通效率。

章节安排:

  1. 简介

  2. 和谐变道的深度强化学习模型

  3. 模拟器设计

  4. 实验设置和所提出的策略在训练和测试中的仿真结果

  5. 模型的一些有趣问题

  6. 总结

Ⅱ. 协调换道的深度强化学习模型

image-20240116222711519

A. 问题呈现和DRL模型
1)状态空间:

每个车辆的状态由:三个连续帧的交通快照和实际速度与预期速度之间的相应速度差组成。

拍摄交通快照来研究车辆周围的情况。

M t ( i ) M_t^{(i)} Mt(i)用二维矩阵表示车辆周围的占有网格(存在车辆的网格为1,空网格为0)

S被输入到DQN。

2)动作空间:

a t ( i ) a_t^{(i)} at(i)为车辆i的动作,包括改变到左/右道路和保持当前车道。

减速不在当前中,设置了单独的碰撞检查过程修改速度。

3)奖励函数:

r t ( i ) r_t^{(i)} rt(i)车辆行驶效率,与其他车辆的协调性和总体交通流率之间的权衡。

r v ( i ) r_v^{(i)} rv(i)是车辆个体形式效率的奖励, r c l ( i ) r_{cl}^{(i)} rcl(i)是变道的惩罚, r q r_q rq是交通流率的奖励。

α {\alpha} α是换道行为的协调系数。

频繁变道会使得交通流率下降,对于每个换道行为我们从奖励中减去 α {\alpha} α来作为惩罚。

α {\alpha} α使得车辆学习一个温和的变道策略,限制不必要的变道。

q t {q_t} qt是所研究车辆周围的流量

R s c a l e R_{scale} Rscale是一个缩放系数保持 r q r_q rq的幅度和 r v ( i ) r_v^{(i)} rv(i) r c l ( i ) r_{cl}^{(i)} rcl(i)的一致性。

B. 深度强化学习算法

DQN学习有效的变道决策机制,输入 s t ( i ) s_t^{(i)} st(i)到DQN,输出 a t ( i ) a_t^{(i)} at(i)

代理的经验存储在数据集 D t {D_t} Dt

在学习模型时,从Dt中均匀抽取样本以计算以下损失函数(TD误差),随机梯度下降更新参数

基于DQN Q值的贪婪策略选择并执行策略。

每个仿真车辆共享一个共同的RL模型作为上层决策者,并为自己维护一个低层运动控制器。

变道决策DQN

快照进入两层CNN,然后通过级联层与速度差级联。

将数据送入两层全连接Q网络,得到a作为高级驾驶策略

送到低级控制器,用于每个车辆的低级运动命令

更深层的深度强化学习没有获得更好的效果

Ⅲ. 仿真平台

平台流水线概括为以下:

  1. 根据上游流入率在道路起点生成新车辆。
  2. 从所提出的换道模型中获取环境数据并得到驾驶决策。
  3. 计算每辆车的适当速度,并执行驾驶决策。
    1. 在每次迭代中,纵向速度和横向速度,t将分别由车辆跟随模型和车道变换模型计算。
  4. 执行碰撞检查过程并更新所有车辆的位置。
    1. 在步骤4)中将执行碰撞检查过程,以修改纵向速度以确保安全。

问题

多智能体每轮学习后交换策略。

个人效率和整体效率的和谐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/327196.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据仓库面试题

1 思维导图&数仓常见面试题 2 题目 1. 数据仓库是什么? 数据仓库是一个面向主题的(订单、支付、退单等)、集成的(整合多个信息源的大量数据)、非易失的(一般不会进行删除和修改操作)且随时…

基于NLP的恶意网页识别

基于NLP的恶意网页识别 基于NLP的恶意网页识别引言项目目录回顾优化HTML标签提取结果使用预训练模型Fine-tune数据处理和模型训练模型训练与评估模型导出部署与预测总结 基于NLP的恶意网页识别 引言 欢迎阅读《 基于NLP的恶意网页识别》,在前三篇中,我…

【LV12 DAY21 PWM实验】

PWM控制—脉冲宽度调制 通过对脉冲宽度的调制,来获得所需要的波形。 #include "exynos_4412.h"void delay(unsigned int time){while(time--);}int main(){//1.配置GPD0_0 PWM输出功能GPD0.CONGPD0.CON &(~(0XF)) | 0X2;//2.设置PWM一级分频100P…

Flask框架小程序后端分离开发学习笔记《1》网络知识

Flask框架小程序后端分离开发学习笔记《1》网络知识 Flask是使用python的后端,由于小程序需要后端开发,遂学习一下后端开发。 一、网址组成介绍 协议:http,https (https是加密的http)主机:g.cn zhihu.com之类的网址…

视频转码:最简单的批量MP4视频转换方法,视频剪辑的技巧

随着数字媒体技术的快速发展,视频格式的转换和编辑已成为日常生活中常见的需求。经常遇到要把不同格式的视频转换成MP4格式的情况,例如在某些播放器或设备上播放,或者传输和分享。接下来看下云炫AI智剪如何简单的批量转换MP4视频方法&#xf…

实战案例 - 医疗行业攻击面发现及管理

HIS 入侵案例 医院委托第三方安全公司进行渗透测试 公网域名发现 HIS 系统,通过域名访问并进行入侵 植入木马后,被 HIDS 发现并处置 通过 HIDS 发现 HIS 系统存在已知安全漏洞 通报院方负责人进行处理 院方负责人 仅关闭对应系统域名解析 HW 演练时…

爬虫IP代理池的搭建与使用指南

目录 前言 一、IP代理池的搭建 1. 安装依赖库 2. 获取代理IP 3. 验证代理IP 4. 搭建代理池 5. 定时更新代理池 二、使用IP代理池 总结 前言 在进行网络爬虫任务时,为了避免被目标网站封禁IP,我们可以使用IP代理池来进行IP的轮换,达…

linux修改文件名

1.使用 mv 命令:mv 命令用于移动或重命名文件。要重命名一个文件,你可以将原始文件名作为第一个参数,新的文件名作为第二个参数传递给 mv 命令。例如,要将 oldfile.txt 重命名为 newfile.txt,可以运行以下命令&#xf…

【江科大STM32合集】day2按键控制LED光敏传感器控制峰鸣器

【STM32合集】day2按键控制LED&光敏传感器控制峰鸣器 电路基础c语言基础main.ckey.c结果 实现一个键开关灯实验结果避坑 电路基础 运算放大器-在江科大51单片机b站视频(AD/DA)复习 原理:两个极端 同相输入端电压 》反相输入端 电压输出最…

3DMax的位图是什么? 3DMax的位图介绍

在3dmax建模中,使用贴图时的位图的频率是很高的。主要原因便就是位图就是我们平常说的图片,有各种格式的图片,能把这张图片贴到物体的表面,呈现效果进行渲染。 3damx的位图支持多种格式,比如jpg、png等等。 当然常用的…

第8章-第4节-Java中字节流的缓冲流

1、缓冲流:属于高级IO流,并不能直接读写数据,需要依赖于基础流。缓冲流的目的是为了提高文件的读写效率?那么是如何提高文件的读写效率的呢? 在内存中设置一个缓冲区,缓冲区的默认大小是8192字节&#xff…

HarmonyOS4.0 系列——06、渲染之条件渲染、循环渲染以及懒加载渲染

HarmonyOS4.0 系列——06、渲染之条件渲染、循环渲染以及懒加载渲染 if/else:条件渲染 ArkTS 提供了渲染控制的能力。条件渲染可根据应用的不同状态,使用 if、else 和 else if 渲染对应状态下的 UI 内容。 写法和 TS 的一样,简单看一下即可…

java的object类

object类 看下object类的结构: Object是所有类的父类,任何类都默认继承Object。在Java中,如果没有指定父类,则默认为Object。这是因为Object类是Java中最基本的类,也是所有类的祖先 public String toString() : 这…

Windows下Python+PyCharm+miniconda+Cuda/GPU 安装步骤

1. 官网安装Python 3.9 Python Release Python 3.9.0 | Python.org 2. 安装pycharm https://download.jetbrains.com/python/pycharm-professional-2023.3.2.exe 3. 安装miniconda Miniconda — miniconda documentation 4. 安装完miniconda 创建虚拟环境 conda create …

Linux命令之用户账户管理whoami,useradd,passwd,chage,usermod,userdel的使用

1、查看当前用户账户 2、切换用户为root用户 3、新建用户user1,给用户user1设置密码为password123 4、新建用户user2,UID为510,指定其所属的私有组为group1(group1组的标识符为500),用户的主目录为/home/us…

6.1810: Operating System Engineering 2023 <Lab7 lock: Parallelism/locking>

一、本节任务 二、要点 2.1 文件系统(file system) xv6 文件系统软件层次如下: 通过路径树我们可以找到相应的文件: fd(文件描述符)是进程用来标识其打开的文件的手段,每个进程有自己的文件…

C++学习笔记(三十三):c++ 宏定义

本节对c的宏定义进行描述。c使用预处理器来对宏进行操作,我们可以写一些宏来替换代码中的问题,c的宏是以#开头,预处理器会将所有的宏先进行处理,之后在通过编译器进行编译。宏简单说就是文本替换,可以替换代码中的任何…

高级分布式系统-第15讲 分布式机器学习--概念与学习框架

高级分布式系统汇总:高级分布式系统目录汇总-CSDN博客 分布式机器学习的概念 人工智能蓬勃发展的原因:“大” 大数据:为人工智能技术的发展奠定了坚实的物质基础。 大规模机器学习模型:具备超强的表达能力,可以解决…

CMU15-445-Spring-2023-Project #3 - 前置知识(lec10-14)

Lecture #10_ Sorting & Aggregation Algorithms Query Plan 数据库系统会将 SQL 编译成查询计划。查询计划是一棵运算符树。 Sorting DBMS 需要对数据进行排序,因为根据关系模型,表中的tuple没有特定的顺序。排序使用 ORDER BY、GROUP BY、JOIN…

如何在Windows 10/11的防火墙中禁止和允许某个应用程序,这里提供详细步骤

想阻止应用程序访问互联网吗?以下是如何通过简单的步骤阻止和允许Windows防火墙中的程序。​ 一般来说,大多数用户永远不需要担心应用程序访问互联网。然而,在某些情况下,你需要限制应用程序访问互联网。 例如,有问题…