无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）

无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）

article2024/12/25 10:38:55/文章来源:https://blog.csdn.net/pzb19841116/article/details/132189525

在七月算法上报了《无人驾驶实战》课程，老师讲的真好。好记性不如烂笔头，记录一下学习内容。课程入口，感兴趣的也可以跟着学一下。

—————————————————————————————————————————

强化学习：通过和环境交互学习到如何在相应环境中采取最优策略的行为。特点是不需要标注，具有鲁棒性，对行为(Action)的学习更友好。

Environment：整体任务的工作环境

Reward：激励、奖励，对行为好坏的一个评价，Value Function，不同环境可以有不同的奖励，奖励的设计对RL来说至关重要。

Agent：智能体，一般是RL的作用对象

Action：智能体可以采取的所有可能的行动

Sensors：环境返回的当前情况

MDP模型：马尔科夫决策过程

逆强化学习：能够找到一种能够高效可靠的Reward的方法，专家在完成某项任务时，其决策往往是最优或接近最优的。当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，对应的回报函数就是根据示例学到的回报函数。

常用的逆强化学习方法：学徒学习方法、最大边际规划算法MMP、基于最大熵的逆向强化学习

模仿学习：从专家提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，把状态作为特征，动作作为标记进行分类或回归的学习从而得到最优策略模型。目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配，算是一种监督学习方法（行为克隆）。特点是泛化性很差，依赖于大量数据数据增广

深度学习：感知能力，缺乏一定的决策能力

强化学习：决策能力，非常适合做无人车决策规划

强化学习中的一些分类：On-Policy vs Off-Policy、Model Based vs Model Free、Q-Learning vs SARSA、

DQN（Deep Q Network）端到端的学习方式、深度卷积神经网络和Q学习、经验回放技术；

DDPG（Deep Deterministic Policy Gradient ） actor-critic 算法、深度神经网络作为逼近器；

强化学习主要方法的对比

无人车如何使用强化学习（模仿学习）

传感器感知（输入）：Radar、Lidar、GPS、Camera … ，从原始数据抽取高阶特征，机器学习将特征转化成知识，知识处理后进行推理；做出合理的动作决策。

Q-Learning

Q-Table为每一个 state 上进行的每一个 action 计算出最大的未来 reward 的期望，每个状态允许四种可能的操作：左移、右移、上移、下移， Table 里的参数式给定最佳策略的状态下采取相应动作获得的最大未来奖励期望

如何计算 Q-table 中每个元素的值？

Q-Learning、学习动作值函数（Q值）、Bellman 方程

更新Q值的策略

选取一个动作：在基于当前的 Q 值估计得出的状态 state 下选择一个动作 action。采用动作 action 并且观察输出的状态 s' 和奖励 reward。

DQN

4个Action：上下左右，每走一步有reward，Maximum 未来的 Reward总和

Q-Learning：使用最佳策略使得最大化未来的Reward值（Q值），Off-policy，持续迭代更新每步(s, a) 。

Exploration vs Exploitation（探索和使用）：局部最优（贪心），初始的时候对信息一无所知

持续更新(S, A) 是Q-Learning的最大问题，因为低效，泛化能力差，对复杂问题维数爆炸，所以后面使用Deep Learning代替Q-Table

DeepMind在这方面发表了文章在Nature上

如何训练DQN？

1.给定状态转移方式；2.在状态s用前向推理计算所有Action的预测Q值；3.前向推理下一步s’及其最大Q’值；4.并用Loss function进行梯度更新

经验回放：提高数据利用率，遗忘数据流顺序（加入随机性）

课程总结

自动驾驶工程师技能图谱

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/67151.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

php webshell 免杀入门

php webshell 免杀入门

webshell 查杀软件： d盾、安全狗、护卫神、Sangfor WebShellKill 在线查杀百度WEBDIR https://scanner.baidu.com 河马 https://www.shellpub.com cloudwalker牧云 https://webshellchop.chaitin.cn 查杀技术静态检测、动态检测、日志检查静态检查&#xff1a…

阅读更多...

通用FIR滤波器的verilog实现（内有Lowpass、Hilbert参数生成示例）

通用FIR滤波器的verilog实现（内有Lowpass、Hilbert参数生成示例）

众所周知，Matlab 中的 Filter Designer 可以直接生成 FIR 滤波器的 verilog 代码，可以方便地生成指定阶数、指定滤波器参数的高通、低通、带通滤波器，生成的 verilog 代码也可以指定输入输出信号的类型和位宽。然而其生成的代码实在算不上美观…

阅读更多...

智能型静电消除器的优势有哪些？

智能型静电消除器的优势有哪些？

智能型静电消除器是一种使用先进技术和智能控制系统来消除静电问题的设备。静电是由于电荷不平衡而引起的现象，常见于工业生产、医疗设备、办公环境等场合。静电的存在可能导致电子设备故障、火灾、等问题。智能型静电消除器与传统静电消除器相比，具有以…

阅读更多...

Python做一个绘图系统3：从文本文件导入数据并绘图

Python做一个绘图系统3：从文本文件导入数据并绘图

文章目录导入数据文件对话框修改绘图逻辑源代码 Python绘图系统系列：将matplotlib嵌入到tkinter 简单的绘图系统导入数据单纯从作图的角度来说，更多情况是已经有了一组数据，然后需要将其绘制。这组数据可能是txt格式的，也可能…

阅读更多...

uni-app：实现点击按钮，进行数据累加展示（解决数据过多，导致出错）

uni-app：实现点击按钮，进行数据累加展示（解决数据过多，导致出错）

效果代码核心代码一、标签显示  <view class"load_more" v-if"info.length > pageNum * pageSize" tap"loadMore">加载更多 </view> v-if"info.length > pageNum * pageSize"&#xf…

阅读更多...

远景智能PMO负责人严晓婷受邀为第十二届中国PMO大会演讲嘉宾

远景智能PMO负责人严晓婷受邀为第十二届中国PMO大会演讲嘉宾

上海远景科创智能科技有限公司PMO负责人严晓婷女士受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾，演讲议题：能源物联网产品标准项目和非标准项目的并行管理。大会将于8月12-13日在北京举办，敬请关注！ 议题简要&#xff1…

阅读更多...

教雅川学缠论07-中枢实战众泰汽车000980

教雅川学缠论07-中枢实战众泰汽车000980

本文实战众泰汽车下面是2023年11月14-2023年8月8众泰汽车日K图先画日K 接下来处理包含，就变成下面这个样子下面在套上缠论的理论，未来股价的走势应该是红色椭圆形虚线里面的样子好了，文章就到这里，如果众泰最终不是这个走势…

阅读更多...

网页版Java（Spring/Spring Boot/Spring MVC）五子棋项目（四）对战模块

网页版Java（Spring/Spring Boot/Spring MVC）五子棋项目（四）对战模块

网页版Java（Spring/Spring Boot/Spring MVC）五子棋项目（四）对战模块一、约定前后端交互接口1. 建立连接接口2. 针对落子的请求和响应二、实现前端页面三、实现后端1. 当用户进入房间，更新用户状态 OnlineUserManager…

阅读更多...

W5500-EVB-PICO作为TCP Client 进行数据回环测试（五）

前言上一章我们用W5500-EVB-PICO开发板通过DNS解析www.baidu.com（百度域名）成功得到其IP地址，那么本章我们将用我们的开发板作为客户端去连接服务器，并做数据回环测试：收到服务器发送的数据，并回传给服务器…

阅读更多...

FFmpeg 编码详细流程

FFmpeg 编码详细流程

介绍 FFmpeg的 libavcodec 模块完成音视频多媒体的编解码模块。FFmpeg 本身不具有音视频编码的功能和底层能力，只是对各类第三方的编码器API 进行封装调用。老版本的 FFmpeg 将avcodec_encode_video2()作为视频的解码函数 API，将avcodec_encode_audio2(…

阅读更多...

IO模型-信号驱动IO

IO模型-信号驱动IO

linux内核中存在一个信号SIGIO，这个信号就是用于实现信号驱动IO的。当应用程序中想要以信号驱动IO的模型读写硬件数据时，首先注册一个SIGIO信号的信号处理函数,当硬件数据就绪，硬件会发起一个中断，在硬件的中断处理函数中向当前进…

阅读更多...

css-4：元素水平垂直居中的方法有哪些？如果元素不定宽高呢？

css-4：元素水平垂直居中的方法有哪些？如果元素不定宽高呢？

1、背景在开发中，经常遇到这个问题，即让某个元素的内容在水平和垂直方向上都居中，内容不仅限于文字，可能是图片或其他元素。居中是一个非常基础但又是非常重要的应用场景，实现居中的方法存在很多，可以将这…

阅读更多...

解决 Android Studio 的 Gradle 面板上只有关于测试的 task 的问题

解决 Android Studio 的 Gradle 面板上只有关于测试的 task 的问题

文章目录问题描述解决办法笔者出问题时的运行环境： Android Studio Flamingo | 2022.2.1 Android SDK 33 Gradle 8.0.1 JDK 17 问题描述笔者最近发现一个奇怪的事情。笔者的 Android Studio 的 Gradle 面板上居然除了用于测试的 task 之外，其它什…

阅读更多...

centos8.5本地yum源报错

centos8.5本地yum源报错

在下载文件出现以下错误 [rootserver ~]# yum install gcc Updating Subscription Management repositories. Unable to read consumer identity This system is not registered with an entitlement server. You can use subscription-manager to register. RHEL8.5-BaseOS …

阅读更多...

【对于一维信号的匹配】对一个一维（时间）信号y使用自定义基B执行匹配追踪（MP）研究（Matlab代码实现）

【对于一维信号的匹配】对一个一维（时间）信号y使用自定义基B执行匹配追踪（MP）研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

冠达管理：大跳水！美国又要下黑手！3300亿巨头突然死亡，疯抢锂矿

冠达管理：大跳水！美国又要下黑手！3300亿巨头突然死亡，疯抢锂矿

美国又要下“黑手”。据环球网征引路透社音讯，美国政府高级官员泄漏，白宫当地时间9日将具体阐明约束美国在华出资灵敏技能的方案，并要求将其他有关出资奉告政府。美股商场上演了一场大败局。当地时间8月9日美股盘中，全球同享工…

阅读更多...

如何给Linux开启swap虚拟内存

如何给Linux开启swap虚拟内存

查看系统内存资源 free -h 创建swap分区 dd if/dev/zero of/swapfile bs1024 count4194304dev/zero：是Linux的一种特殊字符设备(输入设备)，可以用来创建一个指定长度用于初始化的空文件，如临时交换文件，该设备无穷尽地提供0&…

阅读更多...

Linux下C/C++的gdb工具与Python的pdb工具常见用法之对比

Linux下C/C++的gdb工具与Python的pdb工具常见用法之对比

1、gdb和pdb分别是什么？ 1.1、gdb GDB（GNU Debugger）是一个功能强大的命令行调试工具，由GNU项目开发，用于调试C、C等编程语言的程序。它在多个操作系统中都可以使用，包括Linux、MacOS和Windows&#xff0…

阅读更多...

大数据Flink（五十八）：Flink on Yarn的三种部署方式介绍

大数据Flink（五十八）：Flink on Yarn的三种部署方式介绍

文章目录 Flink on Yarn的三种部署方式介绍一、Session模式

阅读更多...

ChatGLM2-6B在windows下的部署

ChatGLM2-6B在windows下的部署

2023-08-10 ChatGLM2-6B在windows下的部署一、部署环境 1、Windows 10 专业版， 64位，版本号：22H2，内存：32GB 2、已安装CUDA11.3 3、已安装Anaconda3 64bit版本 4、有显卡NVIDIA GeForce RTX 3060 Laptop GPU …

阅读更多...

最新文章