# [0622] Task02 model-free 免模型类 RL 算法的预测和控制 【ε 贪心策略 优化的证明】

  • easy-rl PDF版本 笔记整理 P3
  • joyrl 比对 补充 P4 - P5
  • 相关 代码 整理 ——> 有空 另开一页

最新版PDF下载
地址:https://github.com/datawhalechina/easy-rl/releases
国内地址(推荐国内读者使用)
链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a

easy-rl 在线版本链接 (用于 copy 代码)
参考链接 2:https://datawhalechina.github.io/joyrl-book/

其它:
【勘误记录 链接】
——————
5、深度强化学习基础 ⭐️
开源内容:https://linklearner.com/learn/summary/11
——————————

表格型:蒙特卡洛、Q-learning、Sarsa

状态转移概率 p [ s t + 1 , r t ∣ s t , a t ] p[s_{t+1},r_t|s_t,a_t] p[st+1,rtst,at]: 在状态 s t s_t st 选择动作 a t a_t at 后, 转移到状态 s t + 1 s_{t+1} st+1,得到奖励 r t r_t rt 的概率。

马尔可夫性质: 系统下一时刻的状态仅由当前时刻的状态决定, 不依赖于以往任何状态。

状态转移概率 和 奖励未知: model-free。 免模型

模型未知 或 模型太大 ——> 免模型方法

考虑未来的总奖励的原因: 奖励延迟

折扣因子 γ \gamma γ: 当前行为 对 太远的未来的某一个回报可能毫无关系。

用下一状态的价值 来更新 当前状态的 价值。 自举
时序差分: 每走一步更新一次 Q 表格, 用下一个状态的 Q 值 来 更新当前状态 的 Q 值。

蒙特卡洛方法:
采样大量 episode ,计算所有 episode 的真实回报,计算平均值, 当做 状态值的估计。

蒙特卡洛:
V ( s t ) ← V ( s t ) + α ( G i , t − V ( s t ) ) V(s_t)\leftarrow V(s_t) +\alpha(G_{i,t}-V(s_t)) V(st)V(st)+α(Gi,tV(st))

时序差分:
V ( s t ) ← V ( s t ) + α ( r t + 1 + γ V ( s t + 1 ) − V ( s t ) ) V(s_t)\leftarrow V(s_t) +\alpha(r_{t+1}+\gamma V(s_{t+1})-V(s_t)) V(st)V(st)+α(rt+1+γV(st+1)V(st))

时序差分蒙特卡洛
可在线学习,效率高必须等游戏结束
不要求序列完整完整序列
连续任务有终止的任务
马尔可夫非马尔可夫更高效
有偏估计无偏估计
方差小、自举方差大

时序差分 优势: 低方差, 能够在线学习, 能够从不完整的序列中学习。

————————————————

证明:对于任意 策略 π \pi π, 根据其动作价值函数 q π q_\pi qπ 计算的 ε \varepsilon ε -贪心策略 π ′ \pi^\prime π 比原策略 π \pi π 好 或 至少一样好。

π ( a ∣ s ) = { ε ∣ A ( s ) ∣ + 1 − ε , 贪心动作 ε ∣ A ( s ) ∣ , 其它动作 \pi(a|s)=\left\{ \begin{aligned} &\frac{\varepsilon}{|\mathcal{A}(s)|}+1- \varepsilon, &贪心动作\\ &\frac{\varepsilon}{|\mathcal{A}(s)|}, &其它动作\\ \end{aligned} \right. π(as)= A(s)ε+1ε,A(s)ε,贪心动作其它动作

由上式:
——> π ( a ∣ s ) − ε ∣ A ( s ) ∣ = { 1 − ε , 贪心动作 0 , 其它动作 \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}=\left\{ \begin{aligned} &1- \varepsilon, &贪心动作\\ &0, &其它动作\\ \end{aligned} \right. π(as)A(s)ε={1ε,0,贪心动作其它动作
——> π ( a ∣ s ) − ε ∣ A ( s ) ∣ 1 − ε = { 1 , 贪心动作 0 , 其它动作 \frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}=\left\{ \begin{aligned} &1, &贪心动作\\ &0, &其它动作\\ \end{aligned} \right. 1επ(as)A(s)ε={1,0,贪心动作其它动作

q π ( s , π ′ ( s ) ) = ∑ a ∈ A π ′ ( a ∣ s ) q π ′ ( s , a ) = ε ∣ A ( s ) ∣ ∑ a ∈ A q π ( s , a ) + ( 1 − ε ) max ⁡ a ∈ A q π ( s , a ) = ε ∣ A ( s ) ∣ ∑ a ∈ A q π ( s , a ) + ( 1 − ε ) ∑ a ∈ A π ( a ∣ s ) − ε ∣ A ( s ) ∣ 1 − ε max ⁡ a ∈ A q π ( s , a ) ≥ ε ∣ A ( s ) ∣ ∑ a ∈ A q π ( s , a ) + ( 1 − ε ) ∑ a ∈ A π ( a ∣ s ) − ε ∣ A ( s ) ∣ 1 − ε q π ( s , a )     这个  q π ( s , a )  没有  ε  贪心动作对应的  q  大 = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) \begin{aligned}q_\pi(s, \pi^\prime(s))&=\sum\limits_{a\in\mathcal A}\pi^\prime(a|s)q_{\pi^\prime}(s,a)\\ &=\frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\max\limits_{a\in\mathcal A}q_\pi(s, a)\\ &=\frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\textcolor{blue}{\sum\limits_{a\in \cal A}\frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}}\max\limits_{a\in\mathcal A}q_\pi(s, a)\\ &\geq \frac{\varepsilon}{|\mathcal{A}(s)|}\sum\limits_{a\in\mathcal A}q_\pi(s, a)+(1-\varepsilon)\sum\limits_{a\in \cal A}\frac{ \pi(a|s)-\frac{\varepsilon}{|\mathcal{A}(s)|}}{1-\varepsilon}q_\pi(s, a)~~~\textcolor{blue}{这个 ~q_\pi(s, a) ~没有~ \varepsilon ~贪心动作 对应的 ~q ~ 大}\\ &=\sum\limits_{a\in\mathcal A}\pi (a|s)q_ \pi (s,a)\end{aligned} qπ(s,π(s))=aAπ(as)qπ(s,a)=A(s)εaAqπ(s,a)+(1ε)aAmaxqπ(s,a)=A(s)εaAqπ(s,a)+(1ε)aA1επ(as)A(s)εaAmaxqπ(s,a)A(s)εaAqπ(s,a)+(1ε)aA1επ(as)A(s)εqπ(s,a)   这个 qπ(s,a) 没有 ε 贪心动作对应的 q =aAπ(as)qπ(s,a)

————————————

偏差高: 偏离真实数据
方差高: 数据分布分散。

时序差分: 更新 V
Sarsa:更新 Q
q ( s t , a t ) = q ( s t , a t ) + α [ r t + 1 + γ q ( s t + 1 , a t + 1 ) ⏞ 时序差分目标 − q ( s t , a t ) ⏟ 时序差分误差 ] q(s_t, a_t)=q(s_t,a_t)+\textcolor{blue}{\alpha}[\underbrace{\overbrace{\textcolor{blue}{r_{t+1}+\gamma q(s_{t+1},a_{t+1})}}^{时序差分目标}-q(s_t,a_t)}_{时序差分误差}] q(st,at)=q(st,at)+α[时序差分误差 rt+1+γq(st+1,at+1) 时序差分目标q(st,at)]

Sarsa: ( s t , a t , r t + 1 , s t + 1 , a t + 1 ) (\textcolor{blue}{s}_t, \textcolor{blue}{a}_t,\textcolor{blue}{r}_{t+1}, \textcolor{blue}{s}_{t+1}, \textcolor{blue}{a}_{t+1}) (st,at,rt+1,st+1,at+1)

在这里插入图片描述

Sarsa: 同策略的时序差分
Q-learning: 异策略的时序差分

q ( s t , a t ) = q ( s t , a t ) + α [ r t + 1 + γ max ⁡ a q ( s t + 1 , a ) ⏞ 时序差分目标 − q ( s t , a t ) ⏟ 时序差分误差 ] q(s_t, a_t)=q(s_t,a_t)+\alpha[\underbrace{\overbrace{r_{t+1}+\gamma \textcolor{blue}{\max_{a}q(s_{t+1},a)}}^{时序差分目标}-q(s_t,a_t)}_{时序差分误差}] q(st,at)=q(st,at)+α[时序差分误差 rt+1+γamaxq(st+1,a) 时序差分目标q(st,at)]

同策略:学习的策略 和 与环境交互的策略 是同一个。不稳定、胆小。 Sarsa
异策略:目标策略 和 行为策略。 激进。 Q-learning

————————
Q 表格: 横轴 动作, 纵轴 状态

同策略 VS 异策略: 生成样本的策略 和 参数更新的策略 是否相同。

Q 学习, 异策略, 优化策略 没有用到 行为策略的数据。

时序差分 使用了 自举, 实现了 基于平滑的效果, 方差较小。

——————————————
joyrl

免模型:
不需要学习较为复杂的模型 (状态转移概率 和 奖励)
需要与真实环境进行大量的交互

异策略算法:从经验池或者历史数据中进行学习的。

其一是智能体在测试的时候直接用模型预测的动作输出就行,即在训练中是采样动作(带探索),测试中就是预测动作,其二是训练过程中不需要更新策略,因为已经收敛了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/745403.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学好 prompt 让大模型变身撩富婆专家,带你走上人生巅峰

前文 使用大模型的最重要的一步就是编写好的提示词 prompt ,但是 prompt 既容易被低估也容易被高估。被低估是因为设计良好的提示词可以显著提升效果。被高估是因为即使是基于提示的应用也需要大量的工程工作才能使其发挥作用。下面我会介绍在编写 prompt 的时候&a…

无芯封装基板适用于先进封装技术 我国行业发展面临一定挑战

无芯封装基板适用于先进封装技术 我国行业发展面临一定挑战 无芯封装基板指去除作为核心支撑层的芯板,仅由积层板构成的封装基板。与传统带有芯层的封装基板相比,无芯封装基板具有轻量化、密度高、信号传输质量高、散热性能好、布线灵活性好等优势&#…

靶机渗透之DC-7

一、信息收集 扫描网段,发现靶机ip为192.168.145.235。 nmap -sP 192.168.145.* 进一步对端口,靶机系统等信息进行一个收集。可以看到开放了22端口,80端口,主机系统为linux等信息。 nmap -sT -T4 -O -sV -sC -p1-65535 192.16…

品牌电商维权:应对渠道低价与假货的有力举措

在品牌治理渠道的过程中,会遭遇各种各样的问题,其中低价现象尤为突出。低价往往导致经销商被迫跟价,而未授权的店铺则更加不受管控,更容易出现低价情况。然而,低价本身不能直接作为品牌管控渠道的充分理由,…

元数据管理的发展历程你了解吗?元数据管理要克服哪些挑战?

在当今的信息化时代,数据的价值已被广泛认可,而元数据作为描述数据的数据,其作用日益凸显。元数据管理,作为确保数据质量、促进数据共享和提高数据透明度的关键环节,对企业的数据战略至关重要。随着技术的发展&#xf…

理解MySQL索引:提升查询性能的关键

一、前言 在众多数据库中,MySQL以其高效、稳定和跨平台的特点成为许多开发者的首选。然而,随着数据量的不断增加,查询性能可能会成为一个瓶颈。这时,索引(Index)便成为了提升查询速度的关键工具。本篇文章…

if action和Switch之间该怎么选择?

1. Switch 2. If及If Action Subsystem 3.结论 元素很多,用switch 元素少,用if或switch 如果...很多,用if

Linux服务升级:Almalinux 升级 WebCatlog桌面程序

目录 一、实验 1.环境 2.Almalinux 升级 WebCatlog桌面程序 二、问题 1.Ubuntu如何升级 WebCatlog桌面程序 一、实验 1.环境 (1)主机 表1 主机 系统版本软件IP备注Almalinux9.4 WebCatlog 192.168.204.150 (2)Termi…

Redis数据结构跳跃表skiplist

一、介绍 Redis中使用跳跃表(skiplist)来实现有序集合(sorted set)和有序字典(sorted dictionary)数据结构。 跳跃表是一种有序的数据结构,它由多层链表组成。每一层链表都是一个有序的链表&a…

零成本搭建个人图床服务器

前言 图床服务器是一种用于存储和管理图片的服务器,可以给我们提供将图片上传后能外部访问浏览的服务。这样我们在写文章时插入的说明图片,就可以集中放到图床里,既方便多平台文章发布,又能统一管理和备份。 当然下面通过在 Git…

祝贺:东兴朱雀桥成为一点点的NFC果汁供应商。

东兴朱雀桥进出口:品质之选,护航一点点奶茶的成长! 据记者了解,该家公司是专注于进口越南特色NFC果汁:薇妮她VINUT人参果汁饮料的研发与生产,以其丰富的产品线和卓越品质,成为了行业内的佼佼者…

华为云鲲鹏架构docker部署2048小游戏

华为云鲲鹏架构docker部署2048小游戏 1. 鲲鹏架构ESC2. 配置docker3. 上传2048镜像4. 删除容器,镜像 1. 鲲鹏架构ESC 2. 配置docker 安装dockeryum -y install docker开机启动 systemctl enable docker启动docker服务 systemctl start docker查询docker的运行版本 docker -v3…

零知识学习之DPDK与RDMA(1)—— 认识DPDK(1)

接前一篇文章:零知识学习之DPDK与RDMA(1)—— 序言与初识 本文内容参考: 《Linux高性能网络详解 从DPDK、RDMA到XDP》 刘伟著 人民邮电出版社 DPDK首页、文档和下载 - 网络数据包转发处理 - OSCHINA - 中文开源技术交流社区 五…

从理论到实践:工业工厂室外可燃气体报警器的校准方法

随着工业工厂对安全生产要求的不断提高,可燃气体报警器作为防范火灾、爆炸事故的重要设备,其准确性和可靠性显得尤为重要。 特别是在室外环境中,由于气候条件多变、设备老化等因素的影响,可燃气体报警器的性能可能会发生变化。因…

51单片机STC8H8K64U通过RA8889/RA8876如何控制彩屏(源码下载)

【硬件部份】 一、硬件连接实物: STC8H系列单片机不需要外部晶振和外部复位,在相同的工作频率下,速度比传统的8051单片机要快12倍,具有高可靠抗干扰的优秀特性,与瑞佑的RA8889/RA8876控制芯片刚好可以完美搭配用于工…

JavaScript学习笔记(四)

22、日期 JavaScript 日期输出,默认情况下,JavaScript 将使用浏览器的时区并将日期显示为全文本字符串: var data new Date();输出:Tue Jun 25 2024 14:45:44 GMT0800 (中国标准时间) 22.1 创建 Date 对象 Date 对象由新的 Da…

【护眼科普】台灯怎么选对眼睛好?五大适合学生写作业的台灯推荐

作为一位家长,我深切地领悟到保护孩子眼部健康的至关重要性。随着科技的日新月异,孩子们愈发频繁地接触和使用各类电子设备,如平板电脑、手机和电视,屏幕时间几乎占据了他们日常生活的相当一部分。然而,不容忽视的是&a…

数字图像分析(第一部分)

文章目录 第2章 图像数字化数字化采样与量化像素的邻域像素的距离图像采集网络**离散直线性**距离变换**第3章 图像变换可分离和正交图像变换2D DFT变换及其本质**哈达玛变换KL变换(PCA)第4章 形态学二值形态学膨胀和腐蚀开启和闭合击中-击不中变换二值形态学实用算法噪声滤除目…

有没有比较好用的网页3D应用程序在线编辑器?

问:three.js是当前主流的网页3d开发框架,但three.js的editor功能比较粗糙。国内有没有比较容易上手功能类似Unity3D的网页3D编辑软件,可以通过实体组件系统来完成程序扩展,简单拖拉拽完成3D场景、常用特效和用户交互的构建&#x…

【深度学习总结_03】使用弱智吧数据微调LLama3+自我认知训练

使用弱智吧数据微调LLama3自我认知训练 使用弱智吧数据微调LLama3自我认知训练下载LLama3权重准备数据集克隆alpaca-lora仓库修改finetune.py代码修改LlamaTokenizer注释代码手动安装apex 运行finetune.py运行generate.py文件导出Lora模型自我认知训练 使用弱智吧数据微调LLama…