深入理解强化学习——马尔可夫决策过程:蒙特卡洛方法-[基础知识]

分类目录:《深入理解强化学习》总目录


蒙特卡洛方法(Monte-Carlo Methods)也被称为统计模拟方法,是一种基于概率统计的数值计算方法。运用蒙特卡洛方法时,我们通常使用重复随机抽样,然后运用概率统计方法来从抽样结果中归纳出我们想求的目标的数值估计。一个简单的例子是用蒙特卡洛方法来计算圆的面积。例如,在下图所示的正方形内部随机产生若干个点,细数落在圆中点的个数,圆的面积与正方形面积之比就等于圆中点的个数与正方形中点的个数之比。如果我们随机产生的点的个数越多,计算得到圆的面积就越接近于真实的圆的面积。
用蒙特卡洛方法估计圆的面积
我们现在介绍如何用蒙特卡洛方法来估计一个策略在一个马尔可夫决策过程中的状态价值函数。回忆一下,一个状态的价值是它的期望回报,那么一个很直观的想法就是用策略在马尔可夫决策过程上采样很多条序列,计算从这个状态出发的回报再求其期望就可以了:
V π ( s ) = E π [ G t ∣ S t = s ] ≈ 1 N ∑ i = 1 N G t i V_\pi(s)=E_\pi[G_t|S_t=s]\approx\frac{1}{N}\sum_{i=1}^NG_t^i Vπ(s)=Eπ[GtSt=s]N1i=1NGti

在一条序列中,可能没有出现过这个状态,可能只出现过一次这个状态,也可能出现过很多次这个状态。我们介绍的蒙特卡洛价值估计方法会在该状态每一次出现时计算它的回报。还有一种选择是一条序列只计算一次回报,也就是这条序列第一次出现该状态时计算后面的累积奖励,而后面再次出现该状态时,该状态就被忽略了。假设我们现在用策略 π \pi π从状态 s s s开始采样序列,据此来计算状态价值。我们为每一个状态维护一个计数器和总回报,计算状态价值的具体过程如下所示:

蒙特卡洛方法计算马尔可夫决策过程状态价值
(1) 是用策略 π \pi π采样若干条序列: s 0 ( i ) ⟶ a 0 ( i ) r 0 ( i ) , s 1 ( i ) ⟶ a 1 ( i ) r 1 ( i ) , s 2 ( i ) ⟶ ⋯ ⟶ r T − 2 ( i ) , s T − 1 ( i ) ⟶ a T − 1 ( i ) r T − 1 , s T s_0^{(i)}\stackrel{a_0^{(i)}}{\longrightarrow}r_0^{(i)},s_1^{(i)}\stackrel{a_1^{(i)}}{\longrightarrow}r_1^{(i)},s_2^{(i)}\longrightarrow\cdots\longrightarrow r_{T-2}^{(i)},s_{T-1}^{(i)}\stackrel{a_{T-1}^{(i)}}{\longrightarrow}r_{T-1},s_T s0(i)a0(i)r0(i),s1(i)a1(i)r1(i),s2(i)rT2(i),sT1(i)aT1(i)rT1,sT
(2) 对每一条序列中的每一时间步 t t t的状态 s s s,更新状态 s s s的计数器 N ( s ) = N ( s ) + 1 N(s)=N(s)+1 N(s)=N(s)+1和状态 s s s的总回报 M ( s ) = M ( s ) + G t M(s)=M(s)+G_t M(s)=M(s)+Gt
(3) 每一个状态的价值被估计为回报的平均值: V ( s ) = M ( s ) N ( s ) V(s)=\frac{M(s)}{N(s)} V(s)=N(s)M(s)

根据大数定律,当 N ( s ) → ∞ N(s)\rightarrow\infty N(s),有 V ( s ) → V π ( s ) V(s)\rightarrow V_\pi(s) V(s)Vπ(s)。计算回报的期望时,除了可以把所有的回报加起来除以次数,还有一种增量更新的方法。对于每个状态 s s s和对应回报 G G G,可以做如下更新:
V ( s ) = V ( s ) + 1 N ( s ) ( G − V ( s ) ) V(s)=V(s)+\frac{1}{N(s)}(G-V(s)) V(s)=V(s)+N(s)1(GV(s))

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/217427.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

整数的立方和

系列文章目录 进阶的卡莎C++_睡觉觉觉得的博客-CSDN博客数1的个数_睡觉觉觉得的博客-CSDN博客双精度浮点数的输入输出_睡觉觉觉得的博客-CSDN博客足球联赛积分_睡觉觉觉得的博客-CSDN博客大减价(一级)_睡觉觉觉得的博客-CSDN博客小写字母的判断_睡觉觉觉得的博客-CSDN博客纸币(…

在线直线度测量仪在圆形轧钢中的重要性

在线直线度测量仪在圆形轧钢中的重要性 在现代轧钢生产中,在线直线度测量仪是一种非常重要的工具,它可以帮助工人和产线进行高精度的直线度和直径测量,从而保证产品质量的稳定性和精度。以下是详细介绍直线度测量仪的重要性和应用。 一、测…

【Java基础】几种拼接字符串的方法

几种拼接字符串的方法 1.使用 "" 运算符拼接字符串2.使用 StringBuilder 或 StringBuffer 类3.使用 StringJoiner 类4.使用 String 类 join 方法5.使用 StringUtils 类6.使用 String 类 concat 方法7.使用 String.format() 方法格式化字符串8.使用 Stream 实现9.总结…

http代理如何设置手机上网?http代理起到了哪些作用

本文将详细介绍如何设置手机上网使用HTTP代理,以及HTTP代理所起到的作用。 一、HTTP代理是什么? HTTP代理是一种网络协议,它允许客户端与服务器之间进行数据传输。它是一种常用的代理服务,可以帮助用户通过HTTP协议访问被封锁的网…

蓝桥杯物联网竞赛_STM32L071_10_温度传感器扩展模块

原理图: 温度传感器原理图: 其中芯片可以通过SCL和SDA引脚通过I2C通信向温度传感器指定地址获取温度的模拟量 再利用公式将模拟量转换成相应温度即可 实验板接口原理图: 模拟量转相应温度公式: CubMx配置: Keil配置&…

手把手教你做基于stm32的红外、语音、按键智能灯光控制(上)

目录: 1.系统实现目标2.硬件选型和软件准备2.1. 硬件选型2.2 软件准备 3. 硬件IO表4.各个模块的驱动函数4.1. 红外遥控模块4.2. 按键模块4.3. LED灯4.4. BH1750光照度传感器4.5. 红外检测模块 1.系统实现目标 本文所设计的基于单片机的灯光控制系统主要由模式选择功…

Http和WebSocket

客户端发送一次http请求,服务器返回一次http响应。 问题:如何在客户端没有发送请求的情况下,返回服务端的响应,网页可以得服务器数据? 1:http定时轮询 客户端定时发送http请求,eg&#…

layui+ssm实现数据批量删除

layuissm实现数据的批量删除 //数据表格table.render({id: adminList,elem: #adminList,url: ctx "/admin/getAdminList", //数据接口cellMinWidth: 80,even: true,toolbar: #toolbarDemo,//头部工具栏limit: 10,//每页条数limits: [10, 20, 30, 40],defaultToolba…

Facebook推广工具功能科普!

随着社交媒体的普及,Facebook已经成为全球使用最广泛的社交平台之一,对于广大营销人员来说,利用Facebook推广工具进行营销已经成为不可或缺的一部分。 那么,这些推广工具到底有哪些功能呢?本文将为您揭秘Facebook推广工具的强大…

安全测试之推荐工具(一)

文章目录 一、前言二、Web安全(一)AppScan(推荐)(二)AWVS(推荐)(三)Burp Suite(推荐)(四)OWASP ZAP 三、主机安…

写 SVG 动画必看!SVG系列文章3-动画标签

1、SMIL animation概览 SMIL不是指「水蜜梨」,而是Synchronized Multimedia Integration Language(同步多媒体集成语言)的首字母缩写简称,是有标准的。本文所要介绍的SVG动画就是基于这种语言。 SMIL允许你做下面这些事情&#…

Harmony Ble蓝牙App(三)特性和属性

Ble蓝牙App(三)特性使用 前言正文一、获取属性列表二、属性提供者三、获取特性名称四、特性提供者五、加载特性六、源码 前言 在上一篇中我们完成了连接和发现服务两个动作,那么再发现服务之后要做什么呢?发现服务只是让你知道设备…

zxjy001-项目整体介绍

1、项目类型 全栈项目 前端:系统后台,系统前台后端:提供API接口 2、项目技术栈 前端 Vue,Element,Axios,NodeJs后端 Spring Boot,Spring Cloud,MybatisPlus,Spring Security,Redis,Maven,JWT,OAuth2其他技术 阿里云oss服务阿里云视频点播…

SL4010森利威尔DC3.7V升压5V、12V、24V/5A升压恒压电源芯片

SL4010是一款专用的DC-DC升压芯片,可以将3.7V的输入电压升压为5V、12V、24V的输出电压,并能够提供5A的输出电流。该芯片具有恒压输出、高效率、低发热等优点,广泛应用于各种需要高电压、大电流电源的应用中,如LED照明、电动汽车、…

GPIO的使用--点亮外接小灯泡--开关控制

目录 一、确定引脚接线模式 接线时注意以下几点: 二、外接小灯泡引脚连接(以F12引脚为例) 1.正极接GPIOF3.3v电压引脚、负极接F12 2.正极接GPIOF3.3v电压引脚、负极接F12 三、问题检查 一、确定引脚接线模式 小灯泡有两级:正极、负极,…

“影响力”经济:抖音为什么更值得商家、达人长期深耕?

文|新熔财经 作者|叶一城 数亿的活跃用户,简单而自然的切入方式,快速、高频的执行效率,让抖音对电商界的冲击无可阻挡。 这背后,流量玩法登峰造极,是很多人的直接观感。 但实际上&#xff0…

快手直播间自动发言评论软件:开发技术分析与核心代码分享

先来看实操成果,↑↑需要的同学可看我名字↖↖↖↖↖,或评论888无偿分享 **一、引言** 随着互联网的飞速发展,网络直播已经成为了人们日常生活的一部分。作为中国最大的短视频平台之一,快手也成为了许多主播和观众的首选。然而&am…

【数值计算方法(黄明游)】函数插值与曲线拟合(二):Newton插值【理论到程序】

​ 文章目录 一、近似表达方式1. 插值(Interpolation)2. 拟合(Fitting)3. 投影(Projection) 二、Lagrange插值1. 拉格朗日插值方法2. Lagrange插值公式a. 线性插值(n1)b. 抛物插值&…

Android Framework 电池提醒相关Dialog熄屏消失的问题

记录一下花了三四天干一天就能完成的需求的傻事。 说在前头,这篇文章记录了电池提醒dialog相关,弹出dialog且熄屏再亮屏dialog不会消失的代码,这篇废话比较多,看正常代码直接跳到代码3。 故事背景 需求要求添加非法电池的弹窗&a…

最强AI之风袭来,你爱了吗?

2017年,柯洁同阿尔法狗人机大战,AlphaGo以3比0大获全胜,一代英才泪洒当场...... 2019年,换脸哥视频“杨幂换朱茵”轰动全网,时至今日AI换脸仍热度只增不减; 2022年,ChatGPT一经发布便轰动全球&a…