强化学习：值迭代和策略迭代

强化学习：值迭代和策略迭代

article2025/1/11 1:28:31/文章来源:https://blog.csdn.net/qq_50086023/article/details/130799817

值迭代

在这里插入图片描述
通过上一章的学习，我们知道了贝尔曼最优方程的求解实际上分两部分，一是给定一个初始值 $v_k$ 找到最优策略 $π_{k+1}$ ，二是更新 $v_{k+1}$

下面，我们将详细剖析这个算法，以及其编程实现。首先，我们来看一下他的第一步：策略更新
在这里插入图片描述
通过给定的 $v_k$ 可以求得每个状态对应的 $q_k$ 再根据概率设计得到最优策略下对应的行为 $a_k^*(s)$

第二步：值更新，同样的，通过给定的 $v_k$ 求得每个状态对应的 $q_k$ 再根据最优策略计算得到 $v_{k+1}$
在这里插入图片描述
通过上面的讲解，我们得到下面的流程过程：

给出上述算法的伪代码，如下：

值迭代：案例

我们以一个例子加深理解。 $r_{边界}=r_{陷阱}=-1，r_{终点}=+1，γ=0.9$

在这里插入图片描述

在这里插入图片描述

当 $k = 0$
在这里插入图片描述

策略迭代

策略迭代分两步：策略评估 $(PE)$ 和策略优化 $(P I)$ 。
在这里插入图片描述

求解 $v_{πk}$ 有两种方法，第一种矩阵求解一般不用，主要是用第二种迭代的方法。
在这里插入图片描述

策略迭代具体步骤如下：
在这里插入图片描述

伪代码如下：
在这里插入图片描述

策略迭代：案例

同样，我们以一个例子加深理解。 $r_{边界}=-1，r_{终点}=+1，γ=0.9$ ，行为有：向左 $a_l$ ，向右 $a_r$ ，原地 $a 0$
在这里插入图片描述

在这里插入图片描述

策略迭代：案例二

在这里插入图片描述

截断策略迭代算法

首先我们来比较一下值迭代与策略迭代的区别：
在这里插入图片描述

在这里插入图片描述
伪代码：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/22982.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

RabbitMQ

RabbitMQ

处理问题服务异步调用两个服务调用时，我们可以通过传统的HTTP方式，让服务A直接去调用服务B的接口，但是这种方式是同步的方式，虽然可以采用SpringBoot提供的Async注解实现异步调用，但是这种方式无法确保请求一定回访…

阅读更多...

从Redisson的RedissonSemaphore引发的信号量实际含义的思考

从Redisson的RedissonSemaphore引发的信号量实际含义的思考

Semaphore到底该如何使用事情的起因是最近在看redisson的源码，刚好看到了RedissonSemaphore的acquire/release实现。 public RFuture<Void> releaseAsync(int permits) {if (permits < 0) {throw new IllegalArgumentException("Permits amount ca…

阅读更多...

ThingsBoard教程（五十）：规则节点解析创建关系节点Create Relation Node，删除关系节点 Delete Relation Node

ThingsBoard教程（五十）：规则节点解析创建关系节点Create Relation Node，删除关系节点 Delete Relation Node

创建关系节点 Create Relation Node Since TB Version 2.2.1 根据类型和方向，从所选实体创建到消息发起方的关系。以下消息发起方类型被允许：资产、设备、实体视图、客户、租、仪表板。通过元数据键模式查找目标实体，然后在源实体和目标实体之间创建关系。如果选择的…

阅读更多...

ASP.NET Core 使用Filter和Redis实现接口防重

ASP.NET Core 使用Filter和Redis实现接口防重

背景日常开发中，经常需要对一些响应不是很快的关键业务接口增加防重功能，即短时间内收到的多个相同的请求，只处理一个，其余不处理，避免产生脏数据。这和幂等性（idempotency）稍微有点区别&am…

阅读更多...

每日一练 | 网络工程师软考真题 Day12

每日一练 | 网络工程师软考真题 Day12

阅读以下说明，答复以下【问题1】至【问题3】【说明】某单位有1个总部和6个分部，各个部门都有自己的局域网。该单位申请了6个C类IP地址202.115.10.0/24~202.115.15.0/24，其中总部与分部4共用一个C类地址。现方案将这些部门用路由器互联&…

阅读更多...

Mit6.006-problemSet03

Mit6.006-problemSet03

3-1 哈希练习（Hash Practice） (a) 按顺序插入整数keys A[47, 61, 36, 52, 56, 33, 92]到尺寸为7的哈希表中，使用哈希函数 h ( k ) ( 10 k 4 ) m o d 7 h(k)(10k4)mod7 h(k)(10k4)mod7。哈希表的每个插槽，存储一个key&#xff…

阅读更多...

字节真的是宇宙尽头吗？

字节真的是宇宙尽头吗？

身边在字节的朋友很多人抱怨很卷，但卷到何种程度?很多人没有直观感受。某乎上一个问题(在字节跳动工作是怎样的?)点赞排名第一的回答生动的解释了字节的卷。租房的舍友在字节工作。舍友主卧，我次卧。合租两个月了，我没见过舍友长什么样。…

阅读更多...

日语文法PPT截图31-45

日语文法PPT截图31-45

31 形式名词とき　ところ作为形式名词的话，一般是要写假名不写汉字的相对时态如果是一般时/将来时とき，就是先做后面的动作，在做前面的动作。出教室的时候，关灯。如果是过去时とき那么，是先做前面的动作&#…

阅读更多...

【dfn序+DP】树

【dfn序+DP】树

把一棵树转化成一个序列有三种方法： dfs序 dfn序（时间戳） 欧拉序关于这三者的区别，参考这篇博客，讲的超级好！ 重谈DFS序、时间戳和欧拉序 - Seaway-Fu - 博客园 (cnblogs.com) 题意： 思路…

阅读更多...

SVN 导出改动差异文件

SVN 导出改动差异文件

文章目录 SVN 导出改动差异文件应用场景/背景介绍具体操作方法 SVN 导出改动差异文件应用场景/背景介绍当然下面的两个场景介绍可能用分支管理都会有不错的效果，或者更优，只是记录一下思路，用什么还是看大家个人爱好啦在开发过程中偶尔会…

阅读更多...

1. Ansible介绍，什么是Ansible?Ansible能用来做什么？

1. Ansible介绍，什么是Ansible?Ansible能用来做什么？

什么是Ansible？Ansible能用来做什么？ 如果您是系统工程师或IT管理员,或者只是在IT部门工作的任何人,您可能会在环境中执行大量重复性任务, 无论是每天调整大小和创建新主机或虚拟机､ 在其上应用配置､ 修补数百台服务器&#xff6…

阅读更多...

不用再找了，你要的国内好用的ChatGPT网站都在这里

不用再找了，你要的国内好用的ChatGPT网站都在这里

💡 大家好，我是可夫小子，关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加：keeepdance，备注：chatgpt，拉你进群。目录 ChatGPT是什么 OpenAI与ChatGPT的发展历程 AI对话聊天 AI文档…

阅读更多...

jdk13至15——文本块特性

jdk13至15——文本块特性

文本块在jdk13中第一次预览，jdk14第二次预览，jdk15正式版； 终于不用在多行字符串中加一堆\n和一堆\"和一堆了； 之前需要这么麻烦： Testvoid test() {String s "testabcd\n" "aaa\n" "…

阅读更多...

AI：Vue2和Vue3的对比

AI：Vue2和Vue3的对比

1. 什么是Vue.js以及Vue.js在前端开发中的重要性。 Vue.js是一个遵循MVVM（Model-View-ViewModel）模式的前端JavaScript框架，它采用了双向数据绑定和组件化的思想，使得前端开发变得更加简洁、高效、可维护。Vue.js由中国工程师尤雨…

阅读更多...

JNDI学习笔记

JNDI学习笔记

最近在研究JNDI注入漏洞，就先浅浅的学习以下JNDI相关知识。 JNDI对各种目录服务的实现进行抽象和统一化。在 Java 应用中除了以常规方式使用名称服务(比如使用 DNS 解析域名)，另一个常见的用法是使用目录服务作为对象存储的系统，即用目录服务…

阅读更多...

领导下发紧急且风险大的任务，如何处理？

领导下发紧急且风险大的任务，如何处理？

在遇到这种无法拒绝，明显很难按时交付的紧急任务时，项目经理处理的关键： 1、降低关键干系人期望值降低关键干系人的期望值，是项目管理非常重要的一门艺术，也是让干系人满意，便于与关系人沟通的关键。在项…

阅读更多...

Centos8安装ffmpeg，使用mediamtx搭建RTSP流媒体服务器

Centos8安装ffmpeg，使用mediamtx搭建RTSP流媒体服务器

文章目录 1、Centos安装ffmpeg2、使用mediamtx搭建媒体服务器 1、Centos安装ffmpeg 1、先安装epel-release yum install epel-release2、安装nux存储库 rpm -v --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro rpm -Uvh http://li.nux.ro/download/nux/dextop/el7/…

阅读更多...

MySQL之触发器相关操作

MySQL之触发器相关操作

1. 概念触发器，就是⼀种特殊的存储过程。触发器和存储过程⼀样是⼀个能够完成特定功能、存储在数据库服务器上的SQL⽚段，但是触发器⽆需调⽤，当对数据表中的数据执⾏DML操作时⾃动触发这个SQL⽚段的执⾏，⽆需⼿动调⽤。在MyS…

阅读更多...

30多家投递石沉大海，总算上岸了

30多家投递石沉大海，总算上岸了

大家好，我是帅地。今年的行情，无论是暑假实习还是春招校招，都比往年要难一些，很多人在三月份要嘛简历石沉大海，要嘛面试一轮游，但也有部分人最后都拿到了不错的 Offer，包括我训练营里&#…

阅读更多...

一款可以自动写代码的编辑器，解放你的双手

一款可以自动写代码的编辑器，解放你的双手

Cursor 是集成了 GPT-4 的 IDE 工具，目前免费并且无需 API Key，支持 Win、Mac、Linux 平台，可以按要求生成代码，或者让 AI 帮助优化代码，分析代码。Cursor目前已经集成了openai的GPT-4，它或将彻底改变我们写…

阅读更多...

最新文章