强化学习的动态规划

一、动态规划

        动态规划(DP)一词指的是一系列算法,这些算法可用于在给定环境的完美模型作为马尔可夫决策过程(MDP)的情况下计算最优策略。经典的DP算法在强化学习中具有有限的实用性,既因为其对完美模型的假设,也因为其巨大的计算费用,但它们在理论上仍然很重要。DP为理解其余部分所介绍的方法提供了必不可少的理论基础。事实上,所有这些方法都可以被视为尝试实现与DP相同的效果,只是计算量更少,并且不假设环境的完美模型。

        我们通常假设环境是一个有限MDP。也就是说,我们假设其状态、动作和奖励集S、A(s)和R对于s∈S是有限的,其动态由概率p(s0,r|s,a)给出,对于所有s∈S,a∈A(s),r∈R和s0∈S+(S+是S加上一个终态,如果问题是离散的)。尽管DP思想可以应用于具有连续状态和动作空间的问题,但只有在特殊情况下才能获得精确解。对于具有连续状态和动作的任务获得近似解的常见方法是量化状态和动作空间,然后应用有限状态DP方法。后续介绍的方法适用于连续问题,并且是该方法的重要扩展。

        动态规划(DP)以及强化学习(RL)的核心思想是使用价值函数来组织和构建寻找最佳策略的过程。我们将介绍如何使用DP计算价值函数。正如之前所讨论的,一旦我们找到了最优的价值函数v或q,它们满足Bellman最优方程,我们就可以轻松地获得最优策略。

或者

        对于所有s∈S,a∈A(s)和s0∈S+,正如我们将看到的,DP算法是通过将Bellman等式转化为赋值来获得的,即将这些等式转化为更新规则,以改进所需价值函数的近似值。

二、策略评估

        首先,我们来考虑如何计算任意策略π的状态值函数vπ。这在DP文献中被称为政策评估,也称为预测问题。我们可以得知,对于所有s∈S,

        其中π(a|s)是在策略π下在状态s采取行动a的概率,并且期望值以π为下标,表示它们是条件于π被遵循。只要γ<1或从策略π下的所有状态保证最终终止,vπ的存在和唯一性就得到保证。

        如果环境动态是完全已知的,那么上式就是|S|个同时线性方程的体系,需要解的是未知数(vπ(s), s∈S) |S|个。在原则上,它的解决方案虽然繁琐但却是直接的。对于我们的目的来说,迭代解法是最适合的。考虑一个近似值函数v0,v1,v2,...的序列,每个映射S+到R。初始近似值v0是任意选取的(除了终态,如果有的话,必须赋予值为0),每个连续的近似值都是通过使用作为更新规则的Bellman方程vπ来获得的:

        对于所有的s∈S。很明显,vk=vπ是这个更新规则的固定点,因为vπ的Bellman方程可以确保在这种情况下相等。事实上,序列{vk}在一般情况下可以证明当k→∞时收敛于vπ,这符合确保vπ存在的相同条件。这个算法被称为迭代政策评估。

        为了从vk产生下一个近似值vk+1,迭代政策评估对每个状态s应用相同的操作:它将旧的状态s的值替换为从s的后继状态获得的新的值,以及在正在评估的政策下所有一步转移可能性的预期即时奖励。我们称这种操作为完全备份。每次迭代迭代政策评估都会备份每个状态的值一次,以产生新的近似值函数vk+1。根据被备份的对象是状态(如本例)还是状态-动作对,以及后继状态的估计值的组合方式不同,完全备份有几种不同的类型。所有在DP算法中进行的备份都称为完全备份,因为它们都是基于所有可能的后继状态,而不是基于样本后继状态。

三、实现的流程

        要编写一个顺序计算机程序来实现迭代政策评估,如上式中所示,您需要使用两个数组,一个用于旧值vk(s),一个用于新值vk+1(s)。这样,可以从旧值逐个计算新值,而不会更改旧值。当然,使用一个数组并在原地更新值更容易,也就是说,每个新的备份值立即覆盖旧值。然后,根据状态被备份的顺序,有时上式右侧会使用新值而不是旧值。这个稍微不同的算法也会收敛到vπ;事实上,正如您所料,由于它使用新数据,通常比两个数组版本收敛得更快。我们认为备份是通过扫过状态空间来完成的。对于原地算法,在扫过过程中状态被备份的顺序对收敛速率有重要影响。当我们想到DP算法时,我们通常想到的是原地版本。

        另一个实现问题涉及算法的终止。在形式上,迭代政策评估只在极限情况下收敛,但在实践中必须在达到极限之前停止。迭代政策评估的典型停止条件是在每次扫视后测试量 maxs∈S |vk+1(s) vk(s)| ,当它足够小时停止。图1给出了具有此停止标准的迭代政策评估的完整算法。

图1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/114228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

开源播放器GSYVideoPlayer的简单介绍及播放rtsp流的优化

开源播放器GSYVideoPlayer的简单介绍及播放rtsp流的优化 前言一、GSYVideoPlayer&#x1f525;&#x1f525;&#x1f525;是什么&#xff1f;二、简单使用1.First、在project下的build.gradle添加2.按需导入3. 常用代码 rtsp流的优化大功告成 总结 前言 本文介绍&#xff0c;…

Uni-App 快捷登录

uniapp 实现一键登录前置条件: 开通uniCloud, 开通一键登录功能参考的文档 : 官网 - 一键登录uniapp指南 : https://uniapp.dcloud.net.cn/univerify.html#%E6%A6%82%E8%BF%B0 官网 - 一键登录开通指南 : https://ask.dcloud.net.cn/article/37965 官网 - unicloud使用指南 htt…

Greenplum管理和监控工具-gpcc-web介绍

Greenplum管理和监控工具-gpcc-web介绍 1. gpcc-web简介 ​ gpcc&#xff08;Greenplum Command Center&#xff09;的Web用户界面是一个强大的工具&#xff0c;它可以帮助用户管理Greenplum数据库集群&#xff0c;提高效率&#xff0c;优化性能&#xff0c;并确保数据的安全…

应用场景由点及面,大模型在银行业落地的方法|案例研究

自2022年11月面世以来&#xff0c;ChatGPT已经吸引了全球范围内的广泛关注。其底层技术大模型&#xff0c;也获得了银行业自上而下所有人员前所未有的关注度。 01 相较于传统AI小模型&#xff0c;大模型具有以下三大核心优势&#xff1a;效率提升&#xff0c;个性化输出和交互…

二维码智慧门牌管理系统升级解决方案:让门牌安装任务更加智能化

文章目录 前言一、任务地图和任务领取二、贴牌作业和提交作业三、优势与效益四、自媒体平台的吸引力 前言 随着科技的不断发展&#xff0c;智能化管理在各个领域的应用越来越广泛。在门牌安装领域&#xff0c;二维码智慧门牌管理系统已经成为了一种新的升级解决方案&#xff0…

什么样的耳机适合跑步?适合跑步佩戴的无线耳机推荐

​无论是在烈日炎炎的夏天&#xff0c;还是在寒风刺骨的冬天里健身运动&#xff0c;只要打开音乐就能沉浸其中。运动耳机不仅佩戴稳固舒适&#xff0c;还能提供高品质音质表现。无论在哪里&#xff0c;无论何时&#xff0c;只要打开音乐&#xff0c;你就可以找到你的节奏&#…

日本移动支付Merpay QA团队的自动化现状

Merpay是日本最大的网购平台之一Mercari的无现金支付系统。Merpay 的主要功能是让用户在 Mercari的网站上购物&#xff0c;也可以在日本的许多实体店和餐厅使用它&#xff0c;也可以理解为日本的“支付宝”。以下为Merpay QA 团队在自动化方面的一些思考&#xff1a; 这几年&am…

AI、万圣节与聊斋;用AI写甜蜜恋爱小暖文;AGI新趋势与机会洞察;Meta官方Llama 2入门指南 | ShowMeAI日报

&#x1f440;日报&周刊合集 | &#x1f3a1;生产力工具与行业应用大全 | &#x1f9e1; 点赞关注评论拜托啦&#xff01; &#x1f440; 时代杂志评选2023年度最佳发明&#xff0c;AI赛道入选名单 https://time.com/collection/best-inventions-2023 10 月 24 日&#xff…

【排序算法】 计数排序(非比较排序)详解!了解哈希思想!

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; 算法—排序篇 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言&#x1f324;️计数排序的概念☁️什么是计数排序&#xff1f;☁️计数排序思想⭐绝对…

安全第一!速卖通测评补单稳定的系统注意事项大盘点

对新卖家而言&#xff0c;测评并非可耻之事&#xff0c;反而是无法起步、耗费自身时间才是真正的可耻。由于速卖通新店几乎无法获得任何活动的支持&#xff0c;流量也基本没有&#xff0c;因此要在90天内达成60单的业绩对于许多卖家来说都是一项挑战。因此&#xff0c;通过快速…

将一个Series序列转化为数据框Dataframe格式Series.to_frame()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将一个Series序列 转化为Dataframe格式 Series.to_frame() [太阳]选择题 关于以下代码的说法中正确的是? import pandas as pd s pd.Series([1,2],name"myValue") print("【显…

了解数据库设计,轻轻松松提高工作效率

每个应用程序&#xff0c;无论大小&#xff0c;最终都需要一个数据库来持久保存所有重要数据。对此没有任何争论&#xff01; 什么是数据库设计&#xff1f; 数据库设计是帮助创建、实施和维护企业数据管理系统的一系列步骤的集合。设计数据库的主要目的是为所建议的数据库系统…

单元测试,集成测试,系统测试的区别是什么?

实际的测试工作当中&#xff0c;我们会从不同的角度对软件测试的活动进行分类&#xff0c;题主说的“单元测试&#xff0c;集成测试&#xff0c;系统测试”&#xff0c;是按照开发阶段进行测试活动的划分。这种划分完整的分类&#xff0c;其实是分为四种“单元测试&#xff0c;…

锐捷RG-EW1200G登录绕过漏洞复现

文章目录 锐捷RG-EW1200G登录绕过漏洞复现0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.复现 0x06 修复建议 锐捷RG-EW1200G登录绕过漏洞复现 0x01 前言 免责声明&#xff1a;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、…

vue-admin-template 安装遇到的问题

vue-element-admin 是一个后台前端解决方案&#xff0c;它基于 vue 和 element-ui实现。 参考文档&#xff1a; 官网&#xff1a; https://panjiachen.github.io/vue-element-admin-site/zh/guide/#%E5%8A%9F%E8%83%BD遇到的问题&#xff1a; npm ERR! Error while executing…

基于JAVA+SpringBoot+Vue的前后端分离的大学生创新作品审核平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 随着大学教育的发展&a…

我的1024创作纪念日

文章底部有个人公众号&#xff1a;热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享&#xff1f; 踩过的坑没必要让别人在再踩&#xff0c;自己复盘也能加深记忆。利己利人、所谓双赢。 机缘 起初我并没有写博客这个习惯&#xff…

Ubuntu20.04安装CUDA、cuDNN、tensorflow2可行流程(症状:tensorflow2在RTX3090上运行卡住)

最近发现我之前在2080ti上运行好好的代码&#xff0c;结果在3090上运行会卡住很久&#xff0c;而且模型预测结果完全乱掉&#xff0c;于是被迫研究了一天怎么在Ubuntu20.04安装CUDA、cuDNN、tensorflow2。 1.安装CUDA&#xff08;包括CUDA驱动和CUDA toolkit&#xff0c;注意此…

CN考研真题知识点二轮归纳(2)

持续更新&#xff0c;上期目录&#xff1a; CN考研真题知识点二轮归纳&#xff08;1&#xff09;https://blog.csdn.net/jsl123x/article/details/134095044?spm1001.2014.3001.5501 1.DCHP 动态主机配置协议&#xff0c;常用于给主机动态分配IP地址&#xff0c;它提供即插即…

为什么边缘计算是能源行业缺失的一环

关键要点 展望未来&#xff0c;边缘计算将使能源部门能够更好地应对不断增长的能源需求的挑战&#xff0c;提高资源利用率&#xff0c;并实现更可持续的能源生态系统。 能源行业正在经历重大变革&#xff0c;因为它面临着许多挑战&#xff0c;例如整合可再生能源、电力需求激增…