从马尔可夫奖励过程到马尔可夫决策到强化学习【01/2】

一、说明

        关于马尔可夫过程,如何将马尔可夫决策转化成决策依据,这里介绍的基本的思想路径,为读者将来设计和应用决策模型提供理论上的参考。

这是了解强化学习的一系列基础文章的后续文章。如果您有兴趣了解强化学习,请查看此处。

二、马尔可夫过程

        让我们尝试通过一个简单的例子来理解马尔可夫过程。(顺便说一句,我真的希望印度能赢得世界杯!)

        好吧,回到这个例子,假设下表代表了印度板球队在世界杯比赛中的历史表现。

|         | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | 0.6     | 0.1    | 0.3     |
| Losing  | 0.3     | 0.4    | 0.3     |
| Drawing | 0.4     | 0.2    | 0.4     |

        注意:以上表格是转移矩阵,指把当前状态向量输入后,输出预测出可能的结果向量。 

        这里有 3 种可能的状态:(获胜、失败和平局)。现在,让我们想象一下球队目前的状态是“胜利”。使用上表中的转移概率:

  • 赢得下一场比赛的概率 = 0.6
  • 输掉下一场比赛的概率 = 0.1
  • 打平下一场比赛的概率 = 0.3

        如果球队目前处于“获胜”状态,并且我们想要预测两场比赛后的状态,我们可以连续应用这些概率。

        一场比赛后:

  • 获胜概率 = 0.6
  • 失败的概率 = 0.1
  • 打平概率 = 0.3

        两场比赛后:

  • 获胜概率 = (0.6 * 0.6) + (0.1 * 0.3) + (0.3 * 0.4) = 0.36 + 0.03 + 0.12 = 0.51
  • 失败概率 = (0.6 * 0.1) + (0.1 * 0.4) + (0.3 * 0.2) = 0.06 + 0.04 + 0.06 = 0.16
  • 打平概率 = (0.6 * 0.3) + (0.1 * 0.3) + (0.3 * 0.4) = 0.18 + 0.03 + 0.12 = 0.33

        因此,在两场比赛之后,如果球队以“获胜”状态开始,则他们仍有 51% 的机会获胜,16% 的机会输球,33% 的机会平局。

        这个简单的马尔可夫过程示例演示了如何根据板球队的历史表现概率对锦标赛中板球队比赛的潜在结果进行建模,从而帮助根据当前状态预测其未来状态。

        因此,这构成了随机强化学习问题的基础,我们可以使用马尔可夫决策过程对环境进行建模。

三、马尔可夫奖励过程

        现在,我们了解了马尔可夫过程,马尔可夫奖励过程是一个马尔可夫过程,我们可以将奖励与马尔可夫过程的状态转换联系起来,但不涉及决策或行动。马尔可夫奖励过程的关键组成部分是:

状态、转移概率、奖励、折扣因子

        折扣系数 (γ):

  • 代表未来奖励相对于即时奖励的重要性。
  • 有助于在价值评估中权衡未来奖励。

        让我们继续前面的例子来了解这个马尔可夫过程的价值函数。我们假设状态之间转换的奖励是:

|         | Winning | Losing | Drawing |
|---------|---------|--------|---------|
| Winning | +10     | -5     | 0       |
| Losing  | +8      | 0      | +2      |
| Drawing | +5      | -3     | 0       |

        状态的价值函数使用以下公式计算:

        MRP 的价值函数计算

        其中γ 表示折扣因子 ,s' 表示下一个状态,s 表示当前状态。

        上面的方程被称为贝尔曼方程,它可以帮助我们迭代计算每个状态的价值函数,提供马尔可夫奖励过程中从不同状态开始的预期累积奖励的估计。

        马尔可夫决策过程

        马尔可夫决策过程是马尔可夫奖励过程+行动。该流程的主要组成部分是:

{S, A, P, R, γ}

        其中马尔可夫决策过程成分之上的附加成分是与每个状态转换相关的又名动作。

四、马尔可夫决策过程中的策略

        在马尔可夫决策过程(MDP)中,策略规定了代理在不同状态下选择操作的策略或规则。策略定义代理的行为,并通过指定代理在给定状态下应采取的操作来指导决策。

3.1 保单类型

        确定性策略 (π):

  • 确定性策略为每个状态选择特定的操作。
  • 它将每个状态映射到单个操作。
  • 示例:在状态s中,策略可能指定“执行操作a 1​”。

        随机策略 (π):

  • 随机策略提供每个状态的操作的概率分布。
  • 它指定在一个状态中选择每个可能动作的概率。
  • 示例:在状态s中,策略可能指示“以 0.6 的概率采取行动 1​,0.3 的概率采取行动 2​,以0.1的概率采取行动 3​” 

        在州 's' 采取行动 'a' 的政策

        因此,对于给定的策略 (π),计算与状态相关的价值函数的贝尔曼方程可以表示为:

3.2 政策特点

  • 探索与利用:策略在探索(尝试不同的操作来收集信息)和利用(利用已知的操作以获得即时奖励)之间取得平衡。
  • 最优性:最优策略随着时间的推移最大化预期累积奖励。

最优策略 π*

  • 状态价值:根据引导智能体走向更高价值状态(从长远来看会带来更高奖励的状态)的能力来评估策略。

五、马尔可夫决策过程中的政策改进和评估

        让我们考虑一个简单的网格世界场景来说明马尔可夫决策过程 (MDP) 中的策略评估和策略改进。

        想象一个代理在 3x3 网格世界中导航。代理可以向上、向下、向左或向右移动,并且每一步都会收到 -1 的奖励,直到到达最终状态,它会收到 +10 的奖励。

5.1 政策评估

  1. 设置:
  • 考虑代理在网格中随机移动的初始策略。

2.价值迭代方程(策略评估):

  • 价值函数V ( s )估计当前策略下每个状态的预期累积奖励。
  • V ( s )的贝尔曼期望方程为:

V ( s ) = Σ(a) π ( a ∣ s ) Σ( s ′, r) ​p ( s ′, r ∣ s , a )[ r + γ ⋅ V ( s ′)]

在哪里:

  • π ( a ∣ s ) 是根据策略在状态s下采取动作a的概率。
  • p ( s ', r ∣ s , a ) 是在状态 s 中采取动作 a 时,以奖励r转移到状态'的概率。
  • γ是折扣因子。

3、迭代:

  • 迭代所有状态,根据贝尔曼方程更新值估计,直到收敛。

5.2 政策改进

有多种技术和算法可用于马尔可夫决策过程 (MDP) 中强化学习的策略改进。这些方法的重点是增强代理的策略,以随着时间的推移实现更高的累积奖励。

贪心策略改进

  • 方法:选择在每个状态下最大化价值函数的行动。
  • 流程:根据当前价值函数更新策略以支持具有最高估计值的行动。
  • 目标:旨在通过偏向看似最有回报的行动,使政策更具剥削性。

5.3 政策迭代:

  • 方法:政策评估和政策改进步骤交替进行。
  • 流程:迭代评估当前策略并根据评估进行更新。
  • 目标:通过基于价值估计迭代细化策略,努力收敛到最优策略。

5.4 值迭代:

  • 方法:使用贝尔曼最优方程通过迭代更新确定价值函数。
  • 过程:通过重复应用贝尔曼方程直到收敛来计算每个状态的值估计。
  • 目标:专注于获得最优价值函数,以便根据这些估计来改进政策。

        除了这些技术之外,还有基于 Q 的学习、蒙特卡罗策略改进和 Actor-Critic 方法来改进策略,我们将在另一篇文章中讨论这些方法。

六、可观察和部分可观察马尔可夫过程

        可观察马尔可夫决策过程(MDP)是强化学习中的一个场景,其中代理在决策过程中可以完全访问环境的当前状态。简单来说:

  • 代理确切地知道环境中每一时刻发生的事情。
  • 它具有有关当前情况的清晰且完整的信息。
  • 决策仅依赖于当前状态,不需要过去的额外信息。
  • 这种类型的 MDP 是理想化的,代表代理的观察完美反映环境状态的场景,允许基于准确的信息直接做出决策。

        在部分可观察马尔可夫决策过程(POMDP)中,代理缺乏对环境状态的完整和直接访问。相反,它收到的观察结果不明确且不完整,无法完全揭示真实状态。这种不确定性给决策带来了挑战,因为智能体必须根据观察和过去的行动维持对可能状态的信念。

        关键点:

  • 信息不完整:代理缺乏有关环境状态的完整详细信息。
  • 不确定的观察结果:收到的观察结果没有精确地指定状态,从而导致模糊性。
  • 信念空间:代理根据观察到的信息维护可能状态的概率

        在 POMDP 中工作:

  • 信念更新:使用观察和过去的知识不断更新关于可能状态的信念。
  • 政策制定:制定考虑不确定性的策略,以根据对潜在状态的信念做出决策。

        希望到目前为止您已经对马尔可夫过程、价值函数有了基本的了解,并对与马尔可夫过程相关的策略有了直观的了解。

参考资料:

机器学习5:关于期望的深入讨论_对一个概率分布求期望有什么

机器学习系列4:期望到底是个啥?_机器学习中的期望乐观度 

回到未来:使用马尔可夫转移矩阵分析时间序列数据_马尔科夫转移概率矩阵应用案例 

 @souptik.reach.095。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/285606.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式之工厂设计模式【创造者模式】

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

苹果手机录音误删怎么恢复?记住这3个正确操作方法!

苹果语音备忘录被广泛应用于生活、工作和学习等各个方面。通过语音备忘录,我们可以记录重要的会议、对话、音乐或声音。 但如果不小心删除了这些珍贵的录音文件,该怎么办呢?苹果手机录音误删怎么恢复?本文将为你提供三个常用的解…

【计算机毕业设计】SSM汽车维修预约平台

项目介绍 本项目分为前后台,前台为普通用户登录,后台为管理员登录; 管理员角色: 管理员登录,新增管理员信息,查看管理员信息,查询管理员信息,查看用户信息列表,查询用户信息,新增新闻公告,查看新闻公告,查询新闻公告,新增配件类…

分布式系统架构设计之分布式数据存储的安全隐私和性能优化

五、安全性和隐私 在前面分布式系统部分,有对安全性做过介绍,如前面所述,在分布式系统中,确保系统的安全性和隐私是至关重要的。安全性关注系统的防护措施,而隐私是关注用户的个人信息保护。 安全性 身份认证&#…

【后端已完成,前端更新ing】uniapp+springboot实现个人备忘录系统【前后端分离】

目录 (1)项目可行性分析 (一)技术可行性: (二)经济可行性: (三)社会可行性: (2)需求描述 功能模块图 用例图&#…

航芯ACM32G103开发板评测 03 RT-Thread Nano移植 线程管理测试

航芯ACM32G103开发板评测 07 RT-Thread Nano移植 线程管理测试 1. 软硬件平台 ACM32G103 Board开发板MDK-ARM KeilRT-Thread Nano 源码 2. 物联网RTOS—RT-Thread ​ RT-Thread诞生于2006年,是一款以开源、中立、社区化发展起来的物联网操作系统。 RT-Thread主…

我的2023年度总结:从大学生到程序员的转变

在过去的一年里,我从一名大学生转变为一名计算机专业人士,经历了许多实战经历,其中最让我印象深刻的是我参与的一个校园App项目。在这个项目中,我负责后端开发和数据库设计,成功地将App上线并得到了师生的好评。 在技术…

小企业是否应该采用SD-WAN组网?

在当今数字化时代,企业成功的关键之一是建立稳定高效的网络连接。无论企业规模大小如何,网络都是实现高效运营和达成业务目标的重要组成部分。对于小企业而言,考虑成本效益和资源管理显得尤为重要。那么,对于小企业来说&#xff0…

电子书推荐|VMware 替代与升级攻略:技术路线、产品对比与用户实践

在进行 VMware 国产化替代时,您是否会遇到以下问题: 如何实现 VMware 整体架构/部分组件替换?是否可以不仅“为替换而替换”,而是同时实现架构的升级,带来更多业务价值?哪些国产方案具备 VMware 同等能力&…

自动化测试报告生成【Allure】

之前尝试使用过testNG自带的测试报告、优化过reportNG的测试报告,对这两个报告都不能满意。后经查找资料,发现有个神器: Allure(已经有allure2了,笔者使用的就是allure2),生成的测试报告与上述…

便捷开发技巧——在Vscode中使用Git-翻译自Vscode官网

介绍 Want to easily manage your source code and collaborate with others? Git and GitHub are the tools you need! And with Visual Studio Code, you can set up and use them in a snap. Even if you’re a beginner, VS Code’s user-friendly interface guides you …

一些想法:关于行人检测与重识别

本文主要是介绍我们录用于 ECCV18 的一个工作:Person Search via A Mask-guided Two-stream CNN Model. 这篇文章着眼于 Person Search 这个任务,即同时考虑行人检测(Pedestrian Detection)与行人重识别(Person Re-ide…

【ArcGIS微课1000例】0083:地震灾害图件制作之土壤类型分布图

本文基于1:400万矢量土壤图,制作甘肃积石山6.2级地震100km范围内土壤类型分布图。 文章目录 一、土壤分布图预览二、数据集来源及简介三、土壤分布图制作一、土壤分布图预览 二、数据集来源及简介 1. 数据来源 数据集为1:400万中国土壤图,1:400万中国土壤图(2000)由中国科…

骨传导蓝牙耳机什么牌子好用?为你揭晓不踩雷的骨传导耳机排行

喜欢运动的朋友们,你们一定不能错过骨传导耳机!它真的是我们运动时的好帮手。为什么这么说呢?因为它不会像普通耳机那样塞住我们的耳朵,让我们在运动时感觉不舒服,甚至伤害耳朵。而且,它还可以帮助我们听到…

详解动态顺序表

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

ES6之Promise的链式调用

✨ 专栏介绍 在现代Web开发中,JavaScript已经成为了不可或缺的一部分。它不仅可以为网页增加交互性和动态性,还可以在后端开发中使用Node.js构建高效的服务器端应用程序。作为一种灵活且易学的脚本语言,JavaScript具有广泛的应用场景&#x…

老品牌新玩法?经济内循环下逆势开出100多家门店,他被央视青睐!

2023年12月26日,CCTV-2整点财经栏目以“抢抓复苏机遇,连锁品牌主打新活力”为主题,播报我国老品牌发展现状,新消费时代以来,消费者的选择多样化、分众化、小众化、个性化,给“老品牌”发展带来前所未有的挑…

Android Context在四大组件及Application中的表现

文章目录 Android Context在四大组件及Application中的表现Context是什么Context源码Activity流程分析Service流程分析BroadcastReceiver流程分析ContentProvider流程分析Application流程分析 Android Context在四大组件及Application中的表现 Context是什么 Context可以理解…

【代码随想录】刷题笔记Day43

前言 刚过完非常愉快的元旦假期,唔想反工啊啊啊,先刷刷题找回学习的状态吧 416. 分割等和子集 - 力扣(LeetCode) dp[target] target为目标,weight和value相同的01背包问题,用一维遍历dp[j]为容量为j的背…

为什么德国如此重视可持续性有机葡萄酒种植?

可持续性在德国葡萄栽培中越来越重要,它包括对葡萄酒行业的生态、经济和社会问题给予同等的考虑。在过去的几年里,世界范围内出现了许多不同的可持续葡萄酒生产项目。 以可持续发展为导向的酒庄是如何运营的?作为可持续发展整体方法的一部分&…