强化学习——马尔可夫过程的理解

在这里插入图片描述

目录

  • 一、马尔可夫过程
    • 1.随机过程
    • 2.马尔可夫性质
    • 3.马尔可夫过程
    • 4.马尔可夫过程示例
  • 参考文献

一、马尔可夫过程

1.随机过程

  随机过程是概率论的“动态”版本。普通概率论研究的是固定不变的随机现象,而随机过程则专注于那些随时间不断变化的情况,比如天气怎样变化或者城市的交通如何流动。在随机过程中,我们把某一时刻发生的事情视为一组可能结果的集合,并且这些结果随时间不断变化。

  这个过程的特点是,一个时间点的情况往往会受到前一个时间点情况的影响。例如,如果我们知道现在的天气状况,我们就可以预测接下来天气变化的可能性。随机过程就是这样一种工具,帮助我们理解和预测那些随时间变化的复杂情况。

2.马尔可夫性质

  马尔可夫性质是一种特殊的规则,用于描述一些随机过程,例如天气变化或股市波动。这个规则的核心是:在这种过程中,下一步会发生什么,只取决于现在的状态,而和之前发生的事情无关。

  举个例子,如果你在玩一个掷骰子的游戏,那么下一次掷出什么数字只取决于你这一次掷的结果,和之前的掷骰子结果没有关系。这就是马尔可夫性质的一个简单应用。

虽  然看起来像是我们不用管历史,但实际上,现在的状态是由过去的状态一步步演变而来的。所以,通过现在的状态,我们其实间接地获得了历史的信息。这就像是只需要看最新的新闻标题,而不必去读整篇文章,你就能知道发生了什么事。

  这种性质让分析和预测变得更简单,因为你只需要关注现在,就能有理由推测未来会发生什么。马尔可夫性质在科学和工程中非常有用,因为它帮助我们用简洁的方式处理复杂的信息。

3.马尔可夫过程

  马尔可夫过程,又称为马尔可夫链,是一种特殊的随机过程,其核心特性是未来的状态仅由当前的状态决定,而不受之前状态的影响。我们通常用一个包含两个元素的组合 < S , P > <S, P> <S,P> 来描述马尔可夫过程: S S S 是有限的状态集合, P P P 是状态转移矩阵。

  状态集合就是该过程可能达到的所有不同状态。状态转移矩阵则是一个表格,记录了从任一状态转移到另一状态的概率。比如,如果一个过程有 n n n 个状态,此时 S = S= S={ s 1 , s 2 , . . . , s n s_{1},s_{2},...,s_{n} s1,s2,...,sn},状态转移矩阵 P P P 就会是一个 n × n n×n n×n 的表格,表中的每个数字表示从一行的状态转到一列状态的概率,即:

P = [ P ( s 1 ∣ s 1 ) ⋯ P ( s n ∣ s 1 ) ⋮ ⋱ ⋮ P ( s 1 ∣ s n ) ⋯ P ( s n ∣ s n ) ] P=\begin{bmatrix} P(s_{1}|s_{1}) & \cdots & P(s_{n}|s_{1}) \\ \vdots & \ddots & \vdots \\ P(s_{1}|s_{n}) & \cdots & P(s_{n}|s_{n}) \end{bmatrix} P= P(s1s1)P(s1sn)P(sns1)P(snsn)

  矩阵 P P P 中第 i i i 行第 j j j 列元素 P ( s j ∣ s i ) = P ( S t + 1 = s j ∣ S t = s i ) P(s_{j}|s_{i}) =P(S_{t+1}=s_{j}|S_{t}=s_{i}) P(sjsi)=P(St+1=sjSt=si),表示从状态 s i s_{i} si 转移到状态 s j s_{j} sj 的概率。从某个状态出发,到达其他状态的概率和必须为 1,即状态转移矩阵的每一行的和为 1。

  简单来说,马尔可夫过程就像是一个决策地图,指导你如何根据当前位置预测下一步的位置。每一步的决策只依赖于你现在所在的“地点”,而与你之前的路径无关。这种性质使得马尔可夫过程在预测和决策制定中非常有用,尤其是在那些变化快速且需要即时反应的场景中。

4.马尔可夫过程示例

在这里插入图片描述

图1 马尔可夫过程示例

  图1展示了一个包含6个状态的简单马尔可夫过程。图中的每个绿色圆圈代表一个状态,每个状态都可以按照一定的概率(包括零概率)转移到其他状态。特别的,状态 s 6 s_{6} s6 通常被称为终止状态,因为它不再转移到其他状态,而是永远以1.0的概率转移到自己。

  状态之间的转移通过虚线箭头表示,箭头旁边的数字显示了转移发生的概率。对于每个状态,从它出发到其他状态的转移概率之和必须等于1。例如,状态 s 1 s_{1} s1 有90%的概率保持在当前状态,10%的概率转移到另一个特定状态 s 2 s_{2} s2。状态 s 2 s_{2} s2有50%的概率返回先前的状态 s 1 s_{1} s1,有50%的概率前往另一个新状态 s 3 s_{3} s3

  这个马尔可夫过程的状态转移矩阵:

P = [ 0.9 0.1 0 0 0 0 0.5 0 0.5 0 0 0 0 0 0 0.6 0 0.4 0 0 0 0 0.3 0.7 0 0.2 0.3 0.5 0 0 0 0 0 0 0 1 ] P=\begin{bmatrix} 0.9 & 0.1 &0 &0 &0 &0 \\ 0.5 & 0 & 0.5 & 0 & 0 & 0\\ 0 & 0 & 0 & 0.6 & 0 & 0.4\\ 0 & 0 & 0 & 0 & 0.3 & 0.7\\ 0 & 0.2 & 0.3 & 0.5 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 \end{bmatrix} P= 0.90.500000.10000.2000.5000.30000.600.500000.300000.40.701

  给定一个马尔可夫过程后,我们可以从某个特定的初始状态出发,按照状态转移矩阵中规定的概率,逐步生成一个状态序列。这个过程被称为采样。通过采样,我们能够模拟出从一个初始状态开始,状态如何随机地转移和变化,形成一系列连续事件,这有助于我们理解和预测该马尔可夫过程的行为特征。例如,从 s 1 s_{1} s1 出发,可以生成序列 s 1 → s 2 → s 3 → s 6 s_{1} \to s_{2} \to s_{3} \to s_{6} s1s2s3s6 或序列 s 1 → s 1 → s 2 → s 3 → s 4 → s 5 → s 3 → s 6 s_{1} \to s_{1} \to s_{2} \to s_{3} \to s_{4} \to s_{5} \to s_{3} \to s_{6} s1s1s2s3s4s5s3s6

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/622025.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第五百零三回

文章目录 1. 概念介绍2. 使用方法2.1 普通路由2.2 命名路由 3. 示例代码4. 内容总结 我们在上一章回中介绍了"使用get显示Dialog"相关的内容&#xff0c;本章回中将介绍使用get进行路由管理.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章…

Github上5个实用的ChatGPT仓库

ChatGPT是一款基于聊天场景的大模型AI&#xff0c;最近火出圈。 Chat表示聊天&#xff0c;GPT表示大模型算法&#xff0c;它通过生成式的人机对话功能&#xff0c;让使用者第一次有了AI机器人‘懂我‘的感觉&#xff0c;而不是Siri、小爱那种傻瓜式的语音服务。 ChatGPT不仅仅…

M 有效算法

M 有效算法 本题考验二分知识&#xff0c;思路是二分k的取值&#xff0c;就按第一组样例来说当我们k取值为1的时候我们遍历数组想让|8-x|<k1的话x的取值范围是7-9&#xff0c;想让|3-x|<k2的话x的取值范围是1-5&#xff0c;两者x的区间不重合&#xff0c;说明肯定没有x能…

C/C++实现汉诺塔游戏和详细解

C/C实现汉诺塔游戏和详细解析 需要详细代码可联系QQ&#xff1a;3324729792 引言 汉诺塔问题是一个经典的递归问题&#xff0c;起源于一个传说中的印度寺庙。在这个问题中&#xff0c;我们需要将所有的圆盘从一个柱子移动到另一个柱子上&#xff0c;且在移动过程中&#xff…

2024审计师报名流程图解❗报名时间汇总❗

2024年审计专业技术资格考试报名正在进行中 &#x1f50d;审计报名流程 一、考生注册 打开浏览器登录中国人事考试网进行【考生注册】&#xff0c;按照提示认真填写个人注册信息&#xff0c;确保个人信息真实、完整、准确&#xff0c;并上传已处理好的照片。 二、考生报名 1⃣考…

Python中进程类Process的方法与属性的使用示例

一、示例代码&#xff1a; from multiprocessing import Process import time import osdef child_1(interval):print(子进程&#xff08;%s&#xff09;开始执行&#xff0c;父进程为&#xff08;%s&#xff09; % (os.getpid(), os.getppid()))t_start time.time()time.sle…

常用的30个linux命令总结

1、常用30个命令总结 2、具体参数用法参考网站&#xff1a; Linux命令大全(手册) – 真正好用的Linux命令在线查询网站

鸿蒙开发接口Ability框架:【AbilityMonitor】

AbilityMonitor AbilityMonitor模块提供匹配满足指定条件的受监视能力对象的方法的能力&#xff0c;最近匹配的能力对象将保存在AbilityMonitor对象中。 说明&#xff1a; 本模块首批接口从API version 9 开始支持。后续版本的新增接口&#xff0c;采用上角标单独标记接口的起…

彩虹易支付用户中心美化主题 模版源码

简介&#xff1a; 彩虹易支付用户中心美化主题 模版源码 使用本主题前请备份官方版本文件再进行解压到user目录替换&#xff01; 点击下载

材料物理 笔记-8

原内容请参考哈尔滨工业大学何飞教授&#xff1a;https://www.bilibili.com/video/BV18b4y1Y7wd/?p12&spm_id_frompageDriver&vd_source61654d4a6e8d7941436149dd99026962 或《材料物理性能及其在材料研究中的应用》&#xff08;哈尔滨工业大学出版社&#xff09; ——…

绘制一个单级放大电路原理图过程,保姆级教程

新手在学习pads的使用最好最快的方法就是实际上手去画原理图&#xff0c;画PCB图&#xff0c;在这个过程中&#xff0c;就能够更快速得掌握PADS软件的使用。 本篇就是对于实际画原理图过程的一个记录&#xff0c;手把手教学&#xff0c;如果有纰漏或者有更好的一些技巧&#xf…

Spring Cloud 概述及项目创建

本篇主要介绍什么是Spring Cloud&#xff0c;以及Spring Cloud工程的创建 目录 一、什么是微服务&#xff1f; 集群 分布式 微服务 二、Spring Cloud 什么是Spring Cloud Spring Cloud 版本 Spring Cloud实现方案 Spring Cloud 工程创建 创建父工程 创建子工程 一、…

K8S安装并搭建集群

1. 先给每台机器安装docker环境 卸载旧的docker yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine 配置docker的yum库 yum install -y yum-utilsyum-config-manager --a…

[蓝桥杯]真题讲解:数三角(枚举+STL)

[蓝桥杯]真题讲解&#xff1a;数三角&#xff08;枚举STL&#xff09; 一、视频讲解二、正解代码1、C2、python33、Java 一、视频讲解 [蓝桥杯]真题讲解&#xff1a;数三角&#xff08;枚举STL&#xff09; 二、正解代码 1、C #include<bits/stdc.h> #define int long…

第十五篇:全面防护:构建不容侵犯的数据库安全策略与实战指南

全面防护&#xff1a;构建不容侵犯的数据库安全策略与实战指南 1. 引言&#xff1a;数据库安全的现代战略 1.1 简介&#xff1a;数据库安全在当今的数字化时代中的重要性 在数字化的浪潮中&#xff0c;数据已成为企业乃至国家的核心资产&#xff0c;其价值不亚于实体世界的黄…

六、Redis五种常用数据结构-zset

zset是Redis的有序集合数据类型&#xff0c;但是其和set一样是不能重复的。但是相比于set其又是有序的。set的每个数据都有一个double类型的分数&#xff0c;zset正是根据这个分数来进行数据间的排序从小到大。有序集合中的元素是唯一的&#xff0c;但是分数(score)是可以重复的…

掌握JavaScript,轻松实现自动化测试!

随着软件开发的不断发展&#xff0c;自动化测试在保证软件质量和提高开发效率方面扮演着越来越重要的角色。而在自动化测试过程中&#xff0c;JavaScript作为一种强大的脚本语言&#xff0c;为我们提供了丰富的工具和功能。本文将介绍在自动化测试中&#xff0c;掌握JavaScript…

[GXYCTF 2019]Ping Ping Ping(内联执行)、[鹤城杯 2021]EasyP ($_SERVER)

目录 [GXYCTF 2019]Ping Ping Ping 内联执行 [鹤城杯 2021]EasyP [PHP_SELF]、$_SERVER[SCRIPT_NAME] 与 $_SERVER[REQUEST_URI] RCE命令注入可参考&#xff1a; RCE漏洞及其绕过——[SWPUCTF 2021 新生赛]easyrce、caidao、babyrce-CSDN博客 [GXYCTF 2019]Ping Ping Pin…

在excel的内置瀑布图模板中,能在数据标签里同时显示数值和百分比吗?

瀑布图是由麦肯锡顾问公司所创的图表类型&#xff0c;因为形似瀑布流水而称之为瀑布图( Waterfall Plot)。这种图表常用于表达数个特定数值之间的数量增减变化关系。 在Excel中&#xff0c;瀑布图是可以通过簇状柱形图来完成创建。从excel2016版起&#xff0c;excel添加了内置…

Linux-磁盘管理类实训

一、Linux分区和磁盘操作命令 &#xff08;1&#xff09;将系统内所有的分区&#xff08;文件系统&#xff09;列出来&#xff09; &#xff08;2&#xff09;将系统中所有特殊文件格式及名称都列出来 &#xff08;3&#xff09;将/bin下面的可以用的磁盘容量以易读的容量格式…