深入理解强化学习——马尔可夫决策过程:占用度量-[基础知识]

分类目录:《深入理解强化学习》总目录


文章《深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[基础知识]》中提到,不同策略的价值函数是不一样的。这是因为对于同一个马尔可夫决策过程,不同策略会访问到的状态的概率分布是不同的。想象一下,在下图的马尔可夫决策过程中现在有一个策略,它的动作执行会使得智能体尽快到达终止状态 s 5 s_5 s5,于是当智能体处于状态 s 3 s_3 s3时,不会采取“前往 s 4 s_4 s4”的动作,而只会以1的概率采取“前往 s 5 s_5 s5”的动作,所以智能体也不会获得在 s 4 s_4 s4状态下采取“前往 s 5 s_5 s5”可以得到的很大的奖励10。可想而知,根据贝尔曼方程,这个策略在状态的概率会比较小,究其原因是因为它没法到达状态。因此我们需要理解不同策略会使智能体访问到不同概率分布的状态这个事实,这会影响到策略的价值函数。
马尔可夫决策过程的一个简单例子

首先我们定义马尔可夫决策过程的初始状态分布为 v 0 ( s ) v_0(s) v0(s),在有些资料中,初始状态分布会被定义进马尔可夫决策过程的组成元素中。我们用 P t π ( s ) P_t^\pi(s) Ptπ(s)表示采取策略 π \pi π使得智能体在时刻 t t t状态为 s s s的概率,所以我们有 P 0 π ( s ) = v 0 ( s ) P_0^\pi(s)=v_0(s) P0π(s)=v0(s),然后就可以定义一个策略的状态访问分布(State Visitation Distribution):
v π ( s ) = ( 1 − γ ) ∑ t = 1 ∞ γ t P t π ( s ) v^\pi(s)=(1-\gamma)\sum_{t=1}^\infty\gamma^tP_t^\pi(s) vπ(s)=(1γ)t=1γtPtπ(s)

其中, 1 − γ 1-\gamma 1γ是用来使得概率加和为1的归一化因子。状态访问概率表示一个策略和马尔可夫决策过程交互会访问到的状态的分布。需要注意的是,理论上在计算该分布时需要交互到无穷步之后,但实际上智能体和马尔可夫决策过程的交互在一个序列中是有限的。不过我们仍然可以用以上公式来表达状态访问概率的思想,状态访问概率有如下性质:
v π ( s ′ ) = ( 1 − γ ) v 0 ( s ′ ) + γ ∫ P ( s ′ ∣ s , a ) π ( a ∣ s ) v π ( s ) d s d a v^\pi(s')=(1-\gamma)v_0(s')+\gamma\int P(s'|s, a)\pi(a|s)v^\pi(s)\text{d}s\text{d}a vπ(s)=(1γ)v0(s)+γP(ss,a)π(as)vπ(s)dsda

此外,我们还可以定义策略的占用度量(Occupancy Measure):
ρ π ( s , a ) = ( 1 − γ ) ∑ t = 1 ∞ γ t P t π ( s ) π ( a ∣ s ) \rho^\pi(s, a)=(1-\gamma)\sum_{t=1}^\infty\gamma^tP_t^\pi(s)\pi(a|s) ρπ(s,a)=(1γ)t=1γtPtπ(s)π(as)

它表示动作状态对 ( s , a ) (s, a) (s,a)被访问到的概率。二者之间存在如下关系:
ρ π ( s , a ) = v π ( s ) π ( a ∣ s ) \rho^\pi(s, a)=v^\pi(s)\pi(a|s) ρπ(s,a)=vπ(s)π(as)

进一步我们可以得出如下两个定理:

  • 定理 1:智能体分别以策略 π 1 \pi_1 π1 π 2 \pi_2 π2和同一个马尔可夫决策过程交互得到的占用度量和满足: ρ π 1 = ρ π 2 ⇔ π 1 = π 2 \rho^{\pi_1}=\rho^{\pi_2}\Leftrightarrow\pi_1=\pi_2 ρπ1=ρπ2π1=π2
  • 定理 2:给定一合法占用度量 ρ \rho ρ,可生成该占用度量的唯一策略是: π ρ = ρ ( s , a ) ∑ a ′ ρ ( s , a ′ ) \pi_\rho=\frac{\rho(s, a)}{\sum_{a'}\rho(s, a')} πρ=aρ(s,a)ρ(s,a)

以上提到的“合法”占用度量是指存在一个策略使智能体与马尔可夫决策过程交互产生的状态动作对被访问到的概率。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/219954.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

园区规划技术要点

(一)技术点介绍 1.WLAN:无线局域网WLAN(Wireless Local Area Network)是一种无线计算机网络,使用无线信道代替有线传输介质连接两个或多个设备形成一个局域网LAN(Local Area Network&#xff09…

【亲测有效,超详细】收到微信小程序限期完成微信认证通知怎么处理?微信小程序年审认证都需要哪些资料?

背景:近期部分微信小程序管理员最近收到了年审认证通知如下图 微信官方通知 微信小程序认证流程 第一步:登录微信公众平台 网址:微信公众平台 第二步:登录进入后会看到年审通知弹窗,点击去年审 第二步:登…

java中Random随机数使用和生成随机数的多个示例

在 Java 中,我们可以使用 java.util.Random 类生成伪随机数。伪随机数的特性是,虽然它们看起来是随机的,但实际上它们是由一个固定的算法生成的。只要我们提供相同的种子,这个算法就会生成相同的数字序列。 首先,我们…

HarmonyOS开发基础(一)

HarmonyOS开发基础(一) // :装饰器:用来装饰类结构、方法、变量 Entry // Entry:标记当前组件为入口组件 Component // Component:标记为自定义组件 // struct:自定义组件,可复用的…

winform使用串口通信读取压力传感装置(CFM)的数据

一、简介 目的:获取CFM的 “hi” 报文,解析出如下数据并绘制波形图。 实现:使用c#打开CFM串口,发送 02 00 02 4C 49 0D 请求到串口,CFM就会不断返回不同类型的报文,我解析的是 “hi” 报文(至…

2477. 到达首都的最少油耗 : 逐步讲解最低油耗求解思路

题目描述 这是 LeetCode 上的 「2477. 到达首都的最少油耗」 ,难度为 「中等」。 Tag : 「DFS」 给你一棵 n 个节点的树(一个无向、连通、无环图),每个节点表示一个城市,编号从 0 到 n - 1,且恰好有 n - 1 …

全网最新最牛的Appium自动化:Appium常用操作之TouchAction操作

TouchAction操作 Appium的辅助类,主要针对手势操作,比如滑动、长按、拖动等。其原理是将一系列的动作放在一个链条中,然后将该链条传递给服务器。服务器接受到该链条后,解析各个动作,逐个执行。 TouchAction类支持的动…

解决:docx.opc.exceptions.PackageNotFoundError: Package not found at ‘xxx’

解决:docx.opc.exceptions.PackageNotFoundError: Package not found at ‘xxx’ 文章目录 解决:docx.opc.exceptions.PackageNotFoundError: Package not found at ‘xxx’背景报错问题报错翻译报错位置代码报错原因解决方法今天的分享就到此结束了 背景…

深度学习TensorFlow2基础知识学习前半部分

目录 测试TensorFlow是否支持GPU: 自动求导: 数据预处理 之 统一数组维度 定义变量和常量 训练模型的时候设备变量的设置 生成随机数据 交叉熵损失CE和均方误差函数MSE 全连接Dense层 维度变换reshape 增加或减小维度 数组合并 广播机制&#…

MYSQL8用户权限配置详解

单位的系统性能问题需要把Mysql5升级到Mysql8,需要用到Mysql8的一些特性来提升系统的性能。 配置用户权限过程中发现一些问题,学习并记录一下。 目录 一、环境 二、MySQL8 用户权限 2.1 账号管理权限 2.1.1 连接数据库 2.1.2 账号权限配置 2.2 密码…

从开发到测试,你需要掌握哪些必备测试技能?

一、为什么从开发转测试 我从2019年5月开始从一名java开发女程序猿正式转为测试开发工程师,原因除了机缘凑巧之外,当然是因为这个行业对测试工程师的要求已经越来越高,简单做些UI脚本录制和回放的自动化,参考度娘写出框架demo却不…

二叉树求叶子节点

以这个图展示叶子节点的求取 项目结构 项目代码截图&#xff1a;使用递归的方式求取二叉树的叶子节点&#xff08;递归指的是函数自己调用自己的过程&#xff09; 具体代码展示 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #includ…

全网最新最全的Appium自动化:Appium常用操作之等待操作

等待机制&#xff1a; 为了保证脚本的稳定性&#xff0c;有时候需要引入等待时间&#xff0c;等待页面加载元素后再进行操作&#xff0c;主要有三种等待时间设置方式。 方式一&#xff1a; sleep()&#xff1a;固定等待时间设置&#xff0c;python的time包里提供了休眠方法sle…

Clion自定义管理和配置软件构建过程的工具(代替CMake)构建程序

在公司由于需要x86环境和其他arm环境&#xff0c;同时需要使用公司自定义的mine_x86或者mine_orin对代码进行编译。 编译命令如下mine_x86 build -Dlocal1 -j8,为使用Clion对程序进行调试&#xff0c;需要对程序进行设置。方便调试代码时能够断点查看变量。尝试了很多次&#…

什么是网络爬虫?有什么用?怎么爬?

嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 【导读】 网络爬虫也叫做网络机器人&#xff0c;可以代替人们自动地在互联网中进行数据信息的采集与整理。 在大数据时代&#xff0c;信息的采集是一项重要的工作&#xff0c;如果单纯靠人力进行信息采集&#xff0c;不仅低…

作业12.5

1.定义一个基类 Animal&#xff0c;其中有一个虛函数perform&#xff08;)&#xff0c;用于在子类中实现不同的表演行为。 #include <iostream>using namespace std; class Animal { private:int weight; public:Animal(){}Animal(int weight):weight(weight){}virtual …

temu最近数据:拼多多旗下跨境电商平台的业绩持续增长

据最近的报道和数据显示&#xff0c;拼多多旗下的跨境电商平台Temu在2023年第三季度取得了显著的业绩增长。销售额突破50亿美元&#xff0c;市场份额不断扩大&#xff0c;用户数量迅速增长。本文将深入探讨Temu的业绩增长、市场份额、用户增长以及其营销策略。 先给大家推荐一款…

批量给文件名加相同后缀的两个方法

如何批量给文件名加相同后缀&#xff1f;文件处理是每个上班族需要面对的工作&#xff0c;并且文件处理能力的高低也体现了我们工作能力的高低&#xff0c;文件处理中就包含文件名称的修改&#xff0c;修改文件名是非常简单的&#xff0c;通过点击软件重命名就可以进行操作&…

应用案例 | 基于三维视觉的汽车零件自动化拧紧解决方案

​Part.1 引言 随着人们生活水平的提高&#xff0c;汽车作为理想的代步工具&#xff0c;逐渐成为人们生活中不可或缺的一部分。汽车的广泛应用&#xff0c;大大增加了汽车制造业的负荷。因此&#xff0c;如何提高生产效率和汽车性能&#xff0c;成为汽车制造业的首要关注话题。…

AI之火是如何燎原的?始于马斯克与佩奇的一场激辩

丨划重点 ①在2015年, 马斯克44岁生日派对上&#xff0c;他与谷歌联合创始人佩奇曾就AI产生严重分歧&#xff0c;甚至终结了十多年的友谊。佩奇认为人类最终将与AI机器融合&#xff0c;将会有许多种智能争夺资源, 马斯克则担心机器可能会毁灭人类。 ②在收购AI创企DeepMind时…