系列文章目录
第一章 强化学习入门之基本概念
第二章 强化学习入门之MDP
强化学习入门之MDP
- 系列文章目录
- 前言
- 1. 简介
- 1.1 状态值函数
- 1.2 状态动作值函数
- 1.3 策略
- 2. 最优策略求解
- 2.1 思想
- 2.2 策略评估
- 2.3 策略改进
- 3. 最优值函数求解
前言
我们已经知道使用MDP来对强化学习进行建模,所以这次来学习如何求解MDP
1. 简介
马尔可夫决策过程的形式为<𝑆,𝐴,𝑃,𝑅,𝛾>,求解MDP通常有两种方式,一种是求解最优策略,另一种是求解最优值函数。
求解之前我们需要了解值函数和策略的概念,
- 值函数是为了评估当前状态或状态-动作的期望回报,值函数根据场景分为两种,一种是状态值函数,另一种是状态动作值函数;
- 策略对应着MDP中的P,也就是状态转移函数,根据策略智能体进行状态转移。
1.1 状态值函数
从状态 𝑆 开始, 然后按照策略 𝜋 决策所获得的期望回报。
1.2 状态动作值函数
从状态 𝑆 开始,采取动作 𝐴, 然后按照策略 𝜋 决策所获得的期望回报。
1.3 策略
策略完全决定智能体的行为,MDP策略值依赖于当前状态(无关历史)
2. 最优策略求解
2.1 思想
通过不断地改进策略来寻找最优策略,分为两个步骤,策略评估和策略改进。
2.2 策略评估
对当前的策略进行评估,计算每个状态的值函数(表示在该状态下能够获得的预期累积奖励)。通过迭代计算每个状态的值函数,直到值函数收敛。
2.3 策略改进
在策略改进阶段,根据已经计算得到的值函数,更新策略,以便在每个状态下选择更好的行动。通过比较状态动作值函数,选择每个状态下最好的行动,从而改进策略。
3. 最优值函数求解
在使用策略π 中,状态s的状态价值函数等于在该状态下基于策略π采取所有动作a的概率与相应的价值相乘再求和的结果;
使用策略π 时,状态s 下采取动作a 的价值等于即时奖励加上经过衰减后的所有可能的下一个状态的状态转移概率与相应的价值的乘积 。
将两式联立就可以推导得到的两个价值函数的贝尔曼期望方程,而贝尔曼方程是为了在MDP中计算值函数