▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍

1、视频 + 学堂在线习题
2、相应章节过电子书 [2023.8 版本] 复习
3、总体 MOOC 过一遍

学堂在线课程页面链接
中国大学MOOC 课程页面链接
B 站视频链接

PPT和书籍下载网址：【github链接】
onedrive链接：
【书】
【课程PPT】

这种颜色表示是查看 PDF 电子书后补充的笔记

如何学习强化学习？
1、原理 [算法背后的原理] 【本课程】
2、实践和编程

为何要了解算法背后的原理？

了解算法的原理是什么？它在做什么样的事情？有什么优势？有什么劣势？创新可以从哪些方面入手？

给目标分配合适的时间

不存在速成！！！ ——> 充裕的时间，心态平和，稳扎稳打。

数学性强，系统性强。

预计 40 小时 ——> 可阅读论文

目标：不仅能知道 算法的过程，还能理解为什么要设计这个算法，为什么它能有效地工作。

在这里插入图片描述

第 1 章基本概念

在这里插入图片描述

第 2 章状态值和贝尔曼公式

在这里插入图片描述

状态值：用于评价一个策略的好坏。
贝尔曼公式：描述了所有状态和状态值之间的关系。

策略评价：求解贝尔曼公式进而得到一个策略所对应的状态值

——————
状态值： agent 在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大，对应的策略越好。

状态值可以用来评估策略是好还是坏。

Bellman 方程描述了所有状态值之间的关系。
通过求解 Bellman 方程，可以得到状态值。这样的过程被称为策略评估。

——————

第 3 章最优策略 [ 贝尔曼最优公式 ]

在这里插入图片描述

强化学习的终极目标：求解最优策略
最优策略：能获得最大的状态值

第 4 章值迭代和策略迭代

在这里插入图片描述

值迭代、策略迭代、截断策略迭代

前两个是第三个的特例

贝尔曼最优公式值迭代

有一个不太好的策略——> 估计策略的值【策略评价】，根据值改进策略——> 估计新的策略的值 , 改进策略——>…

动态规划需要模型

第 5 章 model-free 的强化学习算法

在这里插入图片描述

学习随机变量的期望值

数据 or 模型

强化学习中的“数据”是指智能体与环境交互时产生的经验样本。

MC Basic: 策略迭代中依赖模型的部分去掉，替换成依赖数据的

实际不可用，效率很低

——————
要研究 MC 算法 (第 5 章)，首先要了解策略迭代算法(第 4 章)。要研究策略迭代算法，首先要了解值迭代算法(第 4 章)。要了解值迭代算法，首先要了解 Bellman 最优性方程(第 3 章)。要了解 Bellman 最优性方程，首先要了解 Bellman 方程(第 2 章)。因此，强烈建议逐一学习。否则，可能难以理解后面各章的内容。
Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代算法(第 4 章) ——> MC 算法 (第 5 章)

在这里插入图片描述

————————

第 6 章随机逼近理论

在这里插入图片描述

随机逼近是指解决寻根或优化问题的一类广泛的随机迭代算法。经典的 Robbins-Monro 算法和随机梯度下降算法是特殊的随机逼近算法。

第 7 章时序差分方法【增量】

在这里插入图片描述

学习状态值：用模型来计算(第 4 章)、用蒙特卡洛方法学习(第 5 章)，用 TD 方法学习(第 7 章)。

Q-learning：离线直接学习最优动作值

两种策略： behavior policy, 生成经验数据的。target policy, 不断改进目标策略

off-policy: behavior policy 和 target policy 可以不同。

可用之前别的策略所生成的数据。

on-policy: behavior policy 和 target policy 相同。

每次接收到经验样本时更新值估计。

TD 算法：求解 Bellman 或 Bellman最优性方程的随机逼近算法。

model-free、增量。

第 8 章值函数近似 [神经网络]

在这里插入图片描述
表格或向量形式的状态值

状态非常多或状态连续。表格效率低下——> 函数 (神经网络)

状态值估计步骤：
1、明确目标函数定义最优策略
2、求目标函数梯度
3、用梯度上升或下降对目标函数进行优化

在这里插入图片描述

9 - 10 章 policy-based 方法

value-based VS policy-based
value-based：目标函数 $J (w)$ ，w 是值函数的参数，更新值函数的参数使得这个值函数能够很好地近似或者估计出来一个策略所对应的值，在此基础上再更新策略，得到新的策略，然后再估计它的值。不断迭代找到最优的策略。
policy-based：目标函数 $J(\theta)$ ， $\theta$ 是策略的参数，直接优化 $\theta$ ，直接改变策略，慢慢找到最优的策略