▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

  • 1、视频 + 学堂在线 习题
  • 2、相应章节 过电子书 [2023.8 版本] 复习
  • 3、总体 MOOC 过一遍

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【github链接】
onedrive链接:
【书】
【课程PPT】

这种颜色表示 是 查看 PDF 电子书 后补充的笔记


如何学习强化学习?
1、原理 [算法背后的原理] 【本课程】
2、实践和编程

为何要了解算法背后的原理?

  • 了解算法的原理是什么?它在做什么样的事情?有什么优势?有什么劣势?创新可以从哪些方面入手?

给目标分配合适的时间

不存在 速成 !!! ——> 充裕的时间,心态平和,稳扎稳打。

数学性强,系统性强。

预计 40 小时 ——> 可阅读论文

目标:不仅能知道 算法的过程,还能理解为什么要设计这个算法,为什么它能有效地工作。

在这里插入图片描述

第 1 章 基本概念

在这里插入图片描述

第 2 章 状态值 和 贝尔曼公式

在这里插入图片描述

状态值: 用于评价一个策略的好坏。
贝尔曼公式:描述了 所有状态 和 状态值 之间的关系。

策略评价:求解贝尔曼公式进而得到一个策略所对应的状态值

——————
状态值: agent 在遵循给定策略的情况下从某个状态出发时所能获得的预期收益。状态值越大,对应的策略越好。

  • 状态值可以用来评估策略是好还是坏。

Bellman 方程描述了所有状态值之间的关系。
通过求解 Bellman 方程,可以得到状态值。这样的过程被称为策略评估

——————

第 3 章 最优策略 [ 贝尔曼最优公式 ]

在这里插入图片描述

强化学习的终极目标: 求解最优策略
最优策略:能获得最大的状态值

第 4 章 值迭代 和 策略迭代

在这里插入图片描述

值迭代、策略迭代、截断策略迭代

  • 前两个是第三个的特例

贝尔曼最优公式 值迭代

有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…

动态规划 需要模型

第 5 章 model-free 的强化学习 算法

在这里插入图片描述

学习 随机变量 的期望值

数据 or 模型

强化学习中的“数据”是 指智能体与环境交互时产生的经验样本。

MC Basic: 策略迭代 中 依赖模型的部分 去掉,替换成依赖数据的

  • 实际不可用,效率很低

——————
要研究 MC 算法 (第 5 章),首先要了解 策略迭代算法(第 4 章)。要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。要了解值迭代算法,首先要了解 Bellman 最优性方程(第 3 章)。要了解 Bellman 最优性方程,首先要了解 Bellman 方程(第 2 章)。因此,强烈建议逐一学习。否则,可能难以理解后面各章的内容。
Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)

在这里插入图片描述

————————

第 6 章 随机逼近 理论

在这里插入图片描述

随机逼近是指解决 寻根 或 优化问题 的一类广泛的随机迭代算法。经典的 Robbins-Monro 算法和 随机梯度下降 算法 是特殊的 随机逼近 算法。

第 7 章 时序差分方法 【增量】

在这里插入图片描述

学习 状态值:用模型来计算(第 4 章)、用蒙特卡洛方法学习(第 5 章),用 TD 方法学习(第 7 章)。

Q-learning: 离线 直接学习最优动作值

两种策略: behavior policy, 生成经验数据的。target policy, 不断改进目标策略

off-policy: behavior policy 和 target policy 可以不同。

  • 可用 之前别的策略所生成的数据。

on-policy: behavior policy 和 target policy 相同。

  • 每次接收到 经验样本时 更新值估计。

TD 算法:求解 Bellman 或 Bellman最优性方程 的随机逼近算法。

model-free、增量。

第 8 章 值函数 近似 [神经网络]

在这里插入图片描述
表格 或 向量 形式的状态值

状态非常多 或 状态连续。 表格效率低下——> 函数 (神经网络)

状态值 估计步骤:
1、明确 目标函数 定义最优策略
2、求 目标函数 梯度
3、用 梯度上升 或 下降 对 目标函数 进行优化

在这里插入图片描述

9 - 10 章 policy-based 方法

value-based VS policy-based
value-based:目标函数 J ( w ) J(w) J(w),w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。不断迭代找到最优的策略。
policy-based:目标函数 J ( θ ) J(\theta) J(θ) θ \theta θ 是 策略的参数, 直接优化 θ \theta θ , 直接改变策略,慢慢找到最优的策略

三步走:
1、找 目标函数
2、目标函数 梯度
3、用梯度上升 或 下降 优化 目标函数

在这里插入图片描述

策略 和 值 交叉迭代

求出值 ——> 更新策略 ——> 求值 ——> 更新策略…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716691.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

原子阿波罗STM32F767程序的控制器改为STM32F407驱动LCD屏

由于手里没有原子大神的F429开发板,又还想学习原子大神的F429开发板程序,前几天,经过更换控制器,成功把原子大神的F429开发板程序用到了F407开发板上,驱动LCD屏显示成功,目的,就是熟悉原子大神的…

记录第一次突发情况

项目场景: 这台云服务器主要是我学习在用,也不是很大,2核2g3M40G硬盘。 在这台服务器上,我主要使用了docker并且把所有的东西,都通过docker安装,比如MySQL,redis, elasticsearch。 …

安装 Nuxt.js 的步骤和注意事项

title: 安装 Nuxt.js 的步骤和注意事项 date: 2024/6/17 updated: 2024/6/17 author: cmdragon excerpt: Nuxt.js在Vue.js基础上提供的服务器端渲染框架优势,包括提高开发效率、代码维护性和应用性能。指南详细说明了从环境准备、Nuxt.js安装配置到进阶部署技巧&…

生成式人工智能备案办理指南,深度解析大模型备案全流程

早在2023年年初,国家互联网信息办公室、工业和信息化部、公安部针对深度合成服务制定的《互联网信息服务深度合成管理规定》(“《深度合成管理规定》”)顺利施行,其明确了深度合成服务相关方的义务与主体责任,强化了对…

RERCS系统开发实战案例-Part06 FPM Application添加列表组件(List UIBB)

在FPM Application中添加搜索结果的List UIBB 1)添加List UIBB 2)提示配置标识不存在,则需要新建配置标识(* 每个组件都必须有对应的配置标识); 3)选择对应的包和请求 4)为List UIB…

一键掌控,4G红外插座引领智能生活新潮流!

随着科技的进步,市场上出现大量带语音、手机APP可控制的智能插座产品,由此可看出客户对产品的功能要求也越来越高,追求舒适的体验感,特别是对操控性的要求越来越高。但是目前大部分红外遥控插座均为WiFi插座类型,WiFi红…

【一步一步了解Java系列】:认识String类

看到这句话的时候证明:此刻你我都在努力 加油陌生人 个人主页:Gu Gu Study专栏:一步一步了解Java 喜欢的一句话: 常常会回顾努力的自己,所以要为自己的努力留下足迹 喜欢的话可以点个赞谢谢了。 作者:小闭…

Java异常和文件

一、异常 1.定义 异常:异常就是代表程序出现的问题 体系结构: 最上层的是 Throwable 类,下面有两个子类: ① Error:代表系统级别的问题(属于严重问题,比如:内存溢出)。…

企业该怎么进行流程管理?

众所周知,流程管理在企业中是一种有效的方法,可以帮助组织优化运营、提高效率并降低成本。 下面是一些步骤,可以帮助大家在企业中实施流程管理: 确定目标:首先,明确企业的目标和愿景。这将帮助您确定需要…

Python画箱线图展示数据分布情况

箱线图(Boxplot)是一种常用的统计图表,用于展示数据的分布情况。 它由五个统计量组成:最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。 …

ffmpeg封装和解封装介绍-(10)综合完成视频重编码为h265,解封装解码编码再封装

主函数逐句解析: 由于代码太多我们只解析主函数,(其他封装函数见前面文章,同时用到了解码编码封装代码)。 初始化和参数处理 int main(int argc, char* argv[]) {/// 输入参数处理string useage "124_test_x…

1.华为路由器-三层交换机-二层交换机组网连接

AR1配置GE 0/0/0接口IP [Huawei]int g0/0/0 [Huawei-GigabitEthernet0/0/0] [Huawei-GigabitEthernet0/0/0]ip add 1.1.1.1 24 [Huawei]iP route-static 192.168.0.0 16 1.1.1.2三层交换机配置如下 创建vlan [Huawei]vlan batch 10 20配置接口ip [Huawei]int g0/0/1 [Huawei…

让AI 赋予人类超强的记忆力

遗忘曲线告诉我们,绝大部分新掌握的知识约在一周后被遗忘,一个月左右基本忘光。「好记性不如一个烂笔头」,借助AI还真能做出这样「烂笔头」。 提升个人的记忆力-个人搜索引擎 个人搜索引擎的想法是一个强大而诱人的想法。如果有一个应用程序可…

你的iPhone安全吗?想要保护个人隐私一定要这么做

在这个数字化时代,个人隐私安全显得尤为重要,尤其是对于那些依赖智能手机处理日常事务的用户而言。作为市场上最受欢迎的智能手机之一,iPhone的安全性备受关注,但即便如此,它也可能成为黑客攻击和非法监控的目标。如何…

慎投!新增1本中科院1区顶刊被“On Hold”

本周投稿推荐 SSCI • 中科院2区,6.0-7.0(录用友好) EI • 各领域沾边均可(2天录用) CNKI • 7天录用-检索(急录友好) SCI&EI • 4区生物医学类,0.5-1.0(录用…

CC1310 LaunchPad开发板底噪测试

测试射频底噪时,主要关注的是在无信号输入时,系统或器件产生的最小噪声功率。这通常涉及到使用频谱分析仪(频谱仪)来测量输出噪声功率谱密度。以下是进行射频底噪测试的几种方法: 使用频谱仪直接测量: 通过…

做LLM推理时,常见的显卡如何选择?

随着开源LLM越来越成熟,业务接入LLM推理也成为必然,如何选模型大小和显卡,主要看下面这些。 一、选GPU显卡 在选择显卡进行大型语言模型推理时,主要要看下面几个指标: 1、 VRAM(视频随机存取存储器&…

Docker部署Nginx下载站点服务

1、下载镜像 由于docker官方镜像站点被封了,所以我把镜像上传到阿里云镜像仓库了 docker pull registry.cn-hangzhou.aliyuncs.com/qinzt-tools/file-nginx:1.18.02、运行容器实例 运行变量解释: 变量名称默认值解释USERhyadmin访问下载站点的认证用…

Typora—适用于 Mac 和 Win 系统的优秀 Markdown 文本编辑器

Typora 是一款适用于 Mac 和 Win 系统的优秀 Markdown 文本编辑器,它以其简洁易用的界面和强大的功能受到了众多用户的喜爱。 首先,Typora 的界面设计非常简洁直观,没有过多繁杂的菜单和按钮,让用户能够专注于写作本身。它采用实时…

C#结合JS 修改解决 KindEditor 弹出层问题

目录 问题现象 原因分析 范例运行环境 解决问题 修改 kindeditor.js C# 服务端更新 小结 问题现象 KindEditor 是一款出色的富文本HTML在线编辑器,关于编辑器的详细介绍可参考我的文章《C# 将 TextBox 绑定为 KindEditor 富文本》,这里我们讲述在…
最新文章