[强化学习]学习路线和关键词拾零

强化学习学习方法和路线

学习路线

先从基础教材开始,构建RL的知识框架,熟悉关键名词和公式推导,扩展到Model-Free的Value-Based和Policy-Based方法,同时参考github的代码练习。接下来精读几篇经典论文,如DQN,PPO等。然后泛读论文,如摘要和总结,选择感兴趣的领域,如Model-Based,HRL等。整理自己的论文阅读列表和总结。同时还可以参考网上的视频资源,如周博磊,李宏毅等。然后找到最新的研究进展,复现并创新。同时关注每年顶会Paper.

学习路线

基础算法:Sutton《强化学习》,Q Learning,DQN,PG,AC,DDPG,TRPO,PPO,TD3
Model-Based:AVP,AlphaGO,Dreamer
HRL:Options,UVFA,VIMIM,HER,DIAYN,DADS
Distributed:A3C,Ape-X,NGU,Agent57RL相关顶会:ICLR,ICML,NeuIPS等

概述

强化学习的想法主要来自于人们对学习本质的思考:人类是通过与环境交互来学习的。所以强化学习做了如下假设,一个理性的智能体(Agent),可以通过动作(action)与环境(Environment)互动,环境的变化使得智能体进入到新的状态(state),从环境中获得回报(Rewrad),根据回报累积的反馈,来优化自己的行动策略(Policy)。
在这里插入图片描述

目录页,讲一下一共分了几部分:
我来讲前两部分,韬哥讲后三部分
发展历史和理论基础.

第一部分 发展历史
P4:

  1. 介绍一下 深度学习的三个范式,
  2. 介绍下其工作原理:
    人类是通过与环境交互来学习的,所以RL是
    一个智能体(人),通过动作作用于环境,同时从环境中获得反馈(这个反馈就是回报Reward),并且更新自己的状态(其实我对状态一直理解不到位,我的认识是,自己做完上一个动作后的现状).根据回报的积累,来优化自己的策略(Policy)
    强化学习的目标就是获取最优的Policy
    这个范范的解释很干,后面会有一个例子说明.
    P5. 思想形成的三来源
    01 带过去,
    02 时序差分学习,
    时序差分学习(Temporal Difference Learning,简称TD Learning)是一种基于反馈的强化学习方法,TD Learning通过不断地从实际环境中尝试并获得即时奖励来进行学习。

在TD Learning中,智能体会根据当前状态及采取的行动所获得的即时奖励值,更新对该状态下价值函数的估计值。具体而言,时序差分学习将当前估计值和下一个状态的真实奖励加上折扣因子相结合,以此更新当前状态的估计值。这样的做法可以让智能体逐步探索最优策略,同时也可以将之前的经验融入到新的学习中。

时序差分学习算法既可以用于解决无模型问题(Model-Free),又可以用于解决有模型问题(Model-Based)。在无模型问题中,TD Learning通常使用Q−Learning等算法求解动作价值函数;在有模型问题中,TD Learning通常使用动态规划等算法求解状态价值函数或动作价值函数。由于TD Learning算法简单易用、收敛速度快且对数据量大小不敏感,因此在许多应用领域中都得到了广泛的应用。

03 最优控制问题
在MDP 马尔科夫决策过程引入的动态规划DP,使得马尔科夫决策成为强化学习的普遍形式.
在这里插入图片描述

p6页现代强化学习的形成
价值函数。 Q-Learning,是动作的价值.
名词解释:
Q−Learning 值函数的无模型强化学习算法,
智能体根据当前状态采取某个动作所获得的即时奖励及下一个状态的价值估计值,更新该状态下的动作价值函数。—也就带到后后面的贝尔曼方程(Bellman Equation)
在这里插入图片描述
其中,
在这里插入图片描述

通过不断更新动作价值函数,Q-Learning可以寻找最优策略并在环境中进行探索。虽然Q-Learning算法相对简单易用,但其存在收敛慢、容易陷入局部最优等缺点,因此在实际应用中需要根据具体问题选择合适的算法。

P07 照着念
chatGPT是一个生成式网络.
用到了强化学习的一个模块HFRL模块,用来给输出结果评分用的,让训练变得合理.
(Hugging Face Reinforcement Learning)模块是基于 Hugging Face 提供的 Transformers 框架和 OpenAI Gym 环境构建的强化学习框架,旨在提供一个简单易用的接口,使得用户可以方便地使用 Transformer 模型来解决各种强化学习问题。
重点介绍一下 ALphaGo 和ChatGpt

第二部分基础理论
p09 马尔科夫决策过程

在这里插入图片描述

第二张第一页儿马尔科夫那一页儿有俩图儿,左面儿那个是一个状态转移矩阵,然后它的就是基于下面儿那个易拉罐儿回收那个机器人儿那个例子,总结出这个表格儿。然后右面儿那个图儿是它的那个,用把把它表示成图儿的方法儿画出来了,其实它俩是一个东西,然后这个你到时候儿,你意思就是它从某一个状态转移到某一个下一个状态,它的概率是多少?比如说是α或杯β,它就是那个表儿,然后它通过这个表儿,它就可以用动态规划的方法儿去算一下,它用用一个什么策略,能让这个就是机器人儿一直能获得最高的收益,就是它收益就是那个R。是和而为的,反正反正就**尽量不不获得那个负三那个收益就是没电了。

P10 照着念

在这里插入图片描述
他这个收益和回报是俩不同的词,收益就是计时的返那个就是那个奖励值,他是re包儿的那个词,然后回报呢,是把他那个收益走,就是执行了一串动一串的动作,收到了得到一堆收益。完了,把他们按那个就是这个公式加起来,那个总和叫回报,那回报的英文就是return。

P11 评估指标
评估指标儿,π sita s, s是状态输入 sita是权重参数, π是动作分配的概率, 输出是动作的概率, 表达的意思是在给定状态下,经由策略函数,输出动作对应的概率分布,在动态概率里面采用,才出来的,就是使用的动作.

V π S 是 基于π的策略下,期望回报是多少, Return,
Q π S
他的意思就是给出一个状态,然后给出一堆动作对应的概率分别多少,然后他在里面儿这个概率分布里采样儿,那采出来动作呢,就是他最后那个升体用的动作,然后那个V派S呢,那个派就是上边儿那个派。就是他在基于这个策略下呢,他算一下这个GT,就是那个整个儿啊,他这个进行一连串动作以后,平均回报就是期望回报是多少,然后Q呢,就是把那个V改一下,给他加了一个a。就在这个状态下,采用这个动作,后面儿的一堆收,收到的回报是多少,就这意思。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/14049.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python高光谱遥感数据处理与机器学习

Python高光谱遥感数据处理与机器学习 第一章、高光谱基础 高光谱遥感简介 什么是高光谱遥感? 高光谱遥感为什么重要? 高光谱遥感与其他遥感技术的区别是什么? 高光谱遥感的历史和发展 高光谱传感器与数据获取 高光谱传感器类型 如何获…

ai改写句子软件-ai改写

AI免费伪原创:助力网站内容升级 您是否曾经为网站优化而烦恼,无论是内容更新还是SEO优化,都需要大量的时间和精力。但是,您是否知道,现在有一款能够使用AI技术来帮助您完成这些任务,而且还是免费的呢&…

瑞吉外卖-项目笔记

文章目录 1.业务开发day011.软件开发整体介绍2.项目整体介绍:star:3.开发环境搭建4.登录功能:star4.1代码实现 5.退出功能6.页面效果出现 day021.完善登录功能2.新增员工功能 1.业务开发 day01 1.软件开发整体介绍 2.项目整体介绍⭐️ 后端:管理菜品和…

基于web的病号康复训练系统asp.net+sqlserver+C#

本系统主要内容分为病号管理模块,康复师管理模块,管理员管理模块等三大模块 1,病号管理模块主要分为:用户管理,在线问答,在线预约,用户中心,信息查询. 2. 康复师管理模块主要有:康复师信息管理,病人信息管理,预约信息管理,留言信息管理,训练计…

< elementUi组件封装: 通过 el-tag、el-popover、vue动画等实现公告轮播 >

文章目录 👉 前言👉 一、效果演示👉 二、实现思路👉 三、实现案例往期内容 💨 👉 前言 在 Vue elementUi 开发中,遇到这么一个需求,要实现公告轮播的效果。说实话,一开…

C++、STL标准模板库和泛型编程 ——迭代器、 算法、仿函数(侯捷)

C、STL标准模板库和泛型编程 ——迭代器、 算法、仿函数 (侯捷) 迭代器iterator_category 算法accumulatefor_eachreplacecountfindsortbinary_search 仿函数 functors(六大部件中最简单的一种!) 使用一个东西,却不明白它的道理&a…

Android类似微信首页的页面开发教程(Kotlin)二

前提条件 安装并配置好Android Studio Android Studio Electric Eel | 2022.1.1 Patch 2 Build #AI-221.6008.13.2211.9619390, built on February 17, 2023 Runtime version: 11.0.150-b2043.56-9505619 amd64 VM: OpenJDK 64-Bit Server VM by JetBrains s.r.o. Windows 11 …

【Vue】学习笔记-Vue生命周期

引出生命周期 生命周期 a.又名生命周期回调函数、生命周期函数、生命周期钩子 b.是什么:vue 在关键时刻帮助我们调用一些特殊名称的函数 c.生命周期函数的名字不可更改,但函数的具体内容是程序员根据需求编写的 d.生命周期函数中的this指向是vm或组件实…

拷贝构造与深浅拷贝

文章目录 一、拷贝构造函数二、拷贝初始化三、深浅拷贝 一、拷贝构造函数 如果一个构造函数的第一个参数是自身类型的引用,而且任何额外参数都有默认值,则此构造函数是拷贝构造函数。 class person { public: person(); //默认构造函数 pe…

米文动力 EVO Orin 刷机和克隆操作说明

刷机说明 博主在卸载 cuda 以及 python 后重启后黑屏无法显示,重刷系统才恢复正常。 下载 EVO Orin 用户手册(官网没有,所以上传到 CSDN 供下载)官网下载 EVO Orin 镜像文件 使用 tar -xvf 解压下载的 bootloader 和镜像包得到 …

计算机办公自动化——Python批量生成请假条

Python使用openpyxl、docx批量生成请假条 前言第三方库的安装示例代码运行效果 前言 加入你有一个下图所示的表格,需要批量生成他们的请假条,你会选择如何做呢?是一步一步的手打,还是呼唤请假人手打呢? 下面我们来看…

react中前端同学如何模拟使用后端接口操作数据?

为什么前端同学需要模拟后端数据 作为一个前端,在实现项目功能的时候,需要在前端写一个静态的json数据,进行测试。 项目中后端的接口往往是较晚才会出来,并且还要写接口文档,于是我们的前端的许多开发都要等到接口给…

基于ArcGIS Pro、R、INVEST等多技术融合下生态系统服务权衡与协同动态分析

生态系统服务是指生态系统所形成的用于维持人类赖以生存和发展的自然环境条件与效用,是人类直接或间接从生态系统中得到的各种惠益。联合国千年生态系统评估(Millennium ecosystem assessment,MA)提出生态系统服务包括供给、调节、…

[pgrx开发postgresql数据库扩展]4.基本计算函数的编写与性能对比

前言 再次声明: 并不是所有场景都需要(或者适合)用rust来写的,绝大部分操作数据库的功能和计算,用SQL就已经足够了! 本系列中,所有的案例,仅用于说明pgrx的能力,而并非…

Docker --- 简介、安装

一、什么是Docker 微服务虽然具备各种各样的优势,但服务的拆分通用给部署带来了很大的麻烦。 分布式系统中,依赖的组件非常多,不同组件之间部署时往往会产生一些冲突。 在数百上千台服务中重复部署,环境不一定一致,会…

基于Java+SpringBoot+vue学生学习平台详细设计实现

基于JavaSpringBootvue学生学习平台详细设计实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系方式 文章目…

用SQL语句操作Oracle数据库——数据更新

数据更新 数据库中的数据更新操作有3种:1)向表中添加若干行数据(增);2)删除表中的若干行数据(删);3)修改表中的数据(改)。对于这3种操作&#xf…

seleniumUI自动化登录失败案例重新尝试WhileTrue

一个用户每次登录失败,失败N次,无法进入下一url时,怎样会重新尝试N次重新登录呢 ? 我们可以使用wihile true判断,并使用currenturl判断,下面就介绍以下个人的方法 currenturlEGTconfigFile.driver.curren…

学系统集成项目管理工程师(中项)系列11b_沟通管理(下)

1. 沟通过程的有效性 1.1. 效果 1.1.1. 在适当的时间、适当的方式、信息被准确的发送给适当的沟通参与方(信息的接收方),并且能够被正确的理解,最终参与方能够正确的采取行动 1.2. 效率 1.2.1. 强调的是及时提供所需的信息 2…

深度学习 - 43.SeNET、Bilinear Interaction 实现特征交叉 By Keras

目录 一.引言 二.SENET Layer 1.简介 2.Keras 实现 2.1 Init Function 2.2 Build Function 2.3 Call Function 2.4 Test Main Function 2.5 完整代码 三.BiLinear Intercation Layer 1.简介 2.Keras 实现 2.1 Init Function 2.2 Build Function 2.3 Call Functi…