强化学习MPC——(一)

目录

  • 1.什么是强化学习
  • 2.强化学习的发展历史
    • 2.1最优控制
    • 2.2试错学习
    • 2.3时间差分(TD)学习
  • 3强化学习的分类
  • 4强化学习基本概念

1.什么是强化学习

强化学习是机器学习的一种,是一种介于监督学习和非监督学习的机器学习方法。
在这里插入图片描述
学习二字就很形象的说明了这是一种利用数据(任何形式的)来实现一些已有问题的方法,学习方法,大致可以分为机器学习,监督学习,非监督学习和强化学习。
机器学习:机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
 监督学习:已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程。
 非监督学习:已知数据不知道任何标签,按照一定的偏好,训练一个智能算法,将所有的数据映射到多个不同标签的过程。
 强化学习:智能算法在没有人为指导的情况下,通过不断的试错来提升任务性能的过程。
强化学习和其他机器学习的不同之处在哪里呢?总的来说,强化学习就是一种试错过程,正确答案是试出来的,其他机器学习则是通过标记的训练数据来学习模型或者规律,已实现特定的分类回归聚类等特定任务。
所以一个非常重要的特点就是强化学习会与环境提供的奖励信号来指导学习过程,根据动作;来获取反馈,其他机器学习通常是静态的数据学习,不需要与环境进行交互注意,强化学习反馈的信号是延迟和稀疏的,需要考虑时间相关性和延迟决策。
强化学习与其他机器学习方法的不同之处:

  •  学习过程中没有监督信号,只有奖励反馈和实验试错
  •  其反馈具有延时性,非瞬时的
  •  智能体的动作会影响后续接收到的序列数据
  • 强化学习的过程与时间序列相关,是一个序贯决策的过程

2.强化学习的发展历史

RL从统计学、控制理论和心理学等多学科发展而来,是一个基于数学框架、由经验驱动的自主学习方法,RL有3条发展主线:
在这里插入图片描述

2.1最优控制

20世纪50年代后期开始使用,用来描述通过设计控制器来最小化动态系统的行为随时间变化的测度问题,即控制动态系统在每一时刻都能根据外界环境的变化选出最优的行为。

  • 20世纪50年代中期,Bellman和一些人对Hamilton、Jacobi理论进行了扩展,提出了Bellman方程,使用动态系统的状态和值函数(或“最优返回函数”)的概念定义了函数方程。
  •  通过求解Bellman方程来解决最优控制问题的方法叫做DP方法。
  • DP方法受到了“维度灾难”的限制,即它的计算量随着状态变量数目的增加呈指数级增长
  • Bellman还引入了最优控制问题的离散随机版本,称之为马尔可夫决策过程(Markov Decision Process, MDP)。
  •  1960年,Howard又设计了MDP的策略(policy)迭代方法。
    以上所有这些都是现代RL理论和算法的重要组成部分。

2.2试错学习

  •  在早期人工智能独立于其他工程分支之前,一些研究人员就开始探索将试错学习作为工程原理。该方法始于动物学习过程中的心理学,其中的“强化”学习理论很常见。在20世纪60年代,术语“强化”和“强化学习”首次被用于工程文献中。
  •  Edward Thorndike第一个简洁表达了试错学习的本质,即每一次采取的动作尝试所引发的好的或坏的结果都会对之后的动作选择产生相应地影响。——“效果定律”,效果定律涉及试错学习的两个最重要的方面:
  • 首先,它是选择性的,意味着它可以尝试替代方案,并通过比较它们所产生的结果来进行选择。
  • 其次,它是关联性的,即通过选择找到的替代方案与特定的情况相关联。
    比如,进化过程中的自然选择是选择性的,但它不是相关联的;监督学习是相关的,但不是选择性的,这两者的结合对效果定律和试错学习至关重要。

2.3时间差分(TD)学习

  •  TD学习方法部分起源于动物学习过程中的心理学,特别是辅助强化学,由同一时间内进行的连续估计之间的差异所驱动。
  •  1972年,Klopf提出了“广义强化”的概念,即每个组成部分(名义上,每个神经元)都以强化的角度来看待所有的输入。Klopf通过这一想法将试错学习与TD学习的重要组成部分结合起来,同时将其与动物学习心理学的大量经验数据库联系起来。
  •  1977年Witten最早出版的TD学习规则,也就是我们现在所谓的表格TD(0)方法,用作解决MDP自适应控制器的一部分,这种方法跨越了RL研究的主要思路——试错学习和最优控制。
  •  1981年人们开发了一种在试错学习过程中使用TD学习的方法,称为actor-critic架构,也有人叫做行动者-评论者架构,其中actor是行动者,负责动作的选择和执行,critic代表评论者,负责评价actor所选动作的好坏。
  •  1989年,Watkins将TD学习和最优控制完全融合在一起,发明了Q-learning学习算法,扩展并整合了先前RL研究三条主线的所有工作。

3强化学习的分类

在这里插入图片描述
基于模型和无模的两类

  • 模型型强化学习:这类方法在学习过程中建立了对环境的模型,可以使用该模型进行推理和规划。常见的模型型方法包括基于模型的强化学习、动态规划等。
  • 无模型型强化学习:这类方法直接从与环境的交互中学习,不依赖于环境模型。常见的无模型型方法包括蒙特卡洛方法、时序差分方法等。
    在这里插入图片描述
    根据输出动作的两种类型可以分为:
  • 值函数方法:这类方法通过估计状态或状态-动作对的价值函数,来指导代理的决策。常见的值函数方法包括Q-learning、SARSA等。
  • 策略方法:这类方法直接学习策略函数,将状态映射到动作的概率分布。常见的策略方法包括策略梯度算法、Actor-Critic方法等。
    在这里插入图片描述
    根据更新的方式来说,分为单步和回合更新两种
    在这里插入图片描述
    这个不是很懂。
  • On-policy(同策略)学习:在On-policy学习中,(agent)使用当前正在学习的策略与环境进行交互,并且学习的目标是优化当前策略本身。通过不断尝试并收集与当前策略相一致的数据,然后使用这些数据来更新策略的参数。常见的On-policy算法包括REINFORCE、Proximal Policy Optimization (PPO)等。
  • Off-policy(离策略)学习:在Off-policy学习中,使用之前收集的数据(通常是由其他策略生成的)进行学习,并且学习的目标是优化与当前策略不同的策略。在训练阶段可以采取一种策略生成数据,然后使用另一种策略从这些数据中学习。这种方法的优势在于可以更充分地利用历史数据,并且学习的目标可以是不同的策略。常见的Off-policy算法包括Q-learning、Deep Q-Network (DQN)等。

4强化学习基本概念

在这里插入图片描述
三大基本概念就是状态动作和奖励。状态是智能体所处的外界环境信息。动作是智能体在感知到所处的外界环境状态后所要采取的行为。奖励是当智能体感知到外界环境并采取动作后所获得的奖赏值
智能体的任务就是最大化累计奖励(强化学习是基于奖励假设(Reward Hypothesis)的,所有任务目标均可以用最大化期望累计奖励描述)
在这里插入图片描述
在这里插入图片描述

精彩学习内容:
价值函数,包括状态价值函数和动作价值函数

回报?累计回报?

状态转移?
输入,输出内容

模型预测控制中的非线性解析数学方法

微分:未来的偏差(趋势),减少超调和振荡,加快响应速度,
一步预测。——>模型 更多的迭代?

积分:消除稳态误差 振荡

多目标多变量多约束 泛函问题
mpc问题建立:一个最优控制问题
解法:线性or非线性MPC
非线性优化,贝尔曼最优 二次规划QP,序列二次规划

模型信息,优化指标,多步结果。极点配置,直接就调参了。比例控制,会有稳态误差,,只取第一个用于控制,滚动优化控制。

增量式MPC,从直接从0开始转为0.1到0.2,,变化率。
Lqr又是什么?
带有约束的mpc求解。
mpc->最优控制?

线性 带不等式约束和状态等式约束 控制偏差和效率
多变量系统叫梯度(不是导数)
带着约束的多变量问题—kkt条件
NP hard

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/533906.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在线预约小程序怎么做

在快节奏的现代生活中,无论是预约理发、还是预定餐厅,亦或是挂号就医,我们都希望有一个更加便捷、高效的方式来完成这些任务。而今,随着科技的发展,一款全新的在线预约小程序应运而生,为我们的生活带来了前…

全局锁和表锁 :给表加个字段怎么有这么多阻碍?

全局锁和表锁 :给表加个字段怎么有这么多阻碍? 今天我要跟你聊聊 MySQL 的锁。数据库锁设计的初衷是处理并发问题。作为多用户共享的资源,当出现并发访问的时候,数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则…

微信小程序页面交互综合练习 (重点:解决“setData of undefined”报错问题)

一、写一个注册表单,点击“注册”按钮将用户输入的数据带到服务器,并且能在控制台显示参数。 (1)首先,我需要在vscode里面创建一个简易的node.js服务器 //第一步:引入http模块 var http require(http); //第二步:创建…

“上帝粒子”之父、诺贝尔奖得主彼得·希格斯逝世

4月10日,提出希格斯玻色子理论的英国物理学家彼得希格斯(Peter Higgs)逝世,享年94岁。 这位揭示粒子如何构成宇宙基础的研究先锋、诺贝尔奖得主在爱丁堡的家中去世。 希格斯玻色子,又叫作“上帝粒子”。 最初上帝粒子一…

全光谱台灯哪个牌子好,2024全光谱护眼台灯推荐

近年来,全光谱台灯悄然跻身于家庭必备品之列,赢得了众多消费者的好评。它们以减轻眼睛疲劳的功效而受到推崇,尽管也有声音质疑其实际效用,认为所谓的益处不过是一种心理安慰。面对这些相互矛盾的观点,许多消费者感到困…

前端学习<四>JavaScript基础——16-内置对象:Number和Math

内置对象 Number 的常见方法 Number.isInteger() 判断是否为整数 语法: 布尔值 Number.isInteger(数字); toFixed() 小数点后面保留多少位 语法: 字符串 myNum.toFixed(num); 解释:将数字 myNum 的小数点后面保留 num 位小数&#xff…

解决Django中的UnicodeDecodeError问题

在使用Django进行Web开发时,有时会遇到一些由于编码不一致引起的问题,特别是在处理文件读写操作时。一个常见的错误是UnicodeDecodeError,其表现为gbk codec cant decode byte 0xa6 in position 9737: illegal multibyte sequence。这个问题通…

2024最新最简单的安卓底部菜单栏教程

2024最新最简单的安卓底部菜单栏教程 大界面跳转 public class MainActivity extends AppCompatActivity {Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);BottomNavigationView b…

【吊打面试官系列】Java高并发篇 - 什么是Java Executors 框架?

大家好,我是锋哥。今天分享关于 【什么是Java Executors 框架?】面试题,希望对大家有帮助; 什么是Java Executors 框架? Executor 框架是一个根据一组执行策略调用,调度,执行和控制的异步任务的…

DVWA -File Upload-通关教程-完结

DVWA -File Upload-通关教程-完结 文章目录 DVWA -File Upload-通关教程-完结页面功能LowMediumHighImpossible 页面功能 此页面的功能为选择某个图片文件点击Upload按钮上传,上传成功后得知文件上传路径为DVWA\hackable\uploads。 Low 源码审计 这段 PHP 代码…

web自动化测试系列-selenium xpath定位方法详解(六)

1.xpath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。而html中也应用了这种语言 ,所以 ,我们定位html页面元素时也会用到xpath这种方法 。 2.xpath定位方式 xpath主要通过以下四种方法定位 &#…

Redis第12讲——缓存的三种设计模式

缓存的使用在项目中是极其常见的,如果使用得当,缓存可谓时提升系统性能的最简单方法之一,反之则会出现一些莫名其妙的问题,在不同场景下,所使用的缓存策略也是有所变化的,下面我们就介绍一下三种常见的缓存…

appium driver install uiautomator2 安装失败

报错 Installing ‘uiautomator2’ using NPM install spec ‘appium-uiautomator2-driver’ Error: Encountered an error when installing package: npm command ‘install --save-dev --no-progress --no-audit --omitpeer --save-exact --global-style --no-package-lock…

为什么每个人都需要了解这些数据加密技术?

在数字时代,数据加密技术不仅对保护企业的商业秘密至关重要,也是个人隐私安全的重要屏障。随着技术的进步和网络犯罪的增加,数据加密已经成为了信息安全领域的一个热点议题。以下是探讨为什么每个人都需要了解这些数据加密技术的几个主要原因…

Web 前端性能优化之七:数据存储与缓存技术

7、数据存储 在开发Web应用的过程中,会涉及一些数据的存储需求,常见的存储方式可能有: 保存登录态的Cookie; 使用浏览器本地存储进行保存的Local Storage和Session Storage; 客户端数据持久化存储方案涉及的Web SQ…

AI智能调色解决方案,节省了企业的时间和人力成本

如何确保图片、视频的色彩准确、生动,成为企业提升品牌形象和传播效果的重要课题。美摄科技凭借领先的AI技术,推出全新的AI智能调色解决方案,以智能化、精细化的调色方式,帮助企业轻松驾驭色彩,展现视觉魅力。 美摄科…

知乎专业分析二手车

二手车经销商-一个神奇的经济存在体 - 知乎 二手车经销商-一个神奇的经济存在体 - 知乎 1. 本文文字内容较多,近5000字,如果没有兴趣可以看看导图,找到自己感兴趣的环节。 本篇无意为二手车经销商或新车经销商进行判断说谁更高端&#xf…

CentOS7.9创建本地yum源操作步骤报错解决方法

1.基础信息 CentOS7.9-mini最小化安装的系统,在离线安装rpm时候需要大量依赖,需要花费大量时间去查找依赖包。受于环境限制无法接入互联网使用公开yum源,于是便有了搭建本机yum源的想法,在网上下载CentOS7.9标准版“CentOS-7-x86_…

js爬虫puppeteer库 解决网页动态渲染无法爬取

我们爬取这个网址上面的股票实时部分宇通客车(600066)_股票价格_行情_走势图—东方财富网 我们用正常的方法爬取会发现爬取不下来,是因为这个网页这里是实时渲染的,我们直接通过网址接口访问这里还没有渲染出来 于是我们可以通过下面的代码来进行爬取: …

HarmonyOS4-学习入门知识总结

简单的组件学习: /*** weip 自定义控件* 自定义构建函数也是需要充电的地方,分全局和局部的* 全局:需要添加function关键字 局部:不加function关键字* Styles function 自定义公共样式 分全局和局部* Extends(Text) 继承模式 只…