强化学习(没想好叫什么)

on policy(同策略学习)

①:数据来源:同策略学习方法使用当前正在执行的政策产生的数据来更新该策略。意味着用于训练的数据必须是由当前撤了选择的行为所产生的。

②实时学习:由于它使用当前策略的数据,因此同策略学习通常需要实时与环境交互,这可能导致学习过程中的探索和利用之间的平衡问题。

③样本效率:同策略学习方法不如异策略学习方法样本效率高,因为它不能利用旧策略的数据。

④实例:SARSA、REINFORCE和A2C

off policy(异策略学习)

①数据来源:异策略学习方法可以使用来自不同策略的数据来更新当前策略。这意味着它可以利用以前策略的数据,甚至是其他智能体的数据。

②经验回放:异策略学习通常与经验回放机制结合使用,存储经验值并从缓存区中随机抽取样本进行学习,有助于提高数据效率和稳定性。

③样本效率:异策略学习方法通常比同策略学习方法更高效,它可以利用旧数据,并且可以更加细致地控制探索和利用

④实例:Q学习、DQN、DDPG、TD3

ACER——actor-critic with experience replay

结合了演员-评论家方法和经验回放的算法,是一种带经验回放的off-policy的actor-critic模型,A3C是on-policy的,其实 ACER 是 A3C 的off-policy 版本。

ACER的目标是解决on-policy算法样本利用效率低的问题,主要有三个技术:(没看懂,展不开)

①截断重要性采样,控制方差的同时保证了无偏性

②stochastic dueling network(SDN)用于连续动作控制算法值函数估计;使用状态值函数和优势函数计算Q,为防止网络输出优势函数A的期望不为0,需要减去A的期望,由于动作无穷多,通过采样计算均值来估计A的期望。

③一种新的置信域方法,计算简单,适合大规模问题。

CEM——cross entropy method(不是强化学习算法)

交叉熵方法,是一种用于优化问题的随机算法,适合解决具有高维度、复杂搜索空间和难以评估的目标函数的问题。

CEM的基本思想来源于进化算法和遗传算法,不同的是,CEM主要关注概率分布的演变,而非个体的演变。通过迭代地优化一个概率分布来寻找最优解,这个分布用于生成样本,而这些样本在给定的目标函数上表现良好。

算法工作流程:

1、初始化:随机生成一组候选解(样本),这些样本通常按照某个先验概率分布进行抽取。

2、评估:计算每个样本的目标函数,也就是适应度。

3、选择:根据样本的目标函数值,选择表现最好的一部分样本,这些样本将用于估计一个新的概率分布。

4、更新:使用被选中的样本来更新概率分布的参数。通常,这一步会涉及到计算样本的均值和协方差,用于定义新的概率分布。

5、重复:重复上述步骤,知道满足某个终止条件,如达到最大迭代次数、解的质量达到某个阈值等。

ARS——augmented random search(不是强化学习算法)

增强随机搜索算法,一种用于优化连续参数函数的算法,特别是在强化学习中用于优化策略参数。作为一种简单而有效的策略优化方法,不需要复杂的梯度计算。

算法的核心思想:通过对策略参数进行随机扰动来探索参数空间,然后根据这些扰动参数的性能来更新策略参数。这种方法类似于进化算法中内的自然选择过程,其中性能较好的扰动被保留下来,以指导下一轮的参数更新。

算法工作流程:

1、初始化:在解空间中随机选择一个初始点作为当前解

2、生成扰动:在当前解的基础上生成多个随机扰动,每个扰动代表一个候选解

3、评估:对所有候选解进行评估,得到他们的性能指标(例如:函数值)

4、更新:根据候选解的性能指标,选择性能较好的扰动方向,并据此更新当前解。这一步通常涉及计算性能指标的平均值和标准差,以此来确定搜索的方向和步长。

5、重复:重复上述步骤,知道满足停止条件(例如:达到预定的迭代次数或性能指标达到某个阈值)

ARS不需要计算梯度,但依赖于随机搜索,可能需要大量的函数评估,因此在某些情况下可能不如基于梯度的优化算法效率高,同时该算法的性能可能受到超参数选择的影响,如扰动的规模和数量等。

ES——evolutionary strategy(不是强化学习算法)

进化策略,是一种进化算法,主要用于解决优化问题,借鉴生物进化的原理,通过模拟自然选择和遗传机制来搜索问题的最优解。

算法基本流程:

1、初始化:随机生成一个初始化种群,种群中的每个个体代表问题空间中的一个候选解。

2、评估:对种群中的每个个体进行评估,通常是通过一个目标函数来计算个体的适应度,适应度越高,表示个体的性能越好。

3、选择:根据个体的适应度,选择一些优秀的个体作为父本,用于产生下一代的种群,选择过程可以采用多种策略。

4、变异:对选中的父本进行变异操作,以产生新的个体,变异可以是随机的,也可以是按照某种规则进行的,如高斯变异等

5、交叉(可选):在ES算法的一些变体中,交叉操作被用于组合父本的特征,以产生性的个体,但不是所有ES算法都包含交叉步骤。

6、替换:使用新生成的个体替换当前种群中的一部分或全部个体,形成新一代种群。

7、迭代:重复上述步骤,直到满足停止条件。

PETS——ensembles of probabilistic model(概率模型集合) + trajectory optimization(轨迹优化)

概率模型集合:是指使用多个模型来共同预测或估计某个结果,在机器学习和统计学习中,这种方法可以提高预测的准确性和鲁棒性。每个模型可能在不同的数据集上训练,或者使用不同的算法,或者有不同的架构。集合的最终预测通常是基于所有单个模型预测的平均值或某种投票机制。

轨迹优化:是一种数学方法,用于找到是某个成本函数最小化的动作序列。在机器人学、自动驾驶和控制系统等领域,轨迹优化用于生成从一个状态到另一个状态的理想动作序列。这种方法通常考虑动态约束和终端条件,并且可以通过优化算法来实现。

将这两个组件结合在一起,意味着系统将使用多个概率模型来预测环境的不确定性,并基于哲学预测来优化行动轨迹。这种方法可以提供更鲁棒的洁厕,应为它考虑了多种可能得环境状态和未来的演变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/398115.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在Excel中冻结行或列标题?这里提供两种方法

随着数据的增长,许多Excel工作表可能会变得很大,因此冻结行和列标题或冻结窗格非常有用,以便在滚动工作表时将标题锁定到位。在Excel中,可以冻结行标题和列标题,也可以只冻结一个。这不会影响将要打印的单元格。列标题…

Halcon中打开摄像机

(带货广告:需要该套测试设备或者工业相机的及其相关产品的,请私聊我) 1、相机说明 使用Basler相机, 2、打开Halcon助手 3、检测相机 4、连接摄像机和采集画面 5、自动生成代码 生成代码后,保存工程到本…

力扣题目训练(16)

2024年2月9日力扣题目训练 2024年2月9日力扣题目训练530. 二叉搜索树的最小绝对差541. 反转字符串 II543. 二叉树的直径238. 除自身以外数组的乘积240. 搜索二维矩阵 II124. 二叉树中的最大路径和 2024年2月9日力扣题目训练 2024年2月9日第十六天编程训练,今天主要…

机器学习入门--门控循环单元(GRU)原理与实践

GRU模型 随着深度学习领域的快速发展,循环神经网络(RNN)已成为自然语言处理(NLP)等领域中常用的模型之一。但是,在RNN中,如果时间步数较大,会导致梯度消失或爆炸的问题,…

公寓报修|公寓报修管理系统|基于springboot公寓报修管理系统设计与实现(源码+数据库+文档)

公寓报修管理系统目录 目录 基于springboot公寓报修管理系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、住户管理 2、房间管理 3、维修人员管理 4、维修分类管理 5、物品信息管理 6、维修申请管理管理 四、数据库设计 1、实体ER图 五、核心代码 六、…

Vue3快速上手(九)计算属性computed

一、应用场景 vue3里强调尽量让<template>,也就是模版&#xff0c;变得更加简单。所以涉及到转换、计算等操作的&#xff0c;还是建议在<script>标签里进行。如此我们可以用到computed。 二、实际用法 2.1 示例1 一个简单的加法计算 <template><div …

6.2 数据库

本节介绍Android的数据库存储方式--SQLite的使用方法&#xff0c;包括&#xff1a;SQLite用到了哪些SQL语法&#xff0c;如何使用数据库管理操纵SQLitem&#xff0c;如何使用数据库帮助器简化数据库操作&#xff0c;以及如何利用SQLite改进登录页面的记住密码功能。 6.2.1 SQ…

深度学习——概念引入

深度学习 深度学习简介深度学习分类根据网络结构划分&#xff1a;循环神经网络卷积神经网络 根据学习方式划分&#xff1a;监督学习无监督学习半监督学习 根据应用领域划分&#xff1a;计算机视觉自然语言处理语音识别生物信息学 深度学习简介 深度学习&#xff08;Deep Learni…

将Windows电脑右下角的“中”字或“英”字输入法状态隐藏的方法

本文介绍在Windows 11操作系统中&#xff0c;将任务栏右下角的语言栏的“中”、“英”标识加以隐藏、消除的一种或许可行的方法。 最近换了新电脑&#xff0c;终于用上了Windows 11操作系统。但是&#xff0c;默认状态下&#xff0c;在任务栏最右侧&#xff0c;也就是屏幕右下角…

2024最新版Redis安装使用指南

2024最新版Redis安装使用指南 Installation and Usage Guide to the Latest Redis in 2024 By JacksonML 1. 什么是Redis? The open-source, in-memory data store used by millions of developers as a cache, vector database, document database, streaming engine, an…

MSS与cwnd的关系,rwnd又是什么?

慢启动算法是指数递增的 这种指数增长的方式是慢启动算法的一个核心特点&#xff0c;它确保了TCP连接在开始传输数据时能够快速地探测网络的带宽容量&#xff0c;而又不至于过于激进导致网络拥塞。具体来说&#xff1a; 初始阶段&#xff1a;当TCP连接刚建立时&#xff0c;拥…

Prometheus 教程

目录 一、简介二、下载安装1、安装 prometheus2、安装 alertmanager3、安装 grafana4、安装 node_exporter5、安装 mysqld_exporter 一、简介 Prometheus 是一个开源的系统监控和警报工具。它最初由 SoundCloud 开发&#xff0c;并于 2012 年发布为开源项目。Prometheus 专注于…

【leetcode刷题】 93.复原IP地址单层逻辑特殊点总结

这个跟131分割回文串比较类似&#xff0c;但是这里的回溯过程需要注意两个事项&#xff0c;一个是横向深入时要考虑到原字符串中加入“.”所以计数的idx从i2开始。纵向回退时要把用来控制结束时机的pointnum减掉1&#xff0c;再把这时已经加入了“.”的字符串去掉“.”。 判断合…

关于node与node-sass那些事

昨晚找了之前的一个项目想要复习下&#xff0c;结果npm i报错&#xff0c;大致意思就是noda-sass的版本和node的对不上&#xff0c;那怎么办呢&#xff1a; 1.换node版本&#xff0c;那好吧&#xff0c;首先要明白&#xff0c;对应的版本关系 2.然后我开始用nvm换node版本&am…

金晨颜值逆袭。每年一个样,美丽爆表。

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 微博热议金晨颜值蜕变&#xff01;从20岁清纯到31岁明艳&…

RHEL8提示需要注册才可以yum解决办法

关闭注册以及修改更新远&#xff08;已注册的RHEL8忽略本步骤&#xff09; 原因&#xff1a;因为没注册的红帽子是无法连接到官方的Yum源的 箭头所指的改成0 vi /etc/yum/pluginconf.d/subscription-manager.conf 箭头所指的改成0 cd /etc/yum.repos.d/ wget https://mirro…

docker之安装mongo创建运行环境

目录 一、docker pull 最新资源 二、启动mongo镜像 启动命令查看日志拉取低版本镜像成功启动 三、进入mongo容器 进入容器进入mongo环境查询当前所在库切换库至admin随意切换库 并 创建用户登录用户新增文档数据等 五、总结 版本兼容可备份操作 一、docker pull 最新资源…

CentOS已安装宝塔的情况下手动安装phpMyAdmin

CentOS 7.9.2009&#xff0c;宝塔7.9.4。 服务器中已有MySQL&#xff0c;可能不是通过宝塔安装的&#xff0c;而是手动安装的。用命令行可以正常进入MySQL查看和管理数据&#xff0c;说明已有的MySQL是正常的。在宝塔中点击数据库提示“未安装本地数据库&#xff0c;已隐藏无法…

基于函数计算AIGC生成图应用

目录 基于函数计算部署AIGC应用的主要步骤 创建Stable Diffusion模型的应用 访问应用实现文字生图 函数的查看与管理 基于函数计算部署AIGC应用的主要步骤 用函数计算实现AIGC只要简单的三步&#xff0c;分别是创建应用、运行应用及查看管理。 创建Stable Diffusion模型的应…

【大厂AI课学习笔记】【2.2机器学习开发任务实例】(7)特征构造

特征分析之后&#xff0c;就是特征构造。 特征构造第一步 特征构造往往要进行数据的归一化。 在本案例中&#xff0c;我们将所有的数据&#xff0c;将所有特征区间调整为0~1之间。 如上图。 那么&#xff0c;为什么要进行归一化&#xff0c;又如何将数据&#xff0c;调整为…