强化学习(Reinforcement learning)基本概念

强化学习(Reinforcement learning)基本概念

article2024/11/16 4:27:04/文章来源:https://blog.csdn.net/weixin_41636030/article/details/138379330

概念：

强化学习是在与环境互动中为达到一个目标而进行的学习过程

三层结构：

基本元素：agent、environment、goal

agent：可以理解为玩家，即某个游戏的参与方
environment：环境本身，可以理解为玩家当前所在的某个域的游戏中，比如围棋等，
goal：该游戏各个玩家的目标

主要元素：强化学习主要围绕的这些主要元素展开

state：指玩家和环境会处于某种状态的state，如在篮球游戏中，这个状态指所有球员当前的位置、速度等
action：指玩家通过某一行动，导致状态发生了变化，如围棋中，某一玩家落子，导致当前棋局中状态相比过去发生变化
reward：指agent才去了某一action之后，能得到的即时反馈，比如围棋中，某一选手落子后，能够吃掉对手棋子，那么吃掉棋子就是对玩家的即时奖励，则agent采取行动会更倾向于吃子所获得的奖励；需注意的是，reward是个即时的反馈，而goal是个长远的过程，所以需要平衡reward和goal的关系

核心元素

policy：策略函数，输入是个状态state，输出是个行动action，即在围棋中将当前状态告诉策略函数，策略函数输出下一步落子的位置。
value：价值函数，策略函数取决于价值函数，价值的含义指预期将来能得到的所有奖励之和，即在当前的状态下，玩家所得到的奖励之和的期望值；可以理解为策略函数判断出action主要取决于如何使得价值函数变得更大，价值函数又分两种：
state value：状态价值函数，表示输入是个状态，输出是个实数，这个实数就是状态的价值
state-action value：状态行动价值函数，指特定状态下采取某种行动所获得的价值，如游戏中，在一个特定状态下，玩家根据状态价值函数，应该选择价值最大的的一个行动

目前主流核心的强化学习算法都是基于价值导向的。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/587642.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Web后端开发中对三层架构解耦之控制反转与依赖注入

Web后端开发中对三层架构解耦之控制反转与依赖注入

内聚与耦合内聚比如说我们刚刚书写的员工的实现类在这里我们仅仅书写的是和员工相关的代码而与员工无关的代码都没有放到这里说明内聚程度较高耦合以后软件开发要高内聚低耦合提高程序灵活性扩拓展性分析代码如何解耦创建容器提供一个容器存储东西存储E…

阅读更多...

基于FPGA的数字信号处理（5）--Signed的本质和作用

基于FPGA的数字信号处理（5）--Signed的本质和作用

前言 Verilog中的signed是一个很多人用不好，或者说不太愿意用的一个语法。因为不熟悉它的机制，所以经常会导致运算结果莫名奇妙地出错。其实了解了signed以后，很多时候用起来还是挺方便的。 signed的使用方法主要有两种，其中一种…

阅读更多...

Android View事件分发面试问题及回答

Android View事件分发面试问题及回答

问题 1: 请简述Android中View的事件分发机制是如何工作的？ 答案: 在Android中，事件分发机制主要涉及到三个主要方法：dispatchTouchEvent(), onInterceptTouchEvent(), 和 onTouchEvent(). 当一个触摸事件发生时，首先被Activity的…

阅读更多...

配置 Trunk，实现相同VLAN的跨交换机通信

配置 Trunk，实现相同VLAN的跨交换机通信

1.实验环境公司的员工人数已达到 100 人，其网络设备如图所示。现在的网络环境导致广播较多网速慢，并且也不安全。公司希望按照部门划分网络，并且能够保证一定的网络安全性。其网络规划如下。 PC1和 PC3为财务部，属于VLAN 2&…

阅读更多...

邦注科技温控箱对企业的重要性

邦注科技温控箱对企业的重要性

注塑加工是将加热的熔融塑料注入模具中形成所需产品的工艺过程。良好的注塑加工工艺需要控制好许多参数，其中最重要的因素之一就是模具的温度。模具温度的不稳定会导致产品尺寸大小、表面缺陷等方面的问题，甚至会导致生产不良品，加大生产成本…

阅读更多...

Educational Codeforces Round 165 （Rated for Div. 2 ABCDE 题）视频讲解

Educational Codeforces Round 165 （Rated for Div. 2 ABCDE 题）视频讲解

A. Two Friends Problem Statement Monocarp wants to throw a party. He has n n n friends, and he wants to have at least 2 2 2 of them at his party. The i i i-th friend’s best friend is p i p_i pi. All p i p_i pi are distinct, and for every i ∈…

阅读更多...

通义灵码实战系列：一个新项目如何快速启动，如何维护遗留系统代码库？

通义灵码实战系列：一个新项目如何快速启动，如何维护遗留系统代码库？

作者：别象进入 2024 年，AI 热度持续上升，翻阅科技区的文章，AI 可谓是军书十二卷，卷卷有爷名。而麦肯锡最近的研究报告显示，软件工程是 AI 影响最大的领域之一，AI 已经成为了软件工程的必选项&…

阅读更多...

FLUKE万用表17B+的电压档最大内阻

FLUKE万用表17B+的电压档最大内阻

项目中遇到一个测量兆欧级别电阻两端电压的问题，发现按照上图中的电路搭建出来的电路测得的电压为8.25V左右，按理说应为9V才对，后来想到万用表测量电压档不同的档位会有不同内阻，测量的电阻应远小于万用表电压档内阻才有效。本次测…

阅读更多...

顶尖页面性能优化跃升之道：uniapp首屏加载性能极致优化策略权威指南（白屏现象终结攻略）

顶尖页面性能优化跃升之道：uniapp首屏加载性能极致优化策略权威指南（白屏现象终结攻略）

页面加载性能优化至关重要，直接影响用户体验满意度及网站流量转化。优化加载性能可以减少用户等待时间，提升交互响应，有效减少出现白屏的情况，增加用户留存，同时有利于搜索引擎排名，对网站流量、品牌形象及…

阅读更多...

【常规】解决win11的Edge浏览器掉线问题

【常规】解决win11的Edge浏览器掉线问题

文章目录【问题】【解决】step1 右键点击wifi--【网络和Internet设置】step2 点击打开后，打开【高级网络设置】后边的箭头step3 进入下一级以后，点击【WLAN】右侧的箭头step4 【更多适配选项】--【编辑】step5 取消Internet协议版本6（TCP/IP…

阅读更多...

php反序列化字符串逃逸

php反序列化字符串逃逸

字符串逃逸字符串逃逸是通过改变序列化字符串的长度造成的php反序列化漏洞一般是因为替换函数使得字符串长度发生变化，不论变长还是变短，原理都大致相同在学习之前，要先了解序列化字符串的结构，在了解结构的基础上才能更好理解…

阅读更多...

Qt Creator导入第三方so库和jar包——Qt For Android

Qt Creator导入第三方so库和jar包——Qt For Android

前言之前了解了在Android Studio下导入so库和jar包，现在实现如何在Qt上导入so库和jar包。实现下面是我安卓开发（需调用安卓接口的代码）的目录（图1），此目录结构和原生态环境（Android Studi…

阅读更多...

PS证件照

PS证件照

证件照尺寸小一寸：2.2cm*3.3cm 一寸：2.5cm*3.5cm 像素413*295 （分辨率为300像素/英寸） 比例5：7 二寸：3.5cm*4.9cm 二寸照相比例是4：3，像素是626*413 蓝底：R&a…

阅读更多...

python学习之词云图片生成

python学习之词云图片生成

代码实现 import jieba import wordcloudf open("D:/Pythonstudy/data/平凡的世界.txt", "r", encoding"utf-8") t f.read() print(t) f.close() ls jieba.lcut(t) txt " ".join(ls)w wordcloud.WordCloud(font_path"D:/cc…

阅读更多...

【Unity动画系统】详解Root Motion动画在Unity中的应用（二）

【Unity动画系统】详解Root Motion动画在Unity中的应用（二）

Root Motion遇到Blend Tree 如果Root Motion动画片段的速度是1.8，那么阈值就要设置为1.8，那么在代码中的参数就可以直接反映出Root Motion的最终移动速度。 Compute Thresholds：根据Root Motion中某些数值自动计算这里的阈值。 Velocity X/…

阅读更多...

使用 Python 和 OpenCV 进行实时目标检测的详解

使用 Python 和 OpenCV 进行实时目标检测的详解

使用到的模型文件我已经上传了，但是不知道能否通过审核，无法通过审核的话，就只能靠大家自己发挥实力了，^_^ 目录简介代码介绍代码拆解讲解 1.首先，让我们导入需要用到的库： 2.然后，设…

阅读更多...

《QT实用小工具·四十三》历史编辑器(支持历史搜索关键字匹配)

《QT实用小工具·四十三》历史编辑器(支持历史搜索关键字匹配)

1、概述源码放在文章末尾该项目实现了在输入框中输入部分信息能全部展现之前的历史输入信息，支持历史搜索和关键词匹配，项目demo演示如下所示： 项目部分代码如下所示： #include "historymodel.h" #include <QM…

阅读更多...

Java发送请求-http+https的

Java发送请求-http+https的

第一步：建议ssl连接对象，信任所有证书第二步：代码同时支持httphttps 引入源码类是一个注册器引入这个类，和它的方法create 注册器，所以对http和https都进行注册，参数为id和item，其中http的…

阅读更多...

【已解决】pandas读excel中长数字变成科学计数法的问题

【已解决】pandas读excel中长数字变成科学计数法的问题

pandas 读excel中的长数字时，即使excel中已经设置为文本，读进df后也会自动变成科学计数法。在日常的数据分析和处理工作中，Excel和pandas是数据分析师们不可或缺的得力助手。然而，在使用pandas读取Excel文件时，我们有…

阅读更多...

CSAPP | Floating Point

CSAPP | Floating Point

CSAPP | Floating Point b i b_i bi b i − 1 b_{i-1} bi−1 … b 2 b_2 b2 b 1 b_1 b1 b 0 b_0 b0 b − 1 b_{-1} b−1 b − 2 b_{-2} b−2 b − 3 b_{-3} b−3 … b − j b_{-j} b−j S ∑ k − j i b k 2 k S\sum_{k-j}^{i}b_k\times2^k S∑k…

阅读更多...

最新文章