强化学习 - 策略梯度（Policy Gradient）

强化学习 - 策略梯度（Policy Gradient）

article2025/4/2 10:51:22/文章来源:https://blog.csdn.net/weixin_48878618/article/details/134336260

引言

强化学习常见的方法为基于值函数或者基于策略梯度。

值函数：值函数最优时得到最优策略，即状态s下，最大行为值函数maxQ(s,a)对应的动作。

但对于机器人连续动作空间，动作连续时，基于值函数，存在以下问题：

当动作空间很大，或者动作为连续集时，基于值函数的方法无法有效求解。
基于值函数的方法在进行策略改进时，需要针对每个状态行为求取行为值函数，以求得最优动作 $\frac{argmax}{a\in A}Q(s,a))$ ,这种情况下，把每一个状态行为严格地独立出来，求取某个状态下应该执行的行为是不切实际的。

总结：用值函数Q求解连续空间action，也能用但不好用，所以出现了，策略梯度法。

1.策略梯度

随机策略梯度：使用 $P (a,s;\theta )$ 直接逼近 $\pi (a,s)$ ,我们需要求得的就时神经网络参数θ。为了求解θ需要设计一个目标函数J(θ)=G(θ)（累计回报值），θ更新公式为：

此方法基于目标函数J(θ)的梯度进行策略参数更行。

J(θ)分为两种：

1.MC中，有完成的链条：

2.TD中，有步长限制时：

式中，是基于策略生成的关于状态s的分布

进一步就得到了梯度的表达式：

2.Actor

策略梯度就是AC中的A

Actor：从下图可以看出，就是输入智能体观察到的图像（对计算机而言就是矩阵，向量），输出智能体可能采取的动作概率分布。

进一步我们要衡量Actor的优劣，基于Actor可以得到一系列回报，计算平均回报，比较策略的优劣R就是上文的J。

然后我们想求得最优的Actor，（R就是上文J的延深），使用梯度上升法，进而得到：

3.延深

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/129471.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

C语言C位出道心法(五):内存管理

C语言C位出道心法(五):内存管理

C语言C位出道心法(一):基础语法 C语言C位出道心法(二):结构体|结构体指针|链表 C语言C位出道心法(三):共用体|枚举 C语言C位出道心法(四):文件操作 C语言C位出道心法(五):内存管理一:C语言内存管理认知二:C语言中内存堆|栈认知三:C语言中引用内存丢失认知

阅读更多...

秋招进入尾声了，还有哪些公司和岗位可以投递？

秋招进入尾声了，还有哪些公司和岗位可以投递？

24届秋招基本已经进入尾声了，接下来就是秋招补录了，最近在微信群看到一些同学再问哪些公司还在招人的。在这里跟大家分享一份2024届秋招信息汇总表，目前已更新2000家，不仅有互联网公司，还有外企、国企、各类研究所&am…

阅读更多...

使用WinDbg分析CPU100%的问题

使用WinDbg分析CPU100%的问题

在我们软件运行的时候，偶尔会出现CPU占比100%的问题，而且极其不容易排查，概率极低，我硬是操作了一个下午，出现了一次，然后找到了dmp文件，也没有任何的规律，那么就可以借助windbg进行…

阅读更多...

轻松下载网页音频和视频

轻松下载网页音频和视频

在网页上看到好看的视频或者听到的音乐想保存，让我来教你（仅供学习） 注意：有极少部分的网站视频经过加密，无法下载一、视频下载 1.打开视频网页 2.右键“检查” 3.刷新网页 4.按照下图中步骤操作 5.把复制的链接放…

阅读更多...

如何利用产品帮助中心提升用户体验

如何利用产品帮助中心提升用户体验

在当今竞争激烈的市场中，提供优秀的用户体验是吸引和保留客户的关键。而一个高效和易于使用的产品帮助中心，正成为越来越多企业用以提升用户体验的重要工具。产品帮助中心是一个集中的信息库，为用户提供关于产品功能、故障排除、常见问题解答…

阅读更多...

11.10

11.10

.text .global _start _start: 1.RCC时钟使能GPIOE RCC_MP_AHB4ENSETR[4]->1 LDR R0,0x50000a28 LDR R1,[R0] ORR R1,R1,#(0x3<<4) ORR R1,R1,#(0x1<<1) STR R1,[R0] 2.设置PE10为输出模式 GPIOE_MODER[21:20]->01 先清0 LDR R0,0x50006000 LDR R1,[R0]…

阅读更多...

思科C9300交换机堆叠

思科C9300交换机堆叠

思科C9300交换机堆叠仅支持同质堆叠，即仅以Cisco Catalyst 9300系列交换机作为堆叠成员的Cisco Catalyst 930O系列交换机堆叠。需要专用电缆，除数据交接支持堆叠外，还支持电源的堆叠。在所有交换机上运行命令 "switch convert mode sta…

阅读更多...

金融帝国实验室（Capitalism Lab）官方正版游戏『最新销售政策』

金融帝国实验室（Capitalism Lab）官方正版游戏『最新销售政策』

「金融帝国实验室」（Capitalism Lab）Enlight 官方正版游戏「2023双11特卖」 ■优惠时限：2023.11.01～11.30 ■游戏开发商：Enlight Software Ltd. 请您认准以下官方正版游戏购买链接：支持“支付宝&am…

阅读更多...

如何在苹果iOS系统ipa应用中获取当前版本号和Bundle ID

如何在苹果iOS系统ipa应用中获取当前版本号和Bundle ID

在iOS应用开发过程中，了解如何获取和使用应用的当前版本号、Bundle ID和其他相关信息是至关重要的。无论是在应用内显示这些信息，还是在编写一些版本依赖的逻辑时，掌握这些知识点都将帮助开发者进行更有效的管理和维护。本文将详细介绍如何在…

阅读更多...

数据分析是什么？

数据分析是什么？

第一章- 数据分析是什么数据分析是指根据分析目的，用适当的分析方法及工具，对数据进行分析，提取有价值的信息，形成有效结论的过程。数据分析的作用通过观察数据，知道当前发生什么？通过具体的数据拆解…

阅读更多...

Matplotlib数据可视化综合应用Matplotlib图形配置在线闯关_头歌实践教学平台

Matplotlib数据可视化综合应用Matplotlib图形配置在线闯关_头歌实践教学平台

Matplotlib数据可视化综合应用图形配置第1关配置颜色条第2关设置注释第3关自定义坐标刻度第4关配置文件与样式表第1关配置颜色条任务描述本关任务：使用colorbar绘制一个热成像图。编程要求在右侧编辑器Begin-End处补充代码，根据输入数据绘制…

阅读更多...

【编程语言发展史】Go语言的发展历史

【编程语言发展史】Go语言的发展历史

目录 Go的起源 Go语言发展时间轴 logo Go的起源 Go 语言起源 2007 年，并于 2009 年正式对外发布。它从 2009 年 9 月 21 日开始作为谷歌公司 20% 兼职项目，即相关员工利用 20% 的空余时间来参与 Go 语言的研发工作。该项目的三位领导者均是著名的 …

阅读更多...

3 Paimon数据湖中的表类型详解

3 Paimon数据湖中的表类型详解

更多Paimon数据湖内容请关注：https://edu.51cto.com/course/35051.html Paimon中支持多种表类型，下面我们来看一下。 3.1 全局维度首先从全局维度来看，Paimon中的表类型可以大致划分为4种： 内部表、外部表、分区表和临时表。 …

阅读更多...

接收表单数据

接收表单数据

如果您尝试按下提交按钮，浏览器将显示“Method Not Allowed”错误。这是因为到目前为止，前一节中的登录视图函数完成了一半的工作。它可以在网页上显示表单，但是还没有逻辑来处理用户提交的数据。这是Flask-WTF使工作变得非常简单的另一个领域…

阅读更多...

Python语法基础（字符串列表元组字典）

Python语法基础（字符串列表元组字典）

目录字符串(str)字符串的创建特殊情况字符串的转义字符字符串的运算符字符串常用方法求字符串长度去掉多余空格是否包含某子串分割字符串合并字符串替换字符串统计统计字符串出现的次数练习：判断字符串是否为回文串列表(list)列表的创建列表常用方法遍历列表列表…

阅读更多...

redis配置文件详解

redis配置文件详解

一、配置文件位置以配置文件启动 Redis 的配置文件位于 Redis 安装目录下，文件名为 redis.conf ( Windows名为redis.windows. conf) 例： # 这里要改成你自己的安装目录 cd ./redis-6.0.8 vim redis.conf redis对配置文件对大小写不敏感二、配置文件 1、获取当前服务的…

阅读更多...

2023.11.10联赛 T4题解

2023.11.10联赛 T4题解

题目大意题目思路我们考虑分块处理。我们可以维护一个状态，表示块内每个字母对应的真实字母，因为只有 3 3 3个字母，所以只有 6 6 6种情况。对于每一个块，我们可以对于每种状态、每种块，预处理出以 A A A或 B B …

阅读更多...

文件缓存的读写

文件缓存的读写

文件系统的读写，其实就是调用系统函数 read 和 write。下面的代码就是 read 和 write 的系统调用，在内核里面的定义。 SYSCALL_DEFINE3(read, unsigned int, fd, char __user *, buf, size_t, count) {struct fd f fdget_pos(fd); ......loff_t pos f…

阅读更多...

sjvisualizer，一个超强的Python数据可视化动画库

sjvisualizer，一个超强的Python数据可视化动画库

大家好，今天给大家介绍一个非常棒的数据可视化库，sjvisualizer。根据时间序列数据制作动态图表，包含条形图、饼图、堆叠条形图、折线图、堆叠面积图。可以先看一下官方的示例~ 只需几行代码，就可以制作电脑浏览器发展史的动态…

阅读更多...

skynet学习笔记02— skynet介绍、skynet基础API与环境变量

skynet学习笔记02— skynet介绍、skynet基础API与环境变量

01、Skynet与Actor模型在系统Skynet之前，先了解一下Skynet与Actor模型，下列是风云大佬的介绍以及一个大佬的博客 https://github.com/cloudwu/skynet/wiki/GettingStartedhttps://blog.csdn.net/qq769651718/article/details/79432793 02、Skynet基础…

阅读更多...

最新文章