安全强化学习笔记

安全强化学习笔记

article2024/12/24 8:00:34/文章来源:https://blog.csdn.net/qq_42806204/article/details/135296835

这里写自定义目录标题

参考资料 Safe Reinforcement Learning
环境
算法
- CPO 2017 ICML
- PCPO 2019 ICLR
- FOCOPS 2020 NIPS
- CRPO 2021 ICML
- CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图（Safe RL Roadmap）编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning（一）2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法	算法	类型	时间	会议	引用量
CPO	约束策略优化	CPO-based 二阶	2017	ICML	1214
RCPO	奖励约束策略优化	Primal-Dual	2018	ICLR	452
PCPO	基于投影的约束策略优化	CPO-based 二阶	2019	ICLR	188
FOCOPS	策略空间中的一阶约束优化	CPO-based 一阶	2020	NIPS	87
CRPO	约束修正策略优化	Lagrange	2021	ICML	84
CUP	约束更新投影	CPO-based 一阶	2022	NIPS	18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单，只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

omnisafe代码
CRPO slideslive
CRPO slideslive 短
在这里插入图片描述

CUP 2022 NIPS

github代码
omnisafe代码git
omnisafe代码

强化学习 safe RL小综述从TRPO出发捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导，得出了更紧的上下界
在具体的实现上做了改变，使得每次更新对计算资源的需求更小。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/324505.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

排序算法之七：归并排序（非递归）

排序算法之七：归并排序（非递归）

1.非递归实现思路我们之前学习了递归实现的归并排序，是分治的思想，即先分解，再归并这篇文章我们讲一下非递归的实现非递归实现的思路是模拟递归的过程，在递归过程中，我们找key将数组分成左右数组，然后…

阅读更多...

uni-table改表头的样式，uniapp项目，颜色，字体颜色

uni-table改表头的样式，uniapp项目，颜色，字体颜色

:first-child,:nth-child选择器的使用和隔行变色_firstchild怎么用-CSDN博客

阅读更多...

Rocketmq rust版本-开篇

Rocketmq rust版本-开篇

我是蚂蚁背大象(Apache EventMesh PMC&Committer)，文章对你有帮助给Rocketmq-rust star,关注我GitHub:mxsm，文章有不正确的地方请您斧正,创建ISSUE提交PR~谢谢! Emal:mxsmapache.com Rust重构Rocketmq,大家好我是mxsm(Apache EventMesh PMC&Comm…

阅读更多...

高级分布式系统目录汇总

高级分布式系统目录汇总

临近《高级分布式系统》考试，所以一边复习((⊙o⊙)…，其实是预习，哈哈^_^)，一边写高级分布式博客。先将高级分布式章节以及相关博客罗列如下，欢迎和大家一起学习。资料部分参考上了以下教材： 分布式实时系统…

阅读更多...

css 前端实现通过css动画实现进度条动态加载效果

css 前端实现通过css动画实现进度条动态加载效果

效果图代码 CommonProcess.vue 进度条动态加载组件代码  <template><div class"common_process"><div v-for"(item, index) in dataList" :key"processType index" class"common_process_item…

阅读更多...

Qt6入门教程 6：Qt元对象系统

Qt6入门教程 6：Qt元对象系统

目录一.什么是Qt元对象系统？ 二.编译时Qt Creator偷摸做了哪些事情？ 1.uic 2.rcc 3.moc 一.什么是Qt元对象系统？ Qt中的元对象系统（Meta-Object System）提供了对象间通信的信号和槽机制、运行时类型信息和动态属…

阅读更多...

算法复习——01背包

算法复习——01背包

01背包 DP分析法要素有：集合，属性，状态计算 （集合是指只考虑前i个，总体积小于等于j的所有选法，存取的属性是所有选法的最大值） 状态方程计算（所有选法可以分为2种不同的子集&#x…

阅读更多...

快速高效处理长图：按指定高度切长图的方法，提升设计品质

快速高效处理长图：按指定高度切长图的方法，提升设计品质

在现代视觉传达设计中，长图作为一种常见的表现形式，被广泛应用于各种场景。如何快速高效地处理长图，使其符合设计要求和用户体验，成为设计师们面临的一大挑战。现在来看“办公提效工具”如何按指定高度切长图，提升设计…

阅读更多...

华清远见作业第二十七天——网络编程（第二天）

华清远见作业第二十七天——网络编程（第二天）

思维导图： 在虚拟机实现客户端控制机械臂代码： #include<stdio.h> #include<string.h> #include<stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <a.h> #define SER_PORT 8888 //服务端口 #d…

阅读更多...

基于信号完整性的PCB设计原则

基于信号完整性的PCB设计原则

最小化单根信号线质量的一些PCB设计建议 1. 使用受控阻抗线； 2. 理想情况下，所有信号都应该使用完整的电源或地平面作为其返回路径，关键信号则使用地平面作为返回路径； 3. 信号的返回参考面发生变化时，在尽可能接近…

阅读更多...

Seaborn——可视化的具体API应用

Seaborn——可视化的具体API应用

一、Seaborn概述 Seaborn 是基于 matplotlib的图形可视化 python包。提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。 Seaborn在 matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seab…

阅读更多...

WEB 3D技术 three.js 阴影属性

WEB 3D技术 three.js 阴影属性

上文 WEB 3D技术 three.js 光照与阴影我们说了阴影那么我们继续将阴影的属性目前我们的代码 import ./style.css import * as THREE from "three"; import { OrbitControls } from "three/examples/jsm/controls/OrbitControls.js";//创建相机 cons…

阅读更多...

集成xxljob项目如何迁移到K8S

集成xxljob项目如何迁移到K8S

前言大家好，今天我们将基于XXL-Job，探讨任务调度迁移到云端的相关话题。 XXL-Job是一款功能强大、易用可靠的国产分布式任务调度平台，是目前国内使用比较广泛的分布式任务调度平台之一。它的主要特点包括： 支持分布式、多线程…

阅读更多...

Java中的异常处理

Java中的异常处理

目录前言： 异常简介： Error类： Exception类： Exception异常： 运行异常： 编译异常： throw和throws关键字： throw: throws: try-catch关键字： finally: 为…

阅读更多...

nvcc -V显示command not found

nvcc -V显示command not found

出现这个问题，不仅是 nvcc -V会显示command not found,nvidia-smi同样也会显示解决方法如下： 1）这里首先转换到CUDA所在位置，一般是在这个位置 cd /usr/local 2）打开、编辑环境变量的配置文件 vim ~/.bashrc …

阅读更多...

NLP论文阅读记录 - 2021 | WOS 利用 ParsBERT 和预训练 mT5 进行波斯语抽象文本摘要

NLP论文阅读记录 - 2021 | WOS 利用 ParsBERT 和预训练 mT5 进行波斯语抽象文本摘要

文章目录前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献二.前提三.本文方法A. 序列到序列 ParsBERTB、mT5 四实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果4.6 细粒度分析五总结思考前言 Leveraging ParsBERT and Pretrained …

阅读更多...

【JupyterLab】在 conda 虚拟环境中 JupyterLab 的安装与使用

【JupyterLab】在 conda 虚拟环境中 JupyterLab 的安装与使用

【JupyterLab】在 conda 虚拟环境中 JupyterLab 的安装与使用 1 JupyterLab 介绍2 安装2.1 Jupyter Kernel 与 conda 虚拟环境 3 使用3.1 安装中文语言包(Optional)3.2 启动3.3 常用快捷键3.3.1 命令模式下 3.4 远程访问个人计算机3.4.1 局域网下 1 JupyterLab 介绍官方文档: …

阅读更多...

分布式搜索——Elasticsearch

分布式搜索——Elasticsearch

Elasticsearch 文章目录 Elasticsearch简介ELK技术栈Elasticsearch和Lucene 倒排索引正向索引倒排索引正向和倒排 ES概念文档和字段索引和映射Mysql与Elasticsearch 安装ES、Kibana安装单点ES创建网络拉取镜像运行部署kibana拉取镜像部署安装Ik插件扩展词词典停用词词典索引…

阅读更多...

政采网调试要求及常见问题解决方法

政采网调试要求及常见问题解决方法

登录平台软件环境要求： 操作系统：建议Win10及以上（Win10-64位专业版版本号17134纯净安装版本） 浏览器：IE11浏览器、谷歌120.0.6099.217（64位正式版）浏览器必要软件：CA互联互通…

阅读更多...

python高校舆情分析系统+可视化+情感分析舆情分析+Flask框架（源码+文档）✅

python高校舆情分析系统+可视化+情感分析舆情分析+Flask框架（源码+文档）✅

毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏） 毕业设计：2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题&#xff…

阅读更多...

最新文章