Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning

ICML 2023 Poster
paper

Intro

文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。

Method

原始的RL目标是最大化累计奖励: π ∗ = arg ⁡ max ⁡ π J R ( π ) : = E [ ∑ t = 0 ∞ γ t r t ] \pi^*=\arg\max_\pi J_R(\pi):=\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tr_t\right] π=argmaxπJR(π):=E[t=0γtrt]。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标
max ⁡ π J R + I ( π , α ) = max ⁡ π E [ ∑ t = 0 H γ t ( r t − α H t X ( π ∣ π ˉ ) ) ] \max_{\pi}J_{R+I}(\pi,\alpha)=\max_{\pi}\mathbb{E}\left[\sum_{t=0}^{H}\gamma^{t}(r_{t}-\alpha H_{t}^{X}(\pi|\bar{\pi}))\right] πmaxJR+I(π,α)=πmaxE[t=0Hγt(rtαHtX(ππˉ))]
其中 H t X ( π ∣ π ˉ ) = − E a ∼ π ( ⋅ ∣ τ t ) [ log ⁡ π ˉ ( a ∣ o t T ) ] H_t^X(\pi|\bar{\pi})=-\mathbb{E}_{a\sim\pi(\cdot|\tau_t)}[\log\bar{\pi}(a|o_t^T)] HtX(ππˉ)=Eaπ(τt)[logπˉ(aotT)]。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。形式化该问题便得到算法核心的优化目标
max ⁡ π J R + I ( π , α ) s.t. J R ( π ) ≥ J R ( π R ) \max_\pi J_{R+I}(\pi,\alpha)\quad\text{s.t.}\quad J_R(\pi)\geq J_R(\pi_R) πmaxJR+I(π,α)s.t.JR(π)JR(πR)
其中 π R \pi_R πR是只采用任务原始奖励所优化的辅助策略。进一步转化为拉格朗日对偶问题
min ⁡ λ ≥ 0 max ⁡ π [ J R + I ( π , α ) + λ ( J R ( π ) − J R ( π R ) ) ] = min ⁡ λ ≥ 0 max ⁡ π [ ( 1 + λ ) J R + I ( π , α 1 + λ ) − λ J R ( π R ) ] \min_{\lambda\geq0}\max_{\pi}\left[J_{R+I}(\pi,\alpha)+\lambda\left(J_{R}(\pi)-J_{R}(\pi_{R})\right)\right]=\\\min_{\lambda\geq0}\max_{\pi}\left[(1+\lambda)J_{R+I}(\pi,\frac{\alpha}{1+\lambda})-\lambda J_{R}(\pi_{R})\right] λ0minπmax[JR+I(π,α)+λ(JR(π)JR(πR))]=λ0minπmax[(1+λ)JR+I(π,1+λα)λJR(πR)]
解决该问题分两步,第一步优化策略 π \pi π以及 π R \pi_R πR。然后通过梯度下降优化乘子 λ \lambda λ
λ n e w = λ o l d − μ [ J R ( π ) − J R ( π R ) ] \lambda_{new}=\lambda_{old}-\mu[J_R(\pi)-J_R(\pi_R)] λnew=λoldμ[JR(π)JR(πR)]
其中 J R ( π ) − J R ( π R ) = E ( s , a , t ) ∼ ρ [ γ t ( A π R ( s , a ) − A π ( s , a ) ) ] J_R(\pi)-J_R(\pi_R)=\mathbb{E}_{(s,a,t)\thicksim\rho}[\gamma^t(A_{\pi_R}(s,a)-A_\pi(s,a))] JR(π)JR(πR)=E(s,a,t)ρ[γt(AπR(s,a)Aπ(s,a))]

这个更新规则很直观:如果融合专家优化得到的策略 π \pi π比辅助策略 π R \pi_R πR实现了更多的任务奖励,则 λ \lambda λ减少,增加了 α 1 + λ \frac{\alpha}{1+\lambda} 1+λα,使得策略优化更依赖于下一次迭代中的专家。否则,如果 辅助策略 π R \pi_R πR比策略 π \pi π获得更高的奖励,则 λ 的增加会降低教师的重要性。

伪代码

在这里插入图片描述

results

在这里插入图片描述

问题

伪代码第12行采用了梯度上升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/626498.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis常见报错:org.apache.ibatis.binding.BindingException

哈喽,大家好,我是木头左! 异常现象描述 当开发者在使用MyBatis进行数据库操作时,可能会遇到org.apache.ibatis.binding.BindingException: Parameter appId not found这样的错误提示。这个错误通常会让程序无法正常运行&#xff…

DeepSort / Sort 区别

推荐两篇博文,详细介绍了deepsort的流程及代码大致讲解: https://blog.csdn.net/qq_48764574/article/details/138816891 https://zhuanlan.zhihu.com/p/196622890 DeepSort与Sort区别: 1、Sort 算法利用卡尔曼滤波算法预测检测框在下一帧的状态,将该状态与下一帧的检测结…

TongWeb8 脚本录制功能

应用场景 在TongWeb8的命令行使用过程中,为简化从手册查找命令行参数的过程,增加了脚本录功能。录制您在控制台上所进行的操作过程,并可在一个新的环境回放这些操作,以提高业务系统的部署效率。录制的脚本文件类型包括 commandsto…

webapi路由寻址机制

路由匹配的原则 1、启动 Application_Start 文件夹中有个WebApiConfig 会把路由规则写入一个容器 2、客户端请求时: 请求会去容器匹配,先找到控制器(找到满足的,就转下一步了),然后找Action,we…

高级DBA手把手教你达梦8国产数据库级联更新语句用MergeInto合并代替方法(达梦官方手册无此内容)

高级DBA手把手教你达梦8国产数据库级联更新语句用MergeInto合并代替方法(达梦官方手册无此内容) 一、传统级联更新语句例子 举例: 表 1:T1 字段名类型A时间类型B字符类型C字符类型D字符类型E字符类型 表 2:T2 字…

IDEA找不到database图标的解决方法

首先右边侧边栏和左边的侧边栏都看一下,确认没有数据库图标以后再参考下面方法。 第一步,打开设置,在插件里搜索database 第二步 安装好,点击确定 返回主页面,左边的侧边栏会出现database图标,点击号就可以…

C++自定义日期类的精彩之旅(详解)

在学习了C的6个默认成员函数后,我们现在动手实现一个完整的日期类,来加强对这6个默认成员函数的认识。 这是日期类中所包含的成员函数和成员变量: 构造函数 // 函数:获取某年某月的天数 inline int GetMonthDay(int yea…

2024精美UI小程序打印系统源码 PHP后端 附搭建教程+功能脑图

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 后端安装说明: 测试环境:NginxPHP7.4MySQL5.6 PHP安装扩展:sg11 网站运行目录设置为:/public 网站伪静态规则设置为:think…

C++基础语法之数组

一、一维数组 在C中,一维数组是一系列具有相同数据类型的元素的集合。它们在内存中是连续存储的,可以通过索引访问每个元素。 一维数组的声明形式如下: 数据类型 数组名[常量表达式] 例如: // 声明一个能存储10个整数的数组 in…

33三个启动菜单的区别辨析与本质探索

三个启动菜单的区别辨析与本质探索 你是否傻傻分不清以下三种启动菜单的本质到底是什么? 有一个看起来非常古老生硬,蓝色大背景,字母丑陋; 还有一个看起来老气横秋,黑底白字,像极了远古时期的电脑报废的样…

CSS2(一):CSS选择器

文章目录 1、CSS基础1.1 CSS简介1.2 CSS编写位置1.2.1 行内样式1.2.2 内部样式1.2.3 外部样式1.2.4 样式优先级 1.2.5 CSS代码风格 2、CSS选择器2.1、基本选择器2.1.1 通配选择器2.1.2 元素选择器2.1.3 类选择器2.1.4 ID选择器2.1.5 总结 2.2、CSS复合选择器2.2.1 交集选择器2.…

TailwindCSS在vite项目中的安装与使用

一、Tailwind CSS工作原理 Tailwind CSS 的工作原理是扫描所有 HTML 文件、JavaScript 组件和任何其他类名称模板,生成相应的样式,然后将它们写入静态 CSS 文件。它快速、灵活且可靠 — 具有零运行时间。 二、安装必要依赖 Vite创建的项目默认集成了Post…

【从零开始学习Redis | 第十一篇】快速介绍Redis持久化策略

前言: Redis 作为一种快速、高效的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景。然而,由于其特性是基于内存的,一旦服务器进程退出,内存中的数据就会丢失。为了解决这一问题,Redis 提供了持久…

二叉树——初解

二叉树 树树的概念树的性质 二叉树二叉树的概念二叉树的性质二叉树的实现方式数组构建左孩子右兄弟法构建指针构建 树 树的概念 在计算机科学中,树(Tree)是一种重要的非线性数据结构,它由若干节点(Node)组…

揿针在医保上叫什么?

点击文末领取揿针的视频教程跟直播讲解 创新型皮内针(揿针)——医保甲类产品 皮内针(揿针)技术属于重点推广的中医适宜技术,是将特制的小型针具固定于腧穴部位的皮内或皮下做较长时间留针的一种方法,称“…

商家利器!手机智能无人直播实时场景,轻松解决获客难、成本高难题

​​随着互联网的飞速发展,直播行业正在成为一种新型的商业模式。然而,许多商家在进行直播带货时面临着获客困难和高成本的挑战。为了解决这些问题,本文将介绍一种名为"自动直播"的功能,并详述如何利用手机实现实时场景…

2025考研专业课、英语、数学、政治视频大全,整理全了!

考研季又到了,备考的小伙伴们,你们准备好了吗? 时间管理 考研是一场与时间的赛跑,合理安排时间,让复习更高效! - 制定详细的学习计划,每天、每周、每月都有明确目标 - ‍♂️ 保持一定的学习…

AI日报:OpenAI全能模型GPT-4o发布;阿里推自动化视频剪辑神器;AI作品会侵权吗?调研结果...;零一万物开源Yi-1.5模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、干翻所有语音助手&#x…

2024年了,Covid19怎么发?PANoptosis程序性死亡,抓紧上车!

说在前面 大家众所周知的新冠,其实早在19年末,20年初的时候很多人都抓住了这个热点发到了好文章,Covid-19,这玩意可以做到让一个期刊从2分飙升到20分,且非预警期刊,不过现在退火了,今年是12.7分…

程序员就是管道工

程序是由指令和数据组成的。 指令是按照特定的顺序执行的,这些顺序好比水的流向。 要想让水高效地流向我们想要的地方,就要设计一个精良的管道系统,这好比算法。 剩下的就是修建管道了,你要知道各种管的型号、用途,然…