O2O:Adaptive policy learning for offline-to-online reinforcement learning

AAAI2023
paper

Introduction

传统Online RL需要智能体与环境进行海量交互,而Offline RL容易受限于数据集质量。因此本文提出一种O2O的自适应策略学习框架APL。APL在离线阶段悲观更新策略而在现阶段乐观更新。进一步,基于框架分别提出value-based 以及policy-based的RL算法。

Method

APL框架下对离线数据以及在线数据分别采用offlineRL算法以及onlineRL算法。一般化的形式如下:
C k + 1 ← F ( A ( C k ) + W ( s , a ) B ( C k ) ) C^{k+1}\leftarrow\mathcal{F}\left(\mathbb{A}(C^k)+\mathcal{W}(\mathbf{s},\mathbf{a})\mathbb{B}(C^k)\right) Ck+1F(A(Ck)+W(s,a)B(Ck))
其中C表示策略或者价值函数。A表示在线更新,B表示离线更新,W为权重参数。当数据near-on-policy时,W应该相应减小;反之面对offline数据则应该增加。

为了高效使用离线与在线数据,文章提出OORB的存储Buffer。OORB使用两个Buffer将离线数据以及在线交互数据分别存储。存储在线数据的buffer容量较小并遵循先进先出的原则,这样保证数据near-on-policy。而离线buffer不仅包含离线数据也包含所有在线交互数据。

文章设置伯努利分布判断使用哪个Buffer的数据。

value-based

基于值函数的APL算法结合CQL以及REDQ算法,即GCQL。那么上述一般形式的C代表Q值函数。

对于在线数据采用REDQ的Q更新方式。REDQ采用集成Q,每一个Q的更新:
A ( Q i k ) = E s , a , s ′ ∼ O O R B , a ′ ∼ π k ( ⋅ ∣ s ′ ) [ ( Q i k ( s , a ) − B π Q ^ k ( s ′ , a ′ ) ) 2 ] \mathbb{A}(Q_i^k)=\mathbb{E}_{\mathbf{s},\mathbf{a},\mathbf{s}^{\prime}\sim\mathrm{OORB},\mathbf{a}^{\prime}\sim\pi^k(\cdot|s^{\prime})}\left[\left(Q_i^k(\mathbf{s},\mathbf{a})-\mathcal{B}^\pi\hat{Q}^k(\mathbf{s}^{\prime},\mathbf{a}^{\prime})\right)^2\right] A(Qik)=Es,a,sOORB,aπk(s)[(Qik(s,a)BπQ^k(s,a))2]
其中target Q为: r + γ min ⁡ i ∈ M Q ^ i k ( s ′ , a ′ ) , a ′ ∼ π k ( ⋅ ∣ s ′ ) . r+\gamma\min_{i\in\mathcal{M}}\hat{Q}_i^k\left(\mathbf{s'},\mathbf{a'}\right),\quad\mathbf{a'}\sim\pi^k\left(\cdot\mid\mathbf{s'}\right). r+γminiMQ^ik(s,a),aπk(s).

对于离线数据集中的数据采用CQL的保守Q更新:
B ( Q i k ) = α E s ∼ 00 R B [ log ⁡ ∑ a ′ exp ⁡ ( Q i k ( s , a ′ ) ) − E a ∼ 00 R B [ Q i k ( s , a ) ] ] \mathbb{B}(Q_i^k)=\alpha\mathbb{E}_{\mathbf{s}\sim00\mathbf{R}\mathbf{B}}\left[\log\sum_{\mathbf{a'}}\exp(Q_i^k(\mathbf{s},\mathbf{a'}))-\mathbb{E}_{\mathbf{a}\sim00\mathbf{R}\mathbf{B}}[Q_i^k(\mathbf{s},\mathbf{a})]\right] B(Qik)=αEs00RB[logaexp(Qik(s,a))Ea00RB[Qik(s,a)]]

综上所述,Q值整体更新形式如下: Q i k + 1 = arg ⁡ min ⁡ Q i k { A ( Q i k ) + W ( s , a ) B ( Q i k ) } Q_i^{k+1}=\arg\min_{Q_i^k}\big\{\mathbb{A}(Q_i^k)+\mathcal{W}(\mathbf{s},\mathbf{a})\mathbb{B}(Q_i^k)\big\} Qik+1=argminQik{A(Qik)+W(s,a)B(Qik)}

策略更新如下:
π k + 1 = arg ⁡ max ⁡ π k E a ∼ π k ( ⋅ ∣ s ) [ E i ∈ N [ Q i k ( s , a ) ] − α log ⁡ π k ( a ∣ s ) ] \pi^{k+1}=\arg\max_{\pi^k}\mathbb{E}_{\mathbf{a}\sim\pi^k(\cdot|\mathbf{s})}\left[\mathbb{E}_{i\in N}\left[Q_i^k\left(\mathbf{s},\mathbf{a}\right)\right]-\alpha\log\pi^k\left(\mathbf{a}\mid\mathbf{s}\right)\right] πk+1=argπkmaxEaπk(s)[EiN[Qik(s,a)]αlogπk(as)]

Policy Based

采用TD3+BC的方法得到GCTD3BC。在线采用TD3更新而离线采用BC。上述一般式表示为
π k + 1 = a r g m a x π k E ( s , a ) ∼ OORB [ A ( π k ) + W ( s , a ) B ( π k ) ] = a r g m a x π k E ( s , a ) ∼ OORB [ λ Q k ( s , π ( s ) ) − W ( s , a ) ( π k ( s ) − a ) 2 ] \begin{align}\pi^{k+1}&=\underset{\pi^k}{\mathrm{argmax}}\mathbb{E}_{(\mathbf{s},\mathbf{a})\sim\text{OORB}}\left[\mathbb{A}(\pi^k)+\mathcal{W}(\mathbf{s},\mathbf{a})\mathbb{B}(\pi^k)\right]\\&=\underset{\pi^k}{\mathrm{argmax}}\mathbb{E}_{(\mathbf{s},\mathbf{a})\sim\text{OORB}}\left[\lambda Q^{k}(\mathbf{s},\pi(\mathbf{s}))-\mathcal{W}(\mathbf{s},\mathbf{a})(\pi^k(s)-a)^2\right]\end{align} πk+1=πkargmaxE(s,a)OORB[A(πk)+W(s,a)B(πk)]=πkargmaxE(s,a)OORB[λQk(s,π(s))W(s,a)(πk(s)a)2]

对于权重W,本文采用如下设置
W ( s , a ) ← { 0 if ( s , a ) ∼ online buffer 1 otherwise \mathcal{W}(\mathbf{s},\mathbf{a})\leftarrow\begin{cases}0&\text{if}\left(\mathbf{s},\mathbf{a}\right)\sim\text{online buffer}\\1&\text{otherwise}\end{cases} W(s,a){01if(s,a)online bufferotherwise

算法伪代码

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/436837.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝牙APP开发实现汽车遥控钥匙解锁汽车智能时代

在现代社会,随着科技的不断发展,汽车已经不再是简单的交通工具,而是与智能科技紧密相连的载体。其中,通过开发APP蓝牙程序实现汽车遥控钥匙成为了一种趋势,为车主带来了便捷与安全的体验。虎克技术公司作为行业领先者&…

Redis6 搭建主从集群架构

文章目录 搭建Redis主从集群架构1.集群结构2.准备实例和配置3.启动4.开启主从关系5.测试 搭建Redis主从集群架构 安装部署单机版Redis6可参考: 安装部署单机版Redis6 1.集群结构 我们搭建的主从集群结构如图: 我们计划是在一台虚拟机里去部署三个R…

区块链媒体套餐:精益求精链游媒体宣发推广7个关键细节分享-华媒舍

在如今竞争激烈的游戏行业,一款优秀的游戏缺乏有效的宣发推广,很难脱颖而出。而随着区块链技术的兴起,链游媒体的宣发推广成为游戏开发者和运营商的重要选择之一。本文将为大家介绍精益求精的链游媒体宣发推广的七个关键细节。 1. 定位目标受…

初学C++

注释 变量 作用:给一段指定的内存空间起名,方便操作这段内容 数据类型 变量名 变量初始值; 常量 用于记录程序中不可更改的数据 宏常量: #define 宏常量 常量值 const修饰的变量: const 数据类型 常量名 常量值; 关键字 …

从0到1入门C++编程——10 stack容器、queue容器、list容器、set容器、map容器

文章目录 一、stack容器二、queue容器三、list容器1、构造函数2、赋值和交换3、大小及判空4、插入和删除5、数据存取6、反转和排序7、排序案例 四、set/multiset容器1、构造和赋值2、大小和交换3、插入和删除4、查找和统计5、set和multiset的区别6、pair对组的创建7、排序及规则…

文献速递:深度学习疾病预后--临床级计算病理学使用基于整张切片图像的弱监督深度学习

Title 题目 Clinical-grade computational pathology using weakly supervised deep learning on whole slide images 临床级计算病理学使用基于整张切片图像的弱监督深度学习 01 文献速递介绍 The development of decision support systems for pathology and their deplo…

下载无水印抖音视频

在抖音看到某些视频想下载,却出现无法保存在本地【显示"作品暂时无法保存,链接已复制"】。或者下载的视频有水印。 而某些微信小程序下载可能需要付费或者有水印。其实我们可以直接使用电脑浏览器直接下载。 举个例子: 这是来自王道官方账号的一条视频链…

融合软硬件串流多媒体技术的远程控制方案

远程技术已经发展得有相当水平了,在远程办公,云游戏,云渲染等领域有相当多的应用场景,以向日葵,todesk rustdesk等优秀产品攻城略地,估值越来越高。占据了通用应用的方方面面。 但是细分市场,还…

【Simulink系列】——控制系统仿真基础

声明:本系列博客参考有关专业书籍,截图均为自己实操,仅供交流学习! 一、控制系统基本概念 这里就不再介绍类似于开环系统、闭环系统等基本概念了! 1、数学模型 控制系统的数学模型是指动态数学模型,大致…

开源文生图大模型Playground v2.5发布:超越SD、DALL·E 3和 Midjourney

前言 在AI技术迅速发展的今天,文生图模型成为了艺术创作、设计创新等领域的重要工具。Playground v2.5的发布,不仅在技术上取得了突破,更在开源文化的推广与实践上迈出了重要一步。 Huggingface模型下载:https://huggingface.co/…

【记录处理Vue项目中Video.js播放不了MP4视频Bug】

记录处理Vue项目中Video.js播放不了MP4视频Bug 一、项目场景:二、问题描述三、原因分析:四、解决方案: 一、项目场景: 在Vue项目中使用Video.js播放MP4视频。 二、问题描述 在项目中使用Video.js播放MP4视频。视频采集上来存在数…

使用java批量写入环境变量

环境需求 jdk版本&#xff1a;1.8 jna依赖&#xff1a; <dependency><groupId>net.java.dev.jna</groupId><artifactId>jna</artifactId><version>5.10.0</version></dependency><dependency><groupId>net.java.…

Java - Spring MVC 实现跨域资源 CORS 请求

据我所知道的是有三种方式&#xff1a;Tomcat 配置、拦截器设置响应头和使用 Spring MVC 4.2。 设置 Tomcat 这种方式就是引用别人封装好的两个 jar 包&#xff0c;配置一下web.xml就行了。我也并不推荐&#xff0c;这里放两个我在网上找到的配置相关文章&#xff0c;感兴趣可…

更快更强,Claude 3全面超越GPT4,能归纳15万单词

ChatGPT4和Gemini Ultra被Claude 3 AI模型超越了&#xff1f; 3月4日周一&#xff0c;人工智能公司Anthropic推出了Claude 3系列AI模型和新型聊天机器人&#xff0c;其中包括Opus、Sonnet和Haiku三种模型&#xff0c;该公司声称&#xff0c;这是迄今为止它们开发的最快速、最强…

【论文阅读】DeepLab:语义图像分割与深度卷积网络,自然卷积,和完全连接的crf

【论文阅读】DeepLab:语义图像分割与深度卷积网络&#xff0c;自然卷积&#xff0c;和完全连接的crf 文章目录 【论文阅读】DeepLab:语义图像分割与深度卷积网络&#xff0c;自然卷积&#xff0c;和完全连接的crf一、介绍二、联系工作三、方法3.1 整体结构3.2 使用空间金字塔池…

Stable Diffusion 提示词语法(Prompt)

本文收录于《AI绘画从入门到精通》专栏&#xff0c;专栏总目录&#xff1a;点这里。 大家好&#xff0c;我是水滴~~ 本篇文章主要讲述 Stable Diffusion 提示词语法&#xff0c;主要包括&#xff1a;提示词的概念、提示词的长度、权重、分步绘制、交替绘制、组合绘制等&#x…

ORA/GSA -- 学习记录

brief over-representation analysis(ORA),过表“达”分析&#xff0c;就是我们做多分组的RNAseq数据解析后会得到一些差异表达的gene&#xff0c;有些时候是单独拿出一个差异gene去解释表型&#xff0c;缺点是欠缺证据力度。有些人就把一些相关的差异gene放在一块儿解释&…

leetcode 热题 100_最大子数组和

题解一&#xff1a; 动态规划&#xff1a;这是一道经典的动态规划题。维护一个dp数组&#xff0c;dp[i]表示0~i组成的数组的最大子数组和。当数组长度为1时&#xff0c;最大和连续子数组是它本身&#xff0c;也就是dp[i]nums[i]。当数组长度每增加1时&#xff0c;最大和连续子数…

精准获客、优化体验,Xinstall数据自动分析全搞定

在移动互联网时代&#xff0c;App已经成为了我们生活中不可或缺的一部分。然而&#xff0c;对于App开发者来说&#xff0c;如何有效地评估渠道效果、精准获客以及优化用户体验&#xff0c;一直是一个令人头疼的问题。幸运的是&#xff0c;Xinstall作为一款一站式App全渠道统计服…

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

paper: https://arxiv.org/abs/2402.13616 code YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information 一、引言部分二、问题分析2.1 信息瓶颈原理2.2 可逆函数 三、本文方法3.1 可编程梯度信息 四、实验4.1消融实验部分 今天的深度学习方法关注的…