Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023
paper
code
preference based offline RL,基于HIM,不依靠额外学习奖励函数

Intro

本研究聚焦于离线偏好引导的强化学习(Offline Preference-based Reinforcement Learning, PbRL),这是传统强化学习(RL)的一个变体,它不需要在线交互或指定奖励函数。在这个框架下,代理(agent)被提供了固定的离线轨迹数据和人类对轨迹对的偏好,用以提取动态信息和任务信息。

由于动态信息和任务信息是正交的,简单的方法可能涉及先基于偏好学习奖励函数,然后使用现成的离线RL算法。然而,这需要单独学习一个标量奖励函数,然而该过程被认为存在信息瓶颈。

为了解决这个问题,作者提出了一种新的范式——离线偏好引导策略优化(Offline Preference-guided Policy Optimization, OPPO),它通过对离线轨迹和偏好直接建模,消除了单独学习奖励函数的需要。OPPO通过引入一个离线后见信息匹配目标(HIM)来优化上下文策略,以及一个偏好建模目标来找到最优上下文。OPPO进一步通过迭代优化这两个目标来整合一个表现良好的决策策略。实证结果表明,OPPO有效地模拟了离线偏好,并且在包括真实或伪奖励函数指定的离线RL算法在内的先前竞争基线上取得了更好的性能。

Method

在这里插入图片描述

HIM-driven Policy Optimization

min ⁡ π , I θ L H I M : = E ⁡ τ ∼ D ( τ ) [ ℓ ( I θ ( τ ) , I θ ( τ z ) ) + ℓ ( τ , τ z ) ] \min\limits_{\pi,I_\theta}\mathcal{L}_{\mathbf{HIM}}:=\underset{\tau\sim\mathcal{D}(\tau)}{\operatorname*{\mathbb{E}}}\left[\ell\left(I_\theta(\tau),I_\theta(\tau_\mathbf{z})\right)+\ell\left(\tau,\tau_\mathbf{z}\right)\right] π,IθminLHIM:=τD(τ)E[(Iθ(τ),Iθ(τz))+(τ,τz)]
其中 l \mathcal{l} l为损失函数。

Preference Modeling

min ⁡ z ∗ , I θ L P M : = E [ max ⁡ ( ℓ ( z ∗ , z + ) − ℓ ( z ∗ , z − ) + m , 0 ) ] \min_{\mathbf{z}^*,I_\theta}\mathcal{L}_{\mathbf{PM}}:=\mathbb{E}\Big[\max(\ell(\mathbf{z}^*,\mathbf{z}^+)-\ell(\mathbf{z}^*,\mathbf{z}^-)+m,0)\Big] z,IθminLPM:=E[max((z,z+)(z,z)+m,0)]
通过优化上式得到最佳embedding,使得条件策略产生的轨迹经过embedding后接近 z + z^+ z+

Training Objectives & Implementation Detai

L t o t a l : = L H I M + α L P M + β L n o r m \mathcal{L}_{\mathrm{total}}:=\mathcal{L}_{\mathrm{HIM}}+\alpha\mathcal{L}_{\mathrm{PM}}+\beta\mathcal{L}_{\mathrm{norm}} Ltotal:=LHIM+αLPM+βLnorm

采用BERT结构作为encoder : I θ : τ → z I_{\theta}:\tau\to\mathbf{z} Iθ:τz;采用GPT作为上下文条件策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z), 通过自回归建模预测未来的动作

伪代码

在这里插入图片描述

results

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/639267.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

QT编译安装mqtt连接Onenet云平台

目录 文章目录 目录前言一、编译mqtt**1.从官方源码下载对应自己qt版本的源文件,【此源文件不要有中文名称的路径】****2.打开qtmqtt.pro工程****3.选择qt的编译器,【我选择的是mingw 64】****4.将qtmqtt的源码头文件移植到QT的安装目录下面****5.编译**…

【译】MySQL复制入门: 探索不同类型的MySQL复制解决方案

原文地址:An Introduction to MySQL Replication: Exploring Different Types of MySQL Replication Solutions 在这篇博文中,我将深入介绍 MySQL 复制,回答它是什么、如何工作、它的优势和挑战,并回顾作为 MySQL 环境&#xff0…

数美滑块研究

周一,在清晨的阳光照耀下,逆向山脚下的小镇宁静而安详。居民们忙碌地开始一天的生活,而在爬虫镇子的边缘,一座古朴的道观显得格外神秘。 阿羊正静静地坐在青石长凳上,摸鱼养神。突然,一道清脆的声音在他耳…

android studio接入facebook踩坑1

今天在接入facebook第三方登录的时候,点击登录按钮,APP闪退,并报错 java.lang.RuntimeException Failure delivering result ResultInfo{whonull,request64206,result-1} 新文章链接https://lengmo714.top/facebook1.html 如下图:…

【Unity】Unity项目转抖音小游戏(三)资源分包,抖音云CDN

业务需求,开始接触一下抖音小游戏相关的内容,开发过程中记录一下流程。 使用资源分包可以优化游戏启动速度,是抖音小游戏推荐的一种方式,抖音云也提供存放资源的CDN服务 抖音云官方文档:https://developer.open-douyi…

vue + SpringBoot + flowable 实现工作流审批功能 (流程图部署)

目录 搭建前端vue项目 vue init webpack project_name 初始化项目 导入 element-ui 框架 npm install element-ui -s 设置 element-ui 全局配置 编辑 main.js 文件 import ElementUI from "element-ui"; // ui框架导入 import element-ui/lib/theme-chal…

网络模型-PoE技术

一、PoE简介 以太网供电PoE(Powerover Ethernet)是指通过以太网网络进行供电,也被称为基于局域网的供电系统PoL(PoweroverLAN)或有源以太网(Active Ethernet)。 1、PoE的优势: 可靠: 电源集中供电,备份方便。连接简捷: 网络终端不需外接电源&#xf…

大数据——大数据架构

一:大数据应用场景 1.离线批处理 数据量比较大,延迟比较高 2.实时检索 实时检索中的hbase按key值检索较快,因为其存储是顺序存储,但是对value的检索就相对较慢。 数据量大,实时查询数据,不能对数据做大量…

商品发布功能

文章目录 1.SPU和SKU介绍1.SPU2.SKU3.两者之间的关系 2.完成商品发布界面1.组件引入1.commoditylaunch.vue 引入到 src/views/modules/commodity下2.multiUpload.vue 引入到 src/components/upload/multiUpload.vue 2.创建菜单1.创建目录2.创建菜单,注意菜单路由要匹…

打破壁垒,实现多引擎3D内容轻量化交付|点量云流

随着应用场景的不断拓展,传统的视频流技术已难以满足日益复杂的需求。当前市场上的视频流解决方案支持的引擎基本是UE、Unitiy输出的exe3D应用,在处理WebGL等3D内容时,也存在诸多局限性,例如性能限制、跨平台兼容性问题、无法直接…

AGI技术与原理浅析:曙光还是迷失?

前言:回顾以往博客文章,最近一次更新在2020-07,内容以机器学习、深度学习、CV、Slam为主,顺带夹杂个人感悟。笔者并非算法科班出身,本科学制药、研究生学金融,最原始的算法积累都来源于网络,当时…

Wpf 使用 Prism 实战开发Day23

自定义对话框服务 当原有对话框不能满足需求的时候,可以通过自定义对话框来实现特殊的需求 一.自定义对话框主机服务步骤: 1.建立一个IDialogHostService 接口类,继承自 IDialogService 对话框服务类。并且自定义基类的服务方法。 public …

sh控制台输入文字多行 按“# ꧂ ꧁”结束

如果在Unix shell中输入多行文字,那么这样操作: 1. 打开您的终端(Terminal)。 2. 输入您的文字,每行文字后按回车键。 3. 当您完成输入所有文字后,输入“# ꧂ ꧁”然后按回车键,表示输入结束。…

海外私人IP和原生IP有什么区别,谁更有优势?

一、什么是海外私人IP?什么是原生IP? 1、海外私人IP: 海外私人IP是由专门的服务提供商提供的IP地址,这些IP地址通常与特定地理位置或国家相关联。这些IP地址独享私人而不用与其他用户共享。海外私人IP访问特定国家或地区的网站&am…

【golang】内存对齐

什么是内存对齐 在访问特定类型变量的时候通常在特定的内存地址访问,这就需要对这些数据在内存中存放的位置有限制,各种类型数据按照一定的规则在空间上排列,而不是顺序的一个接一个的排放,这就是对齐。 内存对齐是编译器的管辖…

2024 年 5 种领先的小语言模型:Phi 3、Llama 3 等

2024 年 5 种领先的小语言模型:Phi 3、Llama 3 等 近年来,GPT-3 和 BERT 等大型语言模型的发展改变了人工智能的格局,它们以其强大的功能和广泛的应用而闻名。 然而,除了这些巨头之外,一种新的 AI 工具类别也正在掀起…

平板如何实现无纸化会议

为了实现高效的无纸化会议,连通宝可以是在内部网络部署,那么,平板如何实现无纸化会议? 1. 服务器配置: 部署专用无纸化会议系统服务器(如rhub无纸化会议服务器)至组织的内部网络中。确保该服务…

[论文笔记]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

引言 今天带来一篇经典论文REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS的阅读笔记,论文中文意思是 在语言模型中协同推理和行动。 虽然大型语言模型(LLMs)在语言理解和互动决策任务中展现出强大的能力,但它们在推理(例如思维链提示)和…

【计算机毕业设计】基于SSM++jsp的实验室耗材管理系统【源码+lw+部署文档】

目录 第1章 绪论 1.1 课题背景 1.2 课题意义 1.3 研究内容 第2章 开发环境与技术 2.1 MYSQL数据库 2.2 JSP技术 2.3 SSM框架 第3章 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 系统流程 3.2.1 操作流程 3.2.2 登录流程 3.2.3 删除信息流…

0基础学习Mybatis系列数据库操作框架——Mysql的Geometry数据处理之WKB方案

大纲 序列化反序列化完整TypeHandlerSQL XML完整XML Mapper测试代码代码 在《0基础学习Mybatis系列数据库操作框架——Mysql的Geometry数据处理之WKT方案》中,我们介绍WTK方案的优点,也感受到它的繁琐和缺陷。比如: 需要借助ST_GeomFromText…