深度强化学习+大模型综述Survey on Large Language Model-Enhanced Reinforcement Learning

cfbca9c23e4944648a8858a4e3a1469d.png

论文地址:[2404.00282] Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods (arxiv.org)

摘要

对 LLM 增强 RL 中现有文献进行了全面的回顾,并总结了其与传统 RL 方法相比的特征,旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式,我们提出了一种结构化分类法来系统地对RL中llm的功能进行分类,包括四个角色:信息处理器、奖励设计者、决策者和生成器

INTRODUCTION

概念

强化学习 (RL) 是一种强大的学习范式,专注于控制和决策,其中代理通过与环境的试错交互来学习优化指定的目标。但是当应用于涉及语言和视觉信息的实际应用中时,深度 RL 算法面临着重大挑战,因为代理必须联合学习特征和控制策略。

目前深度强化学习存在的一些挑战

1、采样效率低下

样本效率低下:深度 RL 代理需要与环境的广泛交互来学习有效的策略,但是对于昂贵或有风险的数据收集场景是不切实际的,实际机器人或无人驾驶收集一些特殊的数据需要付出一定代价(如碰撞的数据等),所以深度强化学习训练机器人一般都是sim2real,而且需要大量的时间来收集熟悉,还需要克服虚拟场景到实际场景的迁移差别性;

2、奖励函数设计

奖励函数设计: 策略学习的性能在很大程度上取决于奖励函数的设计(为什么这样说呢,DRL的本质是将环境状态映射为动作决策量,并使得累积回报值最大化,而累积汇报和每一次的状态-动作对都是相关的,即预先定义的奖励模型,智能体执行一次动作转移到下一个状态,并得到一个奖励值,通过回溯一个eposide的过程得到每一步的回报值)。

55bdaaad24ad4d19b6c46798cb5c48ad.png

而奖励函数需要事先人为设计好,才能让智能体朝着期望的方向去更新深度强化学习的参数,不过这需要大量的人为测试,需要对任务进行深入的理解,进行手动试错(很自然的一个想法:是否需要一个奖励函数模型,让神经网络来拟合一个奖励函数,不断调整,而不是一个固定的分段函数);

第二章背景知识中提到的:在反馈有限的稀疏奖励设置中,奖励塑造对于引导代理走向有意义的行为至关重要;然而,这引入了无意中将代理偏向次优策略或过度拟合特定场景的风险。相反,对于复杂的任务,高性能奖励函数通常需要大量的手动试错,因为大多数设计的奖励是次优的或导致意外的行为。

3、泛化性

泛化性: 深度RL代理的泛化性仍然令人生畏,因为它们经常难以适应新的、看不见的环境,限制了代理在动态现实世界设置中的适用性。

第二章背景知识中提到的:核心问题在于 RL 算法能够将学习到的知识或行为转移到新的、以前未见过的环境中的能力。RL 模型通常在模拟或特定设置中进行训练,在这些场景中表现出色,但在面对新颖或动态条件时难以保持性能。这种限制阻碍了 RL 在现实世界情况下的实际应用,其中环境很少是静态的或完全可预测的。实现泛化要求模型不仅要学习特定的任务解决方案,还要理解可以适应一系列情况的基本原理。

4、自然语言理解能力

自然语言理解:深度 RL 在自然语言处理和理解场景中较困难,可以理解为在强化学习 (RL) 和模仿学习 (IL) 等主要范式中使用传统方法训练的代理通常缺乏这种能力,并且难以从丰富多样的环境的交互中有效地学习。

5、Multi-modal Reinforcement Learning(背景中提到的)

多模态数据的集成挑战 RL 范式,因为代理必须同时学习如何处理复杂的多模态数据并优化环境中的控制策略。需要解决自然语言理解和基于视觉的奖励函数设计等问题。(智能体需要同时处理模态之间的特征统一性和特征映射的决策,利用奖励机制去更新特征网络未必是明智的选择)。

大型语言模型 (LLM) 

与小型语言模型相比,llm具有在小型语言模型中不存在的能力,如上下文学习、推理能力等。此外,利用大量的训练数据,预训练的llm配备了广泛的世界知识。得益于这些功能,语言模型的应用已经从语言建模转移到任务解决,从基本的文本分类和情感分析到复杂的高级任务规划和决策。

这里补充下大模型的定义:

大型语言模型(LLM)是指包含数千亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本。可以参考下述论文:

4348af4592fa4e93beffef48ae8c258a.png

论文链接:[2303.18223] A Survey of Large Language Models (arxiv.org)

大模型的改进上述RL的挑战的角度

对于样本效率低下: LLM 可用于通过提供丰富、上下文明智的预测或建议来提高 RL 代理的样本效率,从而减少对广泛环境交互的需求。

对于奖励函数设计:LLM可以帮助构建更微妙和有效的奖励函数,通过提供对复杂场景的更深入理解来增强学习过程。

对于泛化性:利用基于语言的反馈来提高 RL 策略在看不见的环境中的泛化能力。

对于自然语言理解:使用 LLM 将复杂的基于自然语言的指令转换为 RL 代理的简单任务指定语言。

主要贡献

LLM-enhanced RL paradigm 

总结了特征并提供了一个相应的框架,清楚地说明了 1) 如何将 LLM 集成到经典代理-环境交互中,以及 2) LLM 为传统 RL 范式提供的多方面增强。

结构化分类法

信息处理器、奖励设计者、决策者和生成器.

工作回顾

Background of Large Language Models

优点

上下文学习

上下文学习能力消除了显式模型再训练或梯度更新的需要,因为它可以通过输入提示示例或相关知识来生成更好的响应或执行任务。具体来说,与任务相关的文本包含在提示中作为上下文信息,帮助 LLM 理解情况并执行指令。

Instruction Following

大型语言模型能够在没有明确示例的情况下,理解和遵循针对新任务的指令,并且能够有效地泛化到之前未遇到的任务。模型能够泛化到训练期间未曾遇到的任务,而不需要针对每个新任务提供大量的示例。

逐步推理

大型语言模型可以通过复杂的提示策略,如思维链(CoT)、思维树(ToT)和思维图(GoT),有效地解决复杂的任务。这些策略将解决问题的过程结构成顺序或分层步骤,促进更清晰和可理解的推理途径。此外,为规划而设计的提示使llm能够输出反映思想或行动进展的序列。

LARGE LANGUAGE MODEL-ENHANCEDREINFORCEMENT LEARNING

定义

LLM-enhanced RL是指利用预先训练的知识固有AI模型的多模态信息处理、生成、推理等能力来辅助RL范式的方法。利用具有一般知识的模型,这意味着与其他数据驱动模型相比,该模型在学习过程中具有相当大的能力水平和更好的泛化。此外,LLM 增强的 RL 仍然使用 AI 模型,并且可以通过 RL 交互数据持续学习以提高其能力。

Framework

LLM处理状态信息,重新设计奖励,帮助行动选择,并在行动选择后解释策略。

6b88797a79654b62a0f8c42a86ebf6ae.png

一方面,当代理从环境中接收状态和奖励信息时,LLM 能够处理或修改信息以过滤不必要的基于自然语言的信息或设计适当的奖励以加速学习过程,基于自然语言理解和推理能力。

另一方面,当代理即将根据观察选择一个动作时,LLM可以通过模拟世界模型或作为策略网络来辅助动作选择过程,根据建模能力和常识知识生成合理的动作。此外,在动作选择过程之后,集成状态、奖励和动作信息,LLM可以解释策略选择背后的潜在可能原因。划分四个不同的LLM角色,包括信息处理器、奖励设计者、生成器和决策者。

LLM-enhanced RL paradigm

多模态信息理解:LLM 增强了 RL 代理对涉及多模态信息的场景的理解,使它们能够更有效地从自然语言和视觉数据中描述的任务或环境中学习。

多任务学习和泛化:受益于多学科预训练知识,LLM 通过设计奖励或生成参考动作来增强 RL 代理,促进多任务学习和泛化。

提高样本效率:鉴于固有的探索性性质,RL 范式需要大量样本来学习。预训练的LLM可以通过模拟或利用先验知识来提高RL的样本效率。

长视距处理: 由于信用分配问题,随着轨迹长度的增加,RL变得更具挑战性。llm可以将复杂的任务分解为子任务,以帮助RL代理在更长的时间范围内规划,帮助复杂、多步任务的决策过程,如Minecraft游戏。

奖励信号生成: 基于上下文理解和领域知识,llm有助于奖励塑造和奖励函数设计,帮助引导RL在稀疏奖励环境中进行有效的策略学习。

四种归类方法

Information Processor

当观察或任务描述涉及语言或视觉特征时,代理很难同时理解复杂的信息并优化控制策略。为了从理解多模态数据的负担中释放代理,LLM 可以通过

1) 作为环境信息或任务指令信息的信息处理器:提取有意义的特征表示来加速网络学习;

2) 将基于自然语言的环境信息或任务指令信息翻译成正式的特定任务语言,以降低学习的复杂性。

动机

具有语言或视觉信息的深度 RL 的正常方法是联合处理信息并学习控制策略端到端。然而,这要求 RL 代理学会同时理解信息并管理任务。此外,通过简单地依赖奖励函数来学习语言或视觉特征具有挑战性,并可能将学习到的特征缩小到狭窄的效用,阻碍了代理的泛化能力。

无监督技术和大规模预训练模型在 CV 和 NLP 方面的进步,编码器单独训练的解耦结构越来越受欢迎。利用强大的表示能力和先验知识,预训练的 LLM 或视觉语言模型 (VLM) 模型可以作为信息处理器,用于提取下游网络的观察表示或将无界自然语言转换为形式规范语言,从而提高 RL 的样本效率和零样本性能。

bc3aa9885a1b4ae8b1251dbbd15e7371.png5c8415a9119d448ba49d92b1a3420cd2.png

方法

Feature Representation Extractor

在 CV 和 NLP 中采用大型预训练模型,此范式直接使用Frozen Pre-trained Model或者通过对比学习进行Fine-tuning Pre-trained Model,修改预训练模型以学习不变特征表示。学习到的特征表示可以成为下游网络学习的脚手架嵌入,提高样本效率。

Language Translator

LLM 可以用作语言翻译器,以减少为 RL 代理理解自然语言的额外负担并提高样本效率。如上图 右所示,LLM 将多样化和非正式的自然语言信息转换为正式的特定于任务的信息,例如特征表示或特定于任务的语言,从而协助 RL 代理的学习过程。

1)Instruction Information Translation

将基于自然语言的指令翻译为可以由指令遵循系统理解的形式。这个过程可以看作是“Instruction Information Translation”,即将自然语言指令转化为机器能够理解和执行的信息。将自然语言指令转换成机器可以理解和操作的形式,从而在强化学习和指令遵循应用中实现更高效的学习和执行。

2)Environment Information Translation

将自然语言描述的环境信息翻译成用于指定马尔可夫决策过程(MDP)信息的正式特定领域语言方面的应用,帮助强化学习代理将自然语言描述的环境信息转换为一种更正式、更易于处理的语言,从而使代理能够更有效地学习和执行任务。

LLM AS REWARD DESIGNER

1)隐式奖励模型,根据环境信息提供奖励值,无论是通过训练还是提示;

2)显式奖励模型,它根据环境规范和基于语言的指令或目标透明地指定奖励标量的逻辑计算过程。

Implicit Reward Model

根据对任务目标和观察的理解直接提供辅助或整体奖励值,一种方法是通过语言描述直接提示,另一种方法是通过对视觉观察的特征表示和基于语言的指令之间的对齐进行评分。

ee96c773a5d54d44a5403df9ecb632e4.png

 Explicit Reward Model

生成显式指定计算过程细节的可执行代码

fb69d07125344ab49f2a3059feef992a.png

LLM AS DECISION-MAKER 

Direct Decision-Maker

在直接决策中,LLM 使用更强大的预训练模型来增强基于决策 Transformer 的方法,该模型具有更强大的预训练模型,具有更多的先验知识来解决具有更高样本效率的稀疏奖励和长期任务。

9bd4c8f0e30b4f009f107f2a644cbf25.png

基于决策 Transformer 的方法通过将离线 RL 的学习过程构建为监督学习问题,直接从序列建模的角度预测动作。

2d1a415da467406aaabecf6a45622a7b.png

013c6b99d47a418b849f41bd3e3c5166.png

Indirect Decision-Maker 

作为间接决策者,LLM 通过生成一组动作候选或提供指示或规范策略学习的参考策略来指导动作选择。

e1932d32d90540c182fd8d6c15403a82.png

1)Action Candidates

当LLM生成一组动作候选时,RL代理可以根据值函数进一步重新排列候选,并最大化累积奖励。

2)Reference Policy

利用大型语言模型提供的参考策略来指导强化学习过程中的策略更新,以更好地符合人类的偏好,并在动态环境中提高基于LLM的代理的适应能力。通过这种方式,强化学习代理能够更有效地学习和适应新环境,同时减少对大量数据的依赖。

LLM AS GENERATOR

利用强大的建模能力和世界知识,LLM可以作为世界模型模拟器,通过迭代预测下一个状态和奖励来学习高保真的复杂环境动态,从而提高基于模型的RL中的样本效率。

在 RL 中,可解释性仍然是当前黑盒 AI 系统中的一个重要问题,因为它们越来越多地被部署以帮助最终用户完成日常任务。策略的解释可以提高对代理决策的最终用户理解,并为代理学习的奖励函数设计提供信息。在这方面,LLM 可以根据知识和推理能力充当策略解释器。

ac1731df94414da183717830686996e1.png

总结 

阅读完了这篇论文之后,对于我来说收益最多的就是如何考虑RL的缺点,并如何利用大模型的优点从而进行有效的结合,作者以四个角度来总结了LLM-enhance RL的范式,对于机器人导航来说,可能重要的的是:

1、数据的生成,是否可以基于真实世界的机器人数据,将大模型作为数据生成器,但是考虑数据的随机性较强,可以尝试使用大模型来分析机器人数据得到有用的信息;

2、机器人历史信息的应用,深度强化学习的缺点之一就是无法高效利用上下文信息进行推理,而这正是大模型所具备的,可以尝试将二者进行有效互补;

3、奖励函数的设计,这确实是一个有用的且很好的建议,是深度强化学习的一大难题,需要考虑的因素较多,且人们可能会将reward设计成一个固定的分段函数,需要不断的“调参”可能才会得到想要的效果;

4、策略选择器,在机器人RL的连续动作选择过程需要进行一个限制范围的随机抽样,随机抽样的参考是否可以通过大模型根据常识来做出选择,从而使得智能体朝着正确的方向更新;

5、数据采样的提升,大模型是具备一定常识的深度神经网络,而DRL代理(agent)通过试错来学习如何在给定的环境中执行任务,这个过程通常需要大量的交互和经验积累。根据大模型可以对数据进行进一步的筛选,从而提高训练的效率。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/686664.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python短期内快速掌握学习人工智能知识能力】:从零到入门的NLP学习秘籍

⭐️我叫忆_恒心,一名喜欢书写博客的研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支…

基于.NetCore和ABP.VNext的项目实战九:集成Hangfire实现定时任务处理

Hangfire 是一个开源的.NET 任务调度框架,它提供了内置集成化的控制台,允许用户直观明了地查看作业调度情况。它基于队列的任务处理机制,客户端使用 BackgroundJob 类的静态方法 Enqueue 来调用指定的方法或匿名函数,并将任务持久化到数据库。 本文将完成一个任务调度中心…

实验五、IPv4地址的子网划分,第1部分《计算机网络》

但凡你有点本事,也不至于一点本事都没有。 目录 一、实验目的 二、实验内容 三、实验小结 一、实验目的 完成本练习之后,您应该能够确定给定 IP 地址和网络掩码 的网络信息。本练习旨在让您掌握如何根据给定 IP 地址计算网络 IP 地址信息。 二、实验…

万里长城第一步——尚庭公寓【技术概述】

简略版: 项目概述主要是移动端(房源检索;预约看房,租赁管理,浏览历史)和后台管理(管理员对房源进行操作); 项目使用前后端分离的方法,主要以后端为主&#xf…

企业数据挖掘建模平台极简建模流程

泰迪智能科技企业数据挖掘建模平台是企业自主研发,面向企业级用户的快速数据处理构建模型工具。平台底层算法基于R语言、Python、Spark等引擎,使用JAVA语言开发,采用 B/S 结构,用户无需下载客户端,可直接通过浏览器进…

CANoe-Trace窗口无法解析SOME/IP报文、Demo License激活方式改变

1、Trace窗口无法解析SOME/IP报文 在文章《如何让CANoe或Wireshark自动解析应用层协议》中,我们通过设置指定端口号为SOME/IP报文的方式,可以让CANoe中的Trace窗口对此端口号的报文当成是SOME/IP报文进行解析。 Trace窗口就可以根据传输层端口号对payload数据按照SOME/IP协议…

【前端面试3+1】18 vue2和vue3父传子通信的差别、props传递的数据在子组件是否可以修改、如何往window上添加自定义属性、【多数元素】

一、vue2和vue3父传子通信的差别 1、Vue2 父组件向子组件传递数据通常通过props属性来实现。父组件可以在子组件的标签中使用v-bind指令将数据传递给子组件的props属性。在子组件中,可以通过props属性来接收这些数据。这种方式是一种单向数据流的方式,父…

Astar路径规划算法复现-python实现

# -*- coding: utf-8 -*- """ Created on Fri May 24 09:04:23 2024"""import os import sys import math import heapq import matplotlib.pyplot as plt import time 传统A*算法 class Astar:AStar set the cost heuristics as the priorityA…

【C++】 使用CRT 库检测内存泄漏

CRT 库检测内存泄漏 一、CRT 库简介二、CRT 库的使用1、启用内存泄漏检测2、设置应用退出时显示内存泄漏报告3、丰富内存泄漏报告4、演示使用 内存泄漏是 C/C 应用程序中最微妙、最难以发现的 bug,存泄漏是由于之前分配的内存未能正确解除分配而导致的。 最开始的少…

面试(02)————Java集合篇

目录 一、为什么数组索引是从0开始?如果从1开始不行吗? 二、ArrayList底层的实现原理是什么? ​编辑三、ArrayList list new ArrayList(10)中的list扩容几次? 四、如何实现数组与List之间的转换? 五、ArrayList…

计算机图形学入门07:光栅化中的采样与走样

1.什么是光栅化? 在前面的章节里提过,光栅化(Rasterization)就是将物体投影在屏幕上的图形,依据像素打散,每一个像素中填充不同的颜色。 如下图中的老虎,可以看到屏幕上有各种多边形,这些多边形经过各种变换…

线性回归模型详解

一、引言 在机器学习中,线性回归模型是最基础也是最重要的预测模型之一,它是监督学习的一个简单但强大的工具,用于预测输出变量(Y)与一个或多个输入变量(X)之间的关系。线性回归模型以其容易理…

动态IP与静态IP的优缺点

在网络连接中,使用动态和静态 IP 地址取决于连接的性质和要求。静态 IP 地址通常更适合企业相关服务,而动态 IP 地址更适合家庭网络。让我们来看看动态 IP 与静态 IP 的优缺点。 1.静态IP的优点: 更好的 DNS 支持:静态 IP 地址在…

【因果推断python】19_局部平均效应2

目录 局部平均干预效果:后期 对参与度的影响 关键思想 局部平均干预效果:后期 局部平均处理效应明确了我们可以估计因果效应的人群。这也是查看 IV 的另一种方式,它提供了我们可以使用的其他很酷的直觉。在现代 IV 中,我们将工…

气膜乒乓球馆:新型体育设施的投资机遇—轻空间

乒乓球作为我国的国球,不仅在世界舞台上表现卓越,在国民的心目中也占有重要位置。随着科技的进步,气膜乒乓球馆作为一种新型体育设施,正逐渐走入大众视野,为乒乓球爱好者提供了一个舒适、安全、环保的运动场所。那么&a…

加强校园气膜体育馆建设的必要性—轻空间

在现代教育中,体育运动作为学生全面发展的重要组成部分,受到越来越多的重视。为了满足学生的运动需求,提供更好的运动场所,加强气膜体育馆在校园中的建设变得尤为重要。气膜体育馆作为一种新型体育设施,凭借其独特的优…

打造精细化运维新玩法(一)

一、SLO介绍——为什么需要SLO 二、SLO健康度——从0到1构建SLO 三、AIOps赋能——SLO和智能化结合 四、案例介绍——实践场景和运营探索 五、总结 精细化运维是运维演进的必由之路,是综合业务需求、研发效能、稳定性保障、成本优化、架构治理等多种因素驱动的必…

纷享销客集成平台(iPaaS)的应用与实践

案例一 企业系统集成的产品级解决方案 概况 随着国家出台一系列鼓励LED照明产业发展与创新的规划和政策,以及国际市场全球演唱会、音乐会的活跃以及线上零售、商业地产等行业回暖,LED显示行业发展形势积极向好。深圳市艾比森光电股份有限公司&#xff…

【Java】static 类方法中注意事项

static 类方法中注意事项 目录 代码示例: package suziguang_d4_staticNote;public class Student {public int score 66;public static String name "zhangsan";// 1.类方法中可以直接访问类的成员,不可以直接访问实例成员public static v…

Virustotal查询恶意进程

1、使用netstat查看可疑进程 执行ls -al /proc/$PID/exe确认可疑进程对应的文件;若文件未被删除,则直接上传文件到Virustotal进行检测,或者计算出文件对应的md5,使用md5去Virustotal进行查询;若文件已被删除&#xff0…