Agent AI: Surveying the Horizons of Multimodal Interaction---摘要、引言、代理 AI 集成

题目

智能体AI:多模态交互视野的考察
在这里插入图片描述

论文地址：https://arxiv.org/abs/2401.03568

在这里插入图片描述
图1：可以在不同领域和应用程序中感知和行动的Agent AI系统概述。Agent AI是正在成为通用人工智能（AGI）的一个有前途的途径。Agent AI培训已经证明了在物理世界中进行多模式理解的能力。它通过以下方式为与现实无关的培训提供了一个框架利用生成式人工智能以及多个独立的数据源。为代理和客户培训的大型基础模型当在跨现实数据上训练时，与动作相关的任务可以应用于物理和虚拟世界。我们介绍Agent AI系统的总体概述，该系统可以在许多不同的领域和应用中感知和行动，可能作为使用代理范式实现AGI的途径。

摘要

多模AI系统可能会在日常生活中无处不在。希望将这些系统视为相互作用的方法，以体现物理中的问题以及虚拟环境。目前，系统以现有的基础模型为基础用于制作浮雕的积木。在这种环境中嵌入代理促进模型停止过程的美观性，并解释可视化和外部数据，这一点至关重要为了创建更复杂、更具情境感知的AI系统。例如，可以感知用户行为、人类行为、环境对象、听觉表达和集体场景的情感被用来在给定的环境中提供信息和指导代理人的反应。为了加快基于Agent的多智能研究，我们将“Agent AI”定义为一类能够感知视觉刺激、语言输入和环境的交互系统基于地面数据，可以生成有意义的指纹。特别是，我们探索系统其目的是通过合并外部公司来改进基于下一个实施例的预测知识、多感官输入和人类反馈。我们认为开发不当系统环绕环境，一条渠系连接大基础冲积层模型及其产生对环境无害的输出的倾向。Agent的新兴领域AI涵盖了多模相互作用的更广泛的隐含和代理方面。超越在物质世界中行动和互动，我们期待人们可以轻松创造任何未来虚拟现实或模拟场景，与虚拟环境中的智能体互动

引言

动机

历史上，AI 系统在 1956 年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的人工生命体。受到这一定义的启发，明斯基（Minsky）在 MIT 团队于 1970 年开发了一种机器人系统，称为“复制演示”（Copy Demo），该系统能够观察“积木世界”场景并成功重建观察到的多面体积木结构。该系统包含了观察、规划和操作模块，揭示了这些子问题的高度挑战性，表明还需要进一步的研究。AI 领域逐渐分化为多个专业化的子领域，这些子领域在解决各种问题方面独立取得了巨大进展，但过度简化模糊了 AI 研究的总体目标。

为了超越现状，有必要回归由亚里士多德整体论驱动的 AI 基础。幸运的是，近期大语言模型（LLM）和视觉语言模型（VLM）的革命，使得创建符合整体理想的新型 AI 代理成为可能。抓住这一机会，本文探讨了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型，并探讨使用 LLM 和 VLM 完成这种整体合成的可能性。在探索中，我们还重新审视了基于亚里士多德的“最终原因”的系统设计，即“系统存在的目的”，这一点在以往的 AI 开发中可能被忽视。

随着强大预训练的 LLM 和 VLM 的出现，自然语言处理和计算机视觉领域迎来了复兴。LLM 现在展现出解读现实世界语言数据细微差别的强大能力，往往达到甚至超越人类专业水平（OpenAI，2023）。最近，研究人员表明，LLM 可以在各种环境中扩展为代理，当与领域特定的知识和模块结合时，可以执行复杂的操作和任务（Xi 等人，2023）。这些情境通过复杂推理、对代理角色及其环境的理解，以及多步骤的规划，测试了代理在其环境约束下做出细致决策的能力（Wu 等人，2023；Meta 基础 AI 研究（FAIR）外交团队，2022）。

基于这些初步努力，AI 社区正处于重要的范式转变的前沿，即从创建用于被动、结构化任务的 AI 模型，转变为能够在多样和复杂环境中承担动态代理角色的模型。在这一背景下，本文探讨了将 LLM 和 VLM 用作代理的巨大潜力，特别强调了具备语言能力、视觉认知、上下文记忆、直觉推理和适应性结合的模型。将 LLM 和 VLM 用作代理，特别是在游戏、机器人和医疗等领域，不仅提供了最先进 AI 系统的严格评估平台，还预示了代理中心 AI 将在社会和行业中带来的变革性影响。当这些代理模型被充分利用时，可以重新定义人类体验并提升操作标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的挑战交织在一起，不仅是技术的，还有伦理的挑战，我们将在第 1 节中详细阐述。我们还深入探讨了 Agent AI 各子领域的重叠区域，并在图 1 中展示了它们的相互关联。

背景

接下来，我们将介绍支持 Agent AI 概念、理论背景和现代实现的相关研究论文。大规模基础模型：大语言模型（LLM）和视觉语言模型（VLM）正在推动开发通用智能机器的努力（Bubeck 等，2023；Mirchandani 等，2023）。尽管这些模型是通过大量文本语料库进行训练的，但它们卓越的问题解决能力不仅限于传统的语言处理领域。LLM 有潜力应对此前被认为是人类专家或特定领域算法专属的复杂任务，从数学推理（Imani 等，2023；Wei 等，2022；Zhu 等，2022）到专业法律问题的解答（Blair-Stanek 等，2023；Choi 等，2023；Nay，2022）。最近的研究表明，LLM 可以用于为机器人和游戏 AI 生成复杂的计划（Liang 等，2022；Wang 等，2023a,b；Yao 等，2023a；Huang 等，2023a），这是 LLM 作为通用智能代理的重要里程碑。

具身 AI：许多研究利用大语言模型（LLM）进行任务规划（Huang 等，2022a；Wang 等，2023b；Yao 等，2023a；Li 等，2023a），尤其是 LLM 的大规模领域知识和零样本的具身能力，以执行复杂的任务规划和推理。最新的机器人研究也采用 LLM 进行任务规划（Ahn 等，2022a；Huang 等，2022b；Liang 等，2022），通过将自然语言指令分解为子任务序列（可以是自然语言形式或 Python 代码），然后使用低层控制器来执行这些子任务。此外，它们还结合环境反馈以改进任务表现（Huang 等，2022b；Liang 等，2022；Wang 等，2023a；Ikeuchi 等，2023）。

交互式学习：专为交互式学习设计的 AI 代理通过结合机器学习技术和用户互动来运行。起初，AI 代理在一个大型数据集上进行训练，数据集的内容根据代理的预期功能有所不同。例如，设计用于语言任务的 AI 会接受大量文本数据的训练。训练过程中使用了深度学习等机器学习算法，使 AI 能识别模式、做出预测并基于训练数据生成响应。AI 代理还可以从用户的实时互动中学习，这种交互式学习方式主要有以下几种：

基于反馈的学习：AI 根据用户的直接反馈调整其响应（Li 等，2023b；Yu 等，2023a；Parakh 等，2023；Zha 等，2023；Wake 等，2023a,b,c）。例如，当用户纠正 AI 的回答时，AI 会利用这些信息改进未来的响应（Zha 等，2023；Liu 等，2023a）。
观察学习：AI 通过观察用户互动进行隐性学习。例如，如果用户频繁提出类似的问题或以某种方式与 AI 互动，AI 可能会调整其响应以更好地适应这些模式。这种方式使 AI 代理能够理解和处理人类语言、多模态设置、跨现实情境的解释，并生成用户的响应。随着用户互动和反馈的增多，AI 代理的性能通常会不断提升。此过程通常由人类操作员或开发者监督，以确保 AI 学习得当，不会产生偏见或错误模式。

概述

多模态代理 AI（Multimodal Agent AI，MAA）是一类基于多模态感知输入理解而生成有效动作的系统。随着大语言模型（LLM）和视觉语言模型（VLM）的发展，许多 MAA 系统在从基础研究到应用的各个领域中不断涌现。尽管这些研究领域通过结合各自领域的传统技术（如视觉问答和视觉导航）迅速发展，它们在数据收集、基准测试和伦理视角方面具有共同的关注点。

本文着眼于 MAA 的一些代表性研究领域，包括多模态、游戏（VR/AR/MR）、机器人和医疗健康，旨在提供这些领域中普遍关注问题的全面知识。预计的学习成果包括：

MAA 概述：深入探讨其原理和在当代应用中的作用，帮助研究人员全面了解其重要性和用途。、
方法学：展示 LLM 和 VLM 如何增强 MAA 的具体例子，通过游戏、机器人和医疗健康等案例研究来说明。
性能评估：提供评估 MAA 有效性和泛化能力的相关数据集的指导。
伦理考虑：讨论部署代理 AI 所带来的社会影响和伦理问题，强调负责任的开发实践。
新兴趋势和未来方向：分类讨论各个领域的最新发展并展望未来方向。

基于计算的动作和通用代理（GAs）：通用代理在许多任务中都非常有用。为了让通用代理对用户真正有价值，它需要能够自然地互动，并适应各种上下文和模态。我们致力于培育一个充满活力的研究生态系统，在代理 AI 社区中创造共享的身份感和目标。多模态代理 AI（MAA）在包括人类输入在内的各种上下文和模态中具有广泛的应用潜力。因此，我们相信该领域可以吸引多样化的研究人员群体，促进动态的代理 AI 社区和共同目标的形成。在学术界和产业界的知名专家的带领下，我们希望这篇论文能够成为一次互动且充实的体验，通过代理指导、案例研究、任务环节和实验讨论，为所有研究人员提供全面且富有吸引力的学习体验。

本文旨在提供关于代理 AI 领域当前研究的一般性和全面性的知识。为此，本文的余下内容组织如下：第2部分概述了代理 AI 如何通过与相关新兴技术，特别是大型基础模型的集成而受益。第3部分描述了我们为代理 AI 训练提出的新范式和框架。第4部分提供了广泛应用于代理 AI 训练的各种方法概览。第5部分对各类代理进行了分类和讨论。第6部分介绍了代理 AI 在游戏、机器人和医疗健康领域的应用。第7部分探讨了研究界在开发一种适用于多种模态和领域，并能够实现模拟到现实过渡的通用代理 AI 方面的努力。第8部分讨论了代理 AI 的潜力，不仅依赖于预训练的基础模型，还通过与环境和用户的互动不断学习和自我改进。第9部分介绍了我们为多模态代理 AI 训练设计的新数据集。第11部分讨论了代理 AI 的伦理问题、局限性和社会影响这一热点话题。

代理 AI 集成

基于大型语言模型（LLM）和视觉语言模型（VLM）的基础模型，在具身 AI 领域的表现仍有限，特别是在理解、生成、编辑和在未见过的环境或场景中互动方面（Huang 等，2023a；Zeng 等，2023）。因此，这些限制导致了 AI 代理输出的效果不佳。当前的以代理为中心的 AI 建模方法专注于直接可访问和清晰定义的数据（例如世界状态的文本或字符串表示），并通常使用大规模预训练中学习的领域和环境无关的模式来预测每种环境的动作输出（Xi 等，2023；Wang 等，2023c；Gong 等，2023a；Wu 等，2023）。在 Huang 等人（2023a）的研究中，我们通过结合大型基础模型，探索了知识引导的协作和交互式场景生成任务，展示了知识为基础的 LLM 代理能够提升2D和3D场景理解、生成和编辑的表现，并支持人机交互（Huang 等，2023a）。通过集成代理 AI 框架，大型基础模型能够更深入地理解用户输入，形成一个复杂且自适应的人机交互系统。

LLM 和 VLM 的新兴能力在生成 AI、具身 AI、知识增强多模态学习、混合现实生成、文本到视觉编辑、人机交互、以及游戏或机器人任务中的2D/3D模拟中具有不可见的潜力。代理 AI 在基础模型上的最新进展为具身代理的通用智能解锁带来了催化剂。大型动作模型，或代理-视觉-语言模型为具身系统中的计划、问题解决和复杂环境中的学习等通用用途打开了新的可能性。代理 AI 在元宇宙中的进一步测试预示着 AGI 的早期版本的路径。

无限 AI 代理

AI 代理能够基于其训练和输入数据进行解释、预测和响应。尽管这些能力在不断进步，但重要的是要认识到其限制以及训练数据对其性能的影响。AI 代理系统通常具备以下能力：

预测建模：AI 代理可以基于历史数据和趋势预测可能的结果或建议下一步行动。例如，它们可以预测文本的续写、问题的答案、机器人下一步的动作，或场景的解决方案。
决策制定：在某些应用中，AI 代理可以基于其推理进行决策。通常，代理会根据最有可能实现特定目标的行动来进行决策。例如，在推荐系统中，代理可以基于对用户偏好的推断来决定推荐的产品或内容。
处理歧义：AI 代理通常能够通过推断最可能的解释来处理模糊的输入，但其能力受限于其训练数据和算法的范围。
持续改进：尽管有些 AI 代理能够从新数据和互动中学习，但许多大型语言模型在训练后不会持续更新其知识库或内部表示。它们的推理通常仅基于最新的训练数据。

我们在图 2 中展示了增强型交互代理，支持多模态和跨现实的无关集成，并具备一种新兴机制。一个 AI 代理需要为每个新任务收集大量训练数据，这在许多领域可能代价高昂或不可行。在本研究中，我们开发了一种“无限代理”，它可以从通用基础模型（如 GPT-X、DALL-E）中学习并转移记忆信息，从而在物理或虚拟世界中理解场景、生成内容和进行交互式编辑。

在这里插入图片描述
图2：用于跨现实中2D/3D具身生成和编辑交互的多模型代理AI。

这种无限代理在机器人领域的一个应用是 RoboGen（Wang 等人，2023d）。在这项研究中，作者提出了一个自动执行任务生成、环境生成和技能学习循环的流程。RoboGen 旨在将大型模型中嵌入的知识转移到机器人领域。

基于大型基础模型的代理 AI

最近的研究表明，大型基础模型在生成数据方面起到了关键作用，作为在环境约束下确定代理行为的基准。例如，基础模型在机器人操作（Black 等人，2023；Ko 等人，2023）和导航（Shah 等人，2023a；Zhou 等人，2023a）方面的应用。以 Black 等人的研究为例，他们使用图像编辑模型作为高级规划器，生成未来子目标的图像，从而引导低级策略（Black 等人，2023）。在机器人导航方面，Shah 等人提出了一个系统，使用大型语言模型（LLM）从文本中识别地标，并使用视觉语言模型（VLM）将这些地标与视觉输入关联，从而增强了基于自然语言指令的导航（Shah 等人，2023a）。

此外，生成基于语言和环境因素的条件化人类动作的兴趣日益增长。已经提出了若干 AI 系统，能够生成针对特定语言指令定制的动作（Kim 等人，2023；Zhang 等人，2022；Tevet 等人，2022），并适应各种 3D 场景（Wang 等人，2022a）。这一研究强调了生成模型在增强 AI 代理跨多种场景的适应性和响应能力方面的日益增长的能力。

幻觉现象

生成文本的代理往往容易出现“幻觉”现象，即生成的文本内容不合逻辑或偏离原始提供的信息（Raunak 等人，2021；Maynez 等人，2020）。幻觉可分为两类：内在幻觉和外在幻觉（Ji 等人，2023）。内在幻觉指与源材料矛盾的内容，而外在幻觉指生成的文本包含原材料中并未提供的额外信息。降低语言生成中幻觉发生率的一些有效途径包括使用检索增强生成（Lewis 等人，2020；Shuster 等人，2021）或通过外部知识检索来扎根于自然语言输出（Dziri 等人，2021；Peng 等人，2023）。通常，这些方法试图通过检索额外的源材料并提供检测生成内容与源材料是否矛盾的机制来增强语言生成。

在多模态代理系统的背景下，视觉语言模型（VLMs）也会出现幻觉现象（Zhou 等人，2023b）。基于视觉的语言生成幻觉的常见原因之一是训练数据中对象和视觉提示的共现过度依赖（Rohrbach 等人，2018）。仅依赖预训练的大型语言模型（LLMs）或视觉语言模型（VLMs），并且在环境中特定的微调有限的 AI 代理特别容易产生幻觉，因为它们依赖于预训练模型的内部知识库来生成操作，可能无法准确理解其部署环境的动态状态。

偏见与包容性

基于 LLMs 或 LMMs（大型多模态模型）的 AI 代理由于其设计和训练过程中的多种因素而存在偏见。在设计这些 AI 代理时，我们必须注意包容性，了解所有终端用户和利益相关者的需求。就 AI 代理而言，包容性是指确保代理的响应和交互具有包容性、尊重性，并对来自不同背景的广泛用户敏感的措施和原则。以下是代理偏见和包容性的关键方面：

训练数据：基础模型是基于从互联网上收集的大量文本数据进行训练的，包括书籍、文章、网站和其他文本来源。这些数据往往反映了人类社会中的偏见，模型可能会无意中学习并复制这些偏见，包括与种族、性别、民族、宗教及其他个人属性相关的刻板印象、偏见和倾向性观点。尤其是，通过训练来自互联网数据，且往往仅为英文文本的模型，隐含地学习了“西方、受教育的、工业化的、富裕的和民主的”（WEIRD）社会的文化规范（Henrich 等人，2010），因为这些社会在互联网上的影响力较大。然而，重要的是要认识到，由人类创建的数据集不可能完全没有偏见，因为它们通常反映了社会偏见以及最初生成和/或编译数据的个体的倾向。
历史和文化偏见：AI 模型是基于从多样内容来源的大型数据集进行训练的。因此，训练数据通常包括各种文化的历史文本或材料。特别是，来自历史来源的训练数据可能包含反映某个社会文化规范、态度和偏见的冒犯性或贬低性语言。这可能导致模型延续过时的刻板印象，或无法完全理解当代文化变化和细微差别。
语言和语境限制：语言模型可能难以理解和准确表达语言中的细微差别，如讽刺、幽默或文化参考。这可能导致在某些语境下的误解或偏见性响应。此外，纯文本数据无法捕捉口语语言的许多方面，可能导致人类对语言的理解和模型对语言的理解之间的潜在差距。
政策和指导方针：AI 代理在严格的政策和指导方针下运行，以确保公平和包容性。例如，在生成图像时，有相关规则来多样化人群的描绘，避免与种族、性别和其他属性相关的刻板印象。
过度概括：这些模型倾向于基于训练数据中的模式生成响应。这可能导致过度概括，模型可能会产生看似刻板印象或对某些群体做出广泛假设的响应。
持续监控和更新：AI 系统不断被监控和更新，以解决任何新出现的偏见或包容性问题。用户反馈和 AI 伦理的持续研究在此过程中发挥着关键作用。
主流观点的放大：由于训练数据通常包含来自主流文化或群体的更多内容，模型可能更倾向于这些视角，从而可能低估或误解少数群体的观点。、
伦理与包容性设计：AI 工具的设计应将伦理考量和包容性作为核心原则。这包括尊重文化差异、促进多样性并确保 AI 不延续有害的刻板印象。
用户指南：用户在与 AI 交互时也会得到如何促进包容性和尊重的指导。这包括避免提出可能导致偏见或不适当输出的请求。此外，这有助于防止模型从用户交互中学习到有害材料。

尽管采取了这些措施，AI 代理仍表现出偏见。代理 AI 研究和开发的持续努力集中在进一步减少这些偏见，并增强代理 AI 系统的包容性和公平性。减少偏见的努力：

多样且包容的训练数据：努力在训练数据中包含更为多样化和包容性的来源。
偏见检测与纠正：正在进行的研究关注于检测和纠正模型响应中的偏见。
伦理指南和政策：模型通常受伦理指南和政策的管理，旨在减轻偏见并确保互动的尊重和包容。
多样化呈现：确保 AI 代理生成的内容或提供的响应能代表广泛的人类经历、文化、种族和身份。这在图像生成或叙事构建等场景中特别重要。
偏见缓解：积极减少 AI 响应中的偏见，包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏见。目标是提供不延续刻板印象或偏见的公平、平衡的回应。
文化敏感性：AI 被设计成具有文化敏感性，能够承认和尊重文化规范、实践和价值的多样性。这包括理解并适当回应文化参考和细微差别。
可访问性：确保 AI 代理对具有不同能力的用户可访问，包括残障人士。这可能包括为有视觉、听觉、运动或认知障碍的人提供更便捷的互动功能。
基于语言的包容性：提供对多种语言和方言的支持，以满足全球用户的需求，并敏感地对待语言中的细微差别和变化（Liu 等人，2023b）。
伦理和尊重的互动：代理被编程为与所有用户进行伦理且尊重的互动，避免产生可能被视为冒犯、有害或不尊重的回应。
用户反馈与适应：吸收用户反馈以不断改进 AI 代理的包容性和有效性，包括通过交互更好地理解和服务多样化的用户群体。
遵守包容性指南：遵循由行业团体、伦理委员会或监管机构制定的 AI 代理包容性指南和标准。尽管有这些努力，但仍需要意识到 AI 响应中可能存在的偏见，并用批判性思维进行解读。AI 代理技术和伦理实践的不断改进，旨在逐步减少这些偏见。包容性在代理 AI 中的总体目标之一是创建一个尊重并适合所有用户的代理，无论其背景或身份如何。

数据隐私与使用

AI 代理的一个关键伦理考量在于理解这些系统如何处理、存储和潜在地检索用户数据。以下是关键方面的讨论：

数据收集、使用和目的。在使用用户数据以提升模型性能时，模型开发者会访问 AI 代理在与用户互动期间收集的数据。有些系统允许用户通过账户查看他们的数据，或者通过请求服务提供商进行查看。用户需要了解代理在互动期间收集了哪些数据，包括文本输入、使用模式、个人偏好，有时甚至包括更为敏感的个人信息。用户还应理解这些数据的用途。如果因某些原因，AI 持有关于某人或某群体的不正确信息，应该有机制帮助用户在识别后予以纠正。这对于准确性和尊重所有用户和群体都非常重要。常见的检索和分析用户数据的用途包括改善用户互动、个性化响应和系统优化。开发者需确保数据不被用于用户未同意的用途，如未经请求的营销。
存储与安全。开发者应了解用户互动数据存储的地点以及所采用的安全措施，以防止未经授权的访问或数据泄露。这包括加密、安全服务器和数据保护协议。明确代理数据是否与第三方共享以及在何种情况下共享也非常重要。这需要透明化，并且通常需要用户同意。
数据删除与保留。用户还需理解其数据的存储时长以及如何请求删除其数据。许多数据保护法赋予用户“被遗忘权”，即他们可以请求删除其数据。AI 代理必须遵守 GDPR（欧盟）或 CCPA（加利福尼亚州）等数据保护法，这些法律规范了数据处理实践及用户的个人数据权利。
数据便携性与隐私政策。开发者必须制定 AI 代理的隐私政策，以向用户详细说明其数据的处理方式。该政策应详细阐述数据的收集、使用、存储以及用户权利。开发者应确保获取用户对数据收集的同意，尤其是涉及敏感信息时。用户通常可以选择退出或限制他们提供的数据。在某些司法管辖区，用户甚至有权请求以可转移至其他服务提供商的格式提供其数据副本。
匿名化。在广泛分析或 AI 训练中使用的数据应尽量匿名化以保护个人身份。开发者必须理解其 AI 代理在互动中如何检索和使用历史用户数据，以进行个性化或提高响应的相关性。总之，理解 AI 代理的数据隐私包括了解用户数据的收集、使用、存储和保护方式，并确保用户了解其在访问、纠正和删除数据方面的权利。理解数据检索的机制对用户和 AI 代理来说都非常重要，这对于全面理解数据隐私至关重要。

可解释性与解释性

模仿学习→解耦。代理通常通过强化学习（RL）或模仿学习（IL）的连续反馈循环训练，从随机初始化策略开始。然而，在不熟悉的环境中获取初始奖励尤其困难，特别是在奖励稀少或仅在长步骤互动结束时可获得时。因此，采用通过 IL 训练的无限记忆代理是一种优越的解决方案，可以从专家数据中学习策略，提高对未见环境空间的探索和利用能力，具有图 3 中所示的基础设施。通过专家特性帮助代理更好地探索并利用未知的环境空间，代理 AI 可以直接从专家数据中学习策略和新范式流程。传统的 IL 方法让代理模仿专家示范的行为来学习策略。然而，直接学习专家策略并不总是最佳方式，因为代理可能无法很好地泛化到未见情况。为了解决这一问题，我们提出了使用上下文提示或隐含奖励函数来捕捉专家行为关键方面的学习方法，如图 3 所示。

这使无限记忆代理拥有从专家示范中学习的物理世界行为数据以执行任务，有助于克服模仿学习中现存的缺点，如需要大量专家数据和在复杂任务中可能出现的错误。解耦→泛化。与依赖特定任务的奖励函数不同，代理从专家示范中学习，这些示范提供了涵盖各种任务方面的多样化状态-动作对。然后，代理通过模仿专家行为来学习一个从状态到动作的策略。模仿学习中的解耦是指将学习过程与任务特定的奖励函数分离，使得该策略能够在不同任务之间泛化，而不依赖于特定的奖励函数。通过解耦，代理可以从专家示范中学习，形成一种适用于多种情境的策略。解耦还支持迁移学习，即在一个领域中学习的策略可以通过少量的微调适应到其他领域。通过学习一个与特定奖励函数无关的通用策略，代理可以利用其在一个任务中获得的知识来出色地完成其他相关任务。由于代理不依赖特定的奖励函数，它可以适应奖励函数或环境的变化，而无需大量的再训练。这使得所学策略在不同环境中更为稳健且具有广泛的适应性。

在该背景下，解耦指的是学习过程中的两个任务的分离：学习奖励函数和学习最优策略。泛化→涌现行为。泛化解释了如何从较简单的组件或规则中产生涌现特性或行为。关键在于识别系统行为的基本元素或规则，例如个体神经元或基本算法。通过观察这些简单组件或规则之间的相互作用，这些组件的相互作用往往会导致复杂行为的涌现，而仅通过观察单个组件难以预测这些复杂行为。跨越不同复杂性层次的泛化，使系统能够学习适用于这些层次的通用原则，从而产生涌现特性。这种泛化能力使系统能够适应新情境，展示出从简单规则中涌现的更复杂的行为。此外，跨越不同复杂性层次的泛化能力促进了从一个领域到另一个领域的知识迁移，这有助于在新环境中适应并产生复杂行为。
在这里插入图片描述
图3：涌现交互机制示例此示例展示了使用代理从候选项中识别与图像相关的文本的过程。任务包括使用一个多模态AI代理，从网络和人类标注的知识交互样本中获取信息，以整合外部世界的信息。

推理增强

AI代理的推理能力体现在其基于训练数据和输入信息进行解释、预测和回应的能力。尽管这些能力不断进步，但也应认识到其在基础数据上的局限性和影响力。特别是在大语言模型的背景下，推理指的是AI根据其训练数据和输入得出结论、进行预测并生成回应的能力。推理增强指的是通过额外的工具、技术或数据来提升AI的自然推理能力，以提高其性能、准确性和实用性。以下是推理增强的关键来源：

数据丰富化：整合额外的、通常是外部数据源，提供更多上下文或背景，有助于AI代理做出更有见地的推断，尤其在其训练数据有限的领域。例如，AI代理可以从对话或文本的上下文中推断含义，通过分析信息以理解用户查询的意图和相关细节。
算法增强：改进AI的基础算法以进行更优推理。这可能涉及更先进的机器学习模型，结合不同类型的AI（如自然语言处理与图像识别的整合），或更新算法以更好地处理复杂任务。语言模型的推理涉及理解和生成人类语言，包括语气、意图和语言结构的细微差别。
人机协作（Human-in-the-Loop，HITL）：在人类判断尤为重要的领域，如伦理考量、创意任务或模棱两可的场景中，引入人类输入以增强AI推理。人类可以提供指导、纠正错误或提供AI无法自行推断的见解。
实时反馈整合：使用来自用户或环境的实时反馈来增强推理，例如AI可以根据实时用户响应或动态系统中的变化条件调整推荐内容，或在模拟环境中，若AI代理执行的操作违背某些规则，可以动态给予反馈以帮助其自我修正。
跨领域知识迁移：利用一个领域的知识或模型来改善另一个领域的推理，尤其在专业学科中输出结果时更为有用。例如，将语言翻译的技术应用于代码生成，或将医学诊断中的见解应用于机械设备的预测性维护。
特定应用的定制化：根据特定应用或行业定制AI的推理能力，可能涉及在专用数据集上训练AI或微调模型以更好地适应特定任务，如法律分析、医学诊断或金融预测。由于特定领域内的信息与其他领域的差异，微调代理以适应特定领域信息通常会有所裨益。
伦理与偏见考量：确保增强过程不会引入新的偏见或伦理问题，这需要仔细考量额外数据的来源或新的推理增强算法对公平性和透明度的影响。尤其在处理敏感话题时，AI代理应避免有害的刻板印象，尊重隐私并确保公平性。
持续学习与适应：定期更新和优化AI的能力，以跟上新发展、数据环境变化以及用户需求的演变。

总结来说，AI代理的推理增强涉及通过额外数据、改进算法、人类输入等多种方法来增强其自然推理能力。视具体应用而定，这种增强对于处理复杂任务和确保输出准确性往往必不可少。

监管

近年来，Agent AI取得了显著进展，其与具身系统的集成为通过更沉浸、动态和互动的方式与代理交互开辟了新可能。为了加快进程并简化代理AI开发中的繁琐工作，我们提出开发下一代AI驱动的代理互动管道。通过构建一个人机协作系统，让人类和机器可以进行有意义的沟通和互动。该系统可以利用大语言模型（LLM）或视觉语言模型（VLM）的对话能力以及丰富的动作，来与人类用户对话并识别其需求，并在请求时执行适当的动作以帮助用户。

在使用大语言模型（LLM）或视觉语言模型（VLM）进行人机协作系统时，需注意这些模型作为“黑箱”运行，生成不可预测的输出。这种不确定性在物理环境中（例如操作实际机器人）尤其关键。为应对这一挑战，可以通过提示工程（prompt engineering）来约束LLM/VLM的关注点。例如，在机器人任务规划中，提供环境信息的提示比单纯依赖文本能产生更稳定的输出（Gramopadhye 和 Szafir，2022）。这一发现得到了明斯基AI框架理论（Minsky，1975）的支持，该理论指出LLM/VLMs所要解决的问题空间由所提供的提示定义。另一种方法是设计提示，让LLM/VLM生成解释性文本，使用户了解模型的关注点或识别内容。此外，通过人类指导引入预执行验证和修改的更高层次控制，可以更好地操作在此类指导下运行的系统（见图4）。

在这里插入图片描述

图4：一个由 Wake 等人（2023c）开发的机器人教学系统。（左图）系统工作流程。该过程包含三个步骤：任务规划，即 ChatGPT 根据指令和环境信息规划机器人任务；演示环节，用户视觉演示动作序列。用户对所有步骤进行审核，如果某一步骤失败或显示出缺陷，可根据需要返回到前面的步骤进行修改。（右图）一个支持上传演示数据的网页应用，用于用户与 ChatGPT 的交互。

基于生成能力的智能代理AI

尽管交互式智能代理AI系统的应用日益增多，但现有大部分方法在未见过的环境或情境中依然面临泛化能力的挑战。当前的建模实践要求开发者为每个领域准备大量数据集以微调/预训练模型；然而，此过程成本高昂，且在新的领域可能不可行。为应对这一问题，我们构建了能够利用通用基础模型（如ChatGPT、DALL-E、GPT-4等）的知识记忆的交互式代理，以适应新情境，尤其是在建立人与代理间的协作空间方面。

我们发现了一种新兴机制——称之为知识推理交互的混合现实（Mixed Reality with Knowledge Inference Interaction），该机制可促进人机协作以在复杂的现实环境中解决挑战性任务，并使代理能够在虚拟现实中探索未见环境以实现适应。通过该机制，代理能够学习：

跨模态的微反应：从显性网络资源中收集每个交互任务的相关知识（例如理解未见场景），并从预训练模型的输出中隐性推理出知识。
现实无关的宏观行为：提升语言和多模态领域的交互维度和模式，基于特定目标变量及混合现实和大语言模型中的协作信息多样化，做出角色化变化。我们研究了知识引导下的协作场景生成任务，通过结合多种OpenAI模型，展示了交互式代理系统如何在我们的设置中进一步增强大型基础模型的表现。此系统提升了复杂适应性AI系统的泛化深度、意识性和可解释性。