The Rise and Potential of Large Language Model Based Agents: A Survey

OpenAI AI的应用研究主管Lilian Weng发布了关于AI Agents的《大语言模型（LLM）支持的自主代理》，在文章中她定义了基于LLM构建AI Agents的应用框架：Agent=LLM（大型语言模型）+记忆（Memory）+规划技能（Planning）+工具使用（Tool Use）。最近复旦大学自然语言处理组《大模型智能体》综述论文，提出了一个基于LLM的智能体的概念框架，包括三个主要组成部分：大脑、感知和行动

Abstract

长期以来，人类一直在追求相当于或超越人类水平的人工智能（AI），而人工智能代理被认为是实现这一追求的有前途的工具。人工智能代理是感知环境、做出决策并采取行动的人造实体。人们为开发智能代理做出了许多努力，但它们主要集中在算法或训练策略的进步，以增强特定任务的特定能力或性能。事实上，社区缺乏的是一个通用且强大的模型来作为设计能够适应不同场景的人工智能代理的起点。由于它们所展示的多功能能力，大语言模型（LLM）被认为是通用人工智能（AGI）的潜在火花，为构建通用人工智能代理带来了希望。许多研究人员利用LLM作为构建人工智能代理的基础，并取得了重大进展。在本文中，我们对LLM Agent进行了全面调研。我们首先追溯agent的概念，从其哲学起源到人工智能的发展，并解释为什么LLM是智能体的合适基础。在此基础上，我们提出了一个基于 LLM 的代理的通用框架，包括三个主要组件：大脑、感知和行动，并且该框架可以针对不同的应用进行定制。随后，我们探讨了基于LLM的智能体在单智能体场景、多智能体场景和人类智能体协作三个方面的广泛应用。接下来，我们深入研究代理人社会，探讨LLM Agent的行为和个性，代理人社会中出现的社会现象，以及他们为人类社会提供的见解。最后，我们讨论了该领域内的几个关键主题和未解决的问题。相关论文的存储库位于 https://github.com/WooooDyy/LLM-Agent-Paper-List。
在这里插入图片描述

1. Introduction

人工智能（AI）是一个致力于设计和开发可以复制类人智能和能力的系统的领域[1]。早在 18 世纪，哲学家丹尼斯·狄德罗 (Denis Diderot) 就提出了这样的想法：如果一只鹦鹉能够回答所有问题，那么它就可以被认为是聪明的 [2]。虽然狄德罗指的是鹦鹉等生物，但他的概念强调了一个深刻的概念，即高度智能的有机体可能类似于人类的智能。 20 世纪 50 年代，艾伦·图灵将这一概念扩展到人造实体，并提出了著名的图灵测试 [3]。该测试是人工智能的基石，旨在探索机器是否能够表现出与人类相媲美的智能行为。这些人工智能实体通常被称为“智能体”，构成人工智能系统的基本构建块。通常在人工智能中，代理是指能够使用传感器感知周围环境、做出决策，然后使用执行器采取响应行动的人工实体。

agent的概念起源于哲学，其根源可以追溯到亚里士多德和休谟等思想家[5]。它描述了拥有欲望、信念、意图和采取行动的能力的实体[5]。这个想法转变为计算机科学，旨在使计算机能够理解用户的兴趣并代表他们自主执行操作[6; 7； 8]。随着人工智能的发展，“代理”一词在人工智能研究中找到了自己的位置，用来描述展示智能行为并拥有自主性、反应性、主动性和社交能力等品质的实体[4； 9]。从那时起，智能体的探索和技术进步就成为人工智能界的焦点[1； 10]。人工智能代理现在被认为是实现通用人工智能 (AGI) 1 的关键一步，因为它们包含了广泛的智能活动的潜力 [4; 11； 12]。

从 20 世纪中叶开始，随着研究深入研究智能 AI 代理的设计和进步，在开发智能 AI 代理方面取得了重大进展 [13; 14； 15； 16； 17； 18]。然而，这些努力主要集中在增强特定能力，例如符号推理，或掌握围棋或国际象棋等特定任务[19； 20； 21]。实现跨不同场景的广泛适应性仍然难以实现。此外，以往的研究更注重算法和训练策略的设计，忽视了模型固有的通用能力的发展，如知识记忆、长期规划、有效泛化和高效交互等[22; 23]。实际上，增强模型的内在能力是智能体进一步发展的关键因素，该领域需要一个强大的基础模型，该模型具有上述各种关键属性，作为智能体系统的起点。

大语言模型（LLM）的发展为智能体的进一步发展带来了一线希望[24； 25； 26]，并且社区已经取得了重大进展[22； 27； 28； 29]。根据世界范围（WS）[30]的概念，它包含描述从 NLP 到通用人工智能（即语料库、互联网、感知、体现和社交）的研究进展的五个层次，纯粹的LLM建立在第二个层次上。与互联网规模的文本输入和输出水平。尽管如此，LLM在知识获取、指令理解、泛化、规划和推理方面表现出了强大的能力，同时展示了与人类有效的自然语言交互。这些优势为LLM赢得了 AGI 的火花 [31]，使他们非常适合构建智能代理，以培育一个人类与代理和谐共存的世界 [22]。以此为起点，如果我们将LLM提升到代理人的地位，并为他们配备扩展的感知空间和行动空间，他们就有可能达到WS的第三和第四层次。此外，这些基于 LLM 的智能体可以通过合作或竞争来处理更复杂的任务，并且将它们放在一起时可以观察到新兴的社会现象，有可能达到第五个 WS 级别。如图 1 所示，我们设想一个由人工智能体组成的和谐社会，人类也可以参与其中。

在本文中，我们提出了一项针对LLM Agent的全面、系统的调研，试图调查这一新兴领域的现有研究和前瞻性途径。为此，我们首先深入研究关键的背景信息（§ 2）。特别是，我们首先从哲学到人工智能领域追溯人工智能代理的起源，并简要围绕人工智能是否存在的争论（§ 2.1）进行概述。接下来，我们从技术趋势的角度对人工智能代理的发展进行简明的历史回顾（第2.2节）。最后，我们深入介绍了智能体的基本特征，并阐明了为什么大型语言模型非常适合作为人工智能智能体的大脑或控制器的主要组成部分（第 2.3 节）。

受智能体定义的启发，我们提出了基于 LLM 的智能体的通用概念框架，包括三个关键部分：大脑、感知和行动（§ 3），并且该框架可以根据不同的应用进行定制。我们首先介绍大脑，它主要由一个大的语言模型组成（第 3.1 节）。与人类类似，大脑是人工智能体的核心，因为它不仅存储重要的记忆、信息和知识，而且承担信息处理、决策、推理和规划的基本任务。它是智能体能否表现出智能行为的关键决定因素。接下来，我们介绍感知模块（第 3.2 节）。对于智能体来说，这个模块的作用类似于人类的感觉器官。其主要功能是将智能体的感知空间从纯文本扩展到多模态空间，其中包括文本、声音、视觉、触觉、气味等多种感官模式。这种扩展使智能体能够更好地感知来自外部环境的信息。最后，我们提出了用于扩展代理动作空间的动作模块（第 3.3 节）。具体来说，我们期望智能体能够拥有文本输出、采取具体行动并使用工具，以便更好地响应环境变化并提供反馈，甚至改变和塑造环境。

之后，我们对基于LLM的智能体的实际应用进行了详细而透彻的介绍，并阐明了基本的设计追求——“利用人工智能向善”（§ 4）。首先，我们深入研究单个智能体的当前应用，讨论它们在基于文本的任务和模拟探索环境中的表现，重点介绍它们在处理特定任务、推动创新以及展示类人生存技能和适应能力方面的能力（第 4.1 条）。接下来，我们回顾一下多智能体的发展历史。我们介绍了基于LLM的多智能体系统应用程序中智能体之间的交互，它们参与合作、谈判或竞争。无论交互模式如何，代理都会共同努力实现共同目标（第 4.2 节）。最后，考虑到基于LLM的代理在隐私安全、道德约束和数据缺陷等方面的潜在局限性，我们讨论了人机协作。我们总结了智能体和人类之间的协作范式：指导者-执行者范式和平等伙伴关系范式，以及实践中的具体应用（第4.3节）。

基于对基于 LLM 的代理实际应用的探索，我们现在将重点转向**“代理社会”**的概念，研究代理与其周围环境之间复杂的相互作用（§ 5）。本节首先调查这些智能体是否表现出类人行为并具有相应的个性（第 5.1 节）。此外，我们还介绍了代理运行的社交环境，包括基于文本的环境、虚拟沙箱和物理世界（§5.2）。与上一节（第 3.2 节）不同，这里我们将关注不同类型的环境，而不是智能体如何感知环境。建立了代理及其环境的基础后，我们继续揭示它们形成的模拟社会（§5.3）。我们将讨论模拟社会的构建，并继续研究从中出现的社会现象。具体来说，我们将强调模拟社会固有的教训和潜在风险。

最后，我们讨论了基于LLM的代理领域内的一系列关键主题（第6节）和开放性问题：（1）LLM研究和代理研究的互惠互利和启发，其中我们证明了LLM的发展为代理和基于代理的LLM社区提供了许多机会（§ 6.1）； (2) 从实用性、社交性、价值观和不断发展的能力四个维度对LLM Agent的现有评估工作和一些前景（§ 6.2）；（3）基于LLM的代理的潜在风险，我们讨论基于LLM的代理的对抗稳健性和可信度。我们还讨论了其他一些风险，例如滥用、失业和对人类福祉的威胁（第 6.3 条）； (4) 扩大代理数量，我们讨论扩大代理数量的潜在优势和挑战，以及预先确定和动态扩展的方法（第 6.4 节）； (5) 几个悬而未决的问题，例如关于基于 LLM 的代理是否代表通向 AGI 的潜在路径的争论、从虚拟模拟环境到物理环境的挑战、AI 代理中的集体智能以及代理即服务（§ 6.5）。毕竟，我们希望这篇论文能为相关领域的研究人员和实践者提供启发。
在这里插入图片描述