什么是AI Agent?
AI Agent是指人工智能代理(Artificial Intelligence Agent)是一种能够感知环境进行自主理解,进行决策和执行动作的智能体。AI Agent具备通过独立思考、调用工具逐步完成给定目标的能力。不同于大模型的区别在于,大模型与人类的交互通过提示词(Prompt)实现,用户的提示词是否清晰明确会影响大模型的效果。而AI Agent仅需要给定一个,就能够实现针对目标进行独立思考并完成目标任务。
大模型在进行训练的庞大数据中包含了各种数据以及大量的人类行为数据,让大模型具备了模拟人类的交互以及随着模型的不断增大,大模型涌现出了上下文学习能力、思维链、推理能力等类似人类思考方式的能力。而大模型同时也存在很多的问题,如幻觉、上下文限制等问题。因此将大模型作为AI Agent的核心大脑,实现将复杂任务拆解成可以实现的子任务等能力,构成具备自主思考决策和执行任务的智能体。
AI Agent系统架构
一个基于大模型的AI Agent系统可以拆分 LLM(大模型)、记忆(Memory)、任务规划(Planning)以及工具使用(Tool) 的集合。在LLM为基础的AI Agent系统中,大模型为AI Agent系统的大脑负责计算,并需要其他组件进行辅助。
- 规划(Planning)
①、对需要更多步骤的复杂任务,AI Agent 能够调用LLM通过思维链能力进行任务分解,在AI Agent架构中,任务的分解和规划是基于大模型的能力来实现的,大模型的思维链(Chain Of Thought,COT)能力通过提示模型逐步思考,将大型任务分解为较小的、可管理的子目标,以便高效的处理复杂任务。
②、通过反思和自省框架,AI Agents可以不断提升任务规划能力,AI Agent 可以对过去的行为进行自我批评和反省,从错误中吸取经验教训,并对未来的行动进行分析、总结、提炼和完善,从而提高最终结果的质量。自省框架使AI Agent能够修正之前的决策,从而不断优化。这种反思和细化可以帮助 Agents 提高自身的智能和适应性。
- 记忆 (Memory)
①、短期记忆:对AI Agent智能体系统的所有输入会成为系统的短期记忆,所有上下文学习都是依赖模型的短期记忆能力进行的。短期记忆受到有限上下文窗口长度的限制,不同的模型的上下文窗口限制不同。
②、长期记忆:AI Agent在完成目标时,需要查询的外部向量数据库成为系统的长期记忆。长期记忆使得 AI Agents 能够长期保存和调用无限信息的能力。外部的向量数据库可以通过快速检索进行访问。AI Agent主要通过长期以及完成很多复杂任务,如阅读PDF、知识库等。
③、向量数据库通过将数据转化为向量存储。
- 工具(Tools)
①、AI Agent能够使用外部工具API拓展模型能力,以获取大模型以外的能力和信息。如预定日程、设置待办、查询数据等、
②、类GPT等大模型也更新了插件的功能,能够调用插件访问最新信息或者特定数据源,但是需要用户针对提问问题提前选择需要使用的插件,无法做到自然地回答问题。AI Agent可以自动调用工具使用,根据规划获取的每一步任务判断是否需要调用外部工具来完成该任务,并获取工具API接口返回的信息给到大模型进行下一步任务。
Ai Agent和大模型的区别
-
AI Agent和大模型的主要区别在于:大模型与人类之间的交互是基于prompt实现的。用户prompt是否清晰明确会影响大模型回答的效果,没有精确有效的prompt,即便是能力最强的ChatGPT也不行。
-
AI Agent 的工作仅需给定一个目标,就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,为自己创建 prompt以实现目标。
比如让ChatGPT买一杯咖啡,ChatGPT给出的反馈一般类似“无法购买咖啡,它只是一个文字AI助手”之类的回答。
但你要告知基于ChatGPT的AI Agent工具让它买一杯咖啡,它会首先拆解如何才能为你购买一杯咖啡并拟定代用某APP下单以及支付等若干步骤,然后按照这些步骤调用APP选择外卖,再调用支付程序下单支付,过程无需人类去指定每一步操作
。
当AI工具具有以下特征时,就可以将该工具视为AI Agent:
- 自治(Autonomy):AI 虚拟智能体能够独立执行任务,而无需人工干预或输入。
- 知觉(Perception):智能体功能通过各种传感器(如摄像头或麦克风)感知和解释它们所处的环境。
- 反应(Reactivity):AI 智能体可以评估环境并做出相应的响应以实现其目标。
- 推理和决策(Reasoning and decision-making):AI 智能体是智能工具,可以分析数据并做出决策以实现目标。他们使用推理技术和算法来处理信息并采取适当的行动。
- 学习(Learning):他们可以通过机器、深度和强化学习元素和技术来学习和提高他们的表现。
- 通信(Communication):AI 智能体可以使用不同的方法与其他智能体或人类进行通信,例如理解和响应自然语言、识别语音以及通过文本交换消息。
- 以目标为导向(Goal-oriented):它们旨在实现特定目标,这些目标可以通过与环境的交互来预定义或学习。