在大模型平台中,“Agent”通常指的是基于大型预训练模型构建的一种智能实体或软件系统,它能够执行一系列复杂的任务。这些任务可能包括但不限于理解和生成自然语言、决策制定、交互式对话、执行具体操作(如在GUI环境中操作)、数据检索、知识推理等。
Agent的核心特征:
-
感知环境:Agent可以通过传感器(如摄像头、麦克风或数据接口)收集关于其环境的信息,环境可以是虚拟的(如互联网、数据库)或物理的(如真实世界)。
-
自主决策:Agent能够根据收集到的信息独立地做出决策,这些决策旨在完成特定的任务或目标。
-
执行行动:Agent能够通过执行器(如机器人的机械臂、计算机程序的API调用)在环境中采取行动。
-
学习与适应:Agent能够从经验中学习,不断优化其行为策略,以提高未来任务的性能。
Agent的组成部分:
-
规划(Planning):Agent需要有计划能力,即能够设定目标并规划如何达到这些目标。
-
行动(Action):Agent需要有执行能力,能够采取具体步骤实施计划。
-
工具(Tools):Agent可能依赖于外部工具或API来增强其功能,如查询数据库、执行代码、访问特定信息源等。
-
记忆(Memory):Agent可能有记忆组件,用于存储过去的经验和知识,以便在未来的决策中使用。
-
评估(Check):Agent有能力评估自己的行动结果,以确定是否达到预期目标,并根据需要调整策略。
Agent的应用场景:
- 个人助手:帮助管理日程、发送电子邮件、预定机票等。
- 客户服务:自动处理客户查询、投诉和订单。
- 数据分析师:处理和分析大量数据,提供商业洞察。
- 教育助手:提供个性化的学习材料和反馈。
- 游戏NPC:在游戏中扮演角色,与玩家互动。
- 研究助理:协助科学家进行文献检索、实验设计等。
随着大模型技术的发展,Agent的概念正在迅速扩展,越来越多的公司和研究机构正在探索如何将这些强大的模型应用于实际场景中,以创建更智能、更自主的软件系统。
参考:大模型Agent-CSDN博客
"Copilot" 这个词原意是指在飞机或其他飞行器中辅助飞行员的驾驶员,但近年来在科技领域,尤其是人工智能领域,"Copilot" 有了新的含义。
在AI和软件开发的背景下,"Copilot" 主要指的是辅助软件开发人员编写代码的AI助手。最著名的例子是GitHub Copilot,这是由GitHub和OpenAI合作开发的一个AI工具,它可以实时地建议代码片段,帮助开发者更快地编写代码,减少错误,并学习新的编程语言和框架。GitHub Copilot的工作原理是基于大量的开源代码库进行训练,从而理解代码结构和逻辑,然后在开发者编写代码时提供智能建议。
除了GitHub Copilot之外,还有其他类型的Copilot概念,例如:
- 微软在其Office应用程序中引入了Copilot,这是一个基于GPT-4大模型的AI助手,用于帮助用户更高效地完成文档编辑、邮件撰写等工作。
- Windows 11操作系统也集成了Copilot,作为一个智能助手,它能够提供更快速的响应,提升用户的使用体验。
- 在Dynamics 365 Project Operations中,Copilot被设计来帮助项目经理和实践经理提高工作效率,提供更直观的使用体验。
总的来说,在现代技术语境下,"Copilot" 代表了一种AI辅助技术,它不是为了取代人类的角色,而是作为一种协作伙伴,辅助和加速人类的工作流程,提高生产力和创造力。这种模式正在改变人机交互的方式,为日常生活和工作带来更多的智慧和便捷。
参考:大模型的 Agent 是什么?会成为下一个热潮吗? - 知乎 (zhihu.com)
AI Agent也可以称为“智能体”,也可理解为“智能业务助理”,旨在大模型技术驱动下,让人们以自然语言为交互方式高自动化地执行和处理专业或繁复的工作任务,从而极大程度释放人员精力。
Agent 其实基本就等于 "大模型 + 插件 + 执行流程 / 思维链",分别会对应控制端 (Brain / 大脑)、感知端 (Preception)、执行端 (Action) 环节
在特定行业场景中,通用大模型具有的泛化服务特性,很难在知识问答、内容生成、业务处理和管理决策等方面精准满足用户的需求。
因此,让通用大模型学习行业知识和行业语料成为行业大模型,再进一步学习业务知识和专业领域工具演进为场景大模型,是生成式AI深入业务场景,承担更复杂任务的关键路径。这一过程的实现,让大模型的持续进化最终以AI Agent的产品形态,开始了对业务的流程及其管理和服务模式的重构与优化。
实在Agent智能体是基于“TARS(基于通用大模型基座的自研垂直系列大模型)+ISSUT(智能屏幕语义理解技术)”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体。同时,也是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式。
三大部分:
- 大脑:作为控制器,大脑模块承担记忆、思考和决策等基本任务。
- 感知:感知模块感知和处理来自外部环境的多模态信息,
- 行动:动作模块使用工具执行并影响周围环境。 从上可以看出,复旦这篇综述,是按“输入/感知->决策/LLM->输出/Action”这样的基本范式,去构建的。
大模型应用系列——智能体(Agent)_大模型 智能体 架构-CSDN博客
智能体四个部分:大模型+工具+记忆+规划
参考:智能体(Agent)与大模型(深度学习模型)_大模型 智能体-CSDN博客
参考:智能体(Agent)大模型时代的AI革新者-CSDN博客