在Sam Altman、吴恩达等几位AI业界人士的“带货”之下,Agent作为新一代生产力工具的巨大潜力和广泛的应用前景终于“破圈”、被更多的看到和讨论。其实在2023年时,我就预测过,2024年会是大语言模型应用落地和Agent的元年。
为什么Agent会是大语言模型发展应用下的必然?
最直接的原因是,当前AI大模型在没有人类监督的情况下,缺少自主行动以及在复杂环境中适应和执行目标的能力,这限制了AI大模型对于组织的商业价值,而AI Agent能够自主行动以适应性地实现复杂目标,弥合了大语言模型的上述缺陷,今年初以来,已经有越来越多的人看到了这一点。
那么在ToB领域,Agent将会是怎样的存在形态?Agent又会如何影响或重塑企业服务市场?
什么是Agent
看起来有些费解,但光凭这个,我们已经能知道它的优点:智能。
虽然“Agent”一词最早由麻省理工学院AI实验室创始人Marvin Minsky于1986年在《思维的社会》一书中提出。不过现在大家对Agent的印象,可能更多来自OpenAI列出的Agent基本框架图(见下图)。
附注:米哈游联合复旦NLP组有提出另一个概念框架,包括大脑(Brain)、感知(Perception)和行动(Action)三部分。
而且随着近两年OpenAI在AI圈内爆火,它提出的这套Agent框架基本成为了业内最流行的说法。
眼下,随着Agent智能化程度的进阶,为了和以往的概念相区别,现在很多人都倾向于将其称为: AI Agent 。
而AI Agent则被明确定义为:基于人工智能(尤其是大模型)技术,能够感知和理解环境,并采取行动以完成目标的智能实体。
因为智能体的概念还是有些“高深”,也有人根据它扮演的角色和职能,将AI Agent视为一套AI系统或程序。
只是和普通系统或程序相比,AI Agent 主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标,智能化程度和行业贴合度会更明显。
以司普智能核保AI Agent为例,常规的核保可能需要经过核保数据采集及结构化——核保决策——输出核保结论及费率计算等流程,如果要确保业务流畅,保险企业可能需要开发多套系统。
但现在,当智能核保解决方案搭载AI Agent能力,Agent能自动识别业务需求,调用OCR信息抽取和结构化管理、核保决策模型、出保及费率管理等模块工具快速完成核保目标,整个过程可能不到1分钟时间。而且业务完成的流畅度很高,能极大降低保险公司的开发成本和各项投入。
当切换到医疗场景,AI Agent可能根据医疗科研的需求,依托海量临床数据打造行业科研智库,方便信息检索、论文写作、统计等场景的使用。
值得期待的是,随着技术的持续发展,AI Agent或不止于眼下的单体智能,还能实现多智能体协作,从而完成更复杂的任务。这意味着:届时AI Agent将在大模型应用中扮演更重要的角色。
AI Agent的关键特性与不同Agent的应用实践
根据Gartner的定义,AI Agent是使用AI技术在其数字或物理环境中进行感知、决策、采取行动和实现目标的自主或半自主软件实体。AI Agent被设计用来与它们的环境动态交互以实现目标,通过传感器接收输入,并通过工具/执行器采取行动,可以在多样的环境中操作。
其中,在构建AI智能体时,需要特别关注Agent的五个关键特性:
-
适应性:Agent能够根据环境或目标的变化调整其行为和策略。
-
主动性:Agent能够预测未来场景,做出战略决策并提前采取行动以实现目标。
-
目标的复杂性:Agent能够管理和执行涉及多个、通常是相互关联的目标的任务,这需要高级的决策和问题解决能力。
-
环境的复杂性:Agent能够在具有高水平的不确定性、变异或复杂性的环境中导航和执行任务。
-
自主的程度:Agent能够在最小或没有人类干预的情况下独立操作的程度。
此外,Agent又可以被分为单Agent和多Agent应用,目前我们看到最多实现的是单Agent应用。
在澜码的实践中,基于当前SOTA(“State Of The Art”,即最先进的、性能最好的模型)的大模型GPT-4的AI Agent,可以在专家知识的指导下,完成一个5年以内工作经验的员工所承担的某个角色的任务,例如根据多源异构信息来源,撰写符合业务规范的报告这样的任务。
拿普惠金融场景下尽调报告任务举例,银行的业务专家给出尽调报告的word任务模版,模版中描述了所需要的被调查企业的信息,例如营业执照、公司章程、公司股东情况、银行流水、公司财报等;其次,描述每个章节的撰写规则,例如公司基本情况、股东情况、财务情况等。
AI Agent根据需要,主动从企业内部环境中调用API获取数据,或者从与客户经理的对话中获取相关数据后,根据业务逻辑抽取相关信息,再根据业务规则,总结后,填写合适的内容。
这就体现了单Agent在计划、记忆、工具使用方面的能力。
随着类似GPT-4o这样拥有实时交互/情感智能的大模型的普及,单Agent应用能够处理的任务的复杂性会逐步增加,单Agent介入到业务流程内,跨流程、不同角色之间的观察、协调会越来越多的被实现。
由于Agent有能力通过自动化任务做出明智决策以及与周围环境智能化地互动,可以被配置为在任意的数字化环境中运行,因此Agent可以应用于多种流程,从而产生多种Agent交互模型。
例如未来每个线下销售带着手机拜访客户时,会默认打开Agent,帮助销售记录、总结销售与客户之间的沟通内容,让整个销售管理流程更透明,从而逐步从单Agent演化到多Agent应用。
多Agent应用场景的难点在于如何令多Agent对齐价值观、对齐目标,让Agent彼此更好的互相协同,以及与人类员工实现协同,为流程/组织的提效创造价值。
企业级市场需要什么样的Agent?
大语言模型技术的发展带来了人机协作的变革,落到企业级应用领域,有了大语言模型,传统软件本身的功能数目上限会被打开,不同软件之间的边界也会被打破。基于大语言模型的理解能力和Agent应用可以实现将多个软件连接在一起,从而更好的理解用户需求、更高效的去处理需求。
在AI2.0时代,大模型的“能力涌现”可以完成AI1.0时代人工智能无法完成的任务,突出表现在信息快速提取能力、指令遵循能力、Agent的互动适应能力三个方面。
信息快速提取能力是最简单,也是最能直观感觉到的。过去让系统处理各式各样的文档、周报、聊天记录是件十分困难的事。但依托大模型的涌现能力,今天一个Prompt工程师一个礼拜的工作量就可以解决这个问题,这也是当前AI拥有的一个变革性的能力。
指令遵循能力是指大语言模型完全可以理解人类的自然语言去执行相应的工作,在此之前,人类用自然语言发出指令,是需要程序员将其翻译、配置成规则。
以招聘场景为例,一个专家定义好“工作稳定”是指工作五年的工程师需要每份工作时长必须大于 18 个月,大语言模型就可以理解、执行命令了。从程序员的视角看,过去拿到文本,从中抽取信息出来都十分困难,更不用说执行文本中包含的“专家命令”。
随着AI Agent拥有了这些理解力,下一个重大的能力提升就在于能够适应人。这里有两个视角:
第一个视角是从用户的视角。ChatGPT出来后,大家都以为未来是CUI,即对话式UI,但是GPT-4o告诉大家,人机交互应该是多模态的、实时的。
澜码在实际落地的角度还有一个观点是,AI Agent应该能够根据用户的专业水平,决定怎样理解用户的需求以及怎样展现信息。比如,我们需要有反问模型,澄清用户的需求;我们需要有更多的推荐,让用户只要选择,就能拿到正确的结果。
第二个视角是从专家视角或者设计者视角。在低代码/BI流行的时代,都曾提出“让业务人员能够使用”的美好愿景,但现实最终还是成为IT人员的工具。
现在,由于大模型能力的提升,我们已经看到了使用Word/Excel这样的人能理解、机器能处理的工具来运营AI Agent的可能性。
未来的专家也许只需要维护一个Word文档就够了,文档描述了怎样教会AI Agent完成任务所需要的知识、步骤等,后续的“翻译”处理,由Agent平台和大模型公司来解决。这是我认为的Agent应用的高级形态。
AI Agent在企业级市场的应用场景初探
在我看来,AI Agent是一种新质生产力,它集成了专家知识、数据、模型和算力四大生产要素,以类似智能的专家服务这样的生产力的形态出现,可以极大满足企业自动化数字化升级需求,彻底颠覆企业形态。
专家知识的高度决定了AI Agent能够提供的价值高度,数据会帮助专家快速迭代专家知识,从而提高AI Agent的通用性。
有了这样的专家Agent,企业内部的流程可能都因此而迅速迭代,因为需要的人才数目、人才结构,提供的服务质量、服务能力都会迅速发生变化。
以澜码一个银行客户为例,国内某银行推出一项普惠贷款服务,旨在为中小企业提供便捷的贷款服务,以支持实体经济的发展和创新。但在发放普惠贷款的过程中,银行难以全面了解借款企业信息状况和还款能力,尤其是面对缺乏完善财务记录的中小企业和个体工商户时。
因此银行客户经理往往要花费大量时间收集和分析各类资料,对申请企业进行尽职调查,并撰写尽调报告,包括客户情况分析、财务数据分析、尽调审核分析等等。
但是,银行一线客户经理的业务分析水平参差不齐,导致了尽职调查和尽调报告质量不一;同时,系统中的报告模版也往往比较僵化,无法直接使用,一线客户经理就要花费大量时间在报告撰写上。
澜码接到这个需求,为客户构建了一款基于大语言模型的尽调报告Agent,可以自动给出分析结论、生成报告,辅助一线银行客户经理的工作,不仅能够节省一线客户经理80%报告撰写时间,还可以全面审核客户资料,帮助人工发现一些不易发觉的点或遗漏,减少错误率。
德迅零域(微隔离)
平台可部署在混合数据中心架构中,实现跨平台的统一安全管理,通过自主学习分析、可视化展示业务访问关系,实现细粒度、自适应的安全策略管理。产品在真实威胁中,可快速隔离失陷主机网络,阻断横向渗透行为,让零信任理念真正落地。
安全挑战
在云计算、虚拟技术的广泛应用之下,现代企业内部网络庞大且复杂,想要实施东西向控制会遇到许多挑战,只有解决好这些痛点问题,才能使它成为解决安全问题的一把利刃。
(系统环境复杂多样)(业务难梳理)(策略难运维)(正常业务受阻)
Agent
实时采集业务网络连接和资产信息,接收服务端指令,管控主机防火墙。
计算引擎
聚合、统计网络连接,进行可视化呈现,根据业务流量生成网络策略,并分析策略的覆盖。
控制台
控制台可清晰展示网络连接和策略配置情况,用户通过控制台集中管理网络策略并进行隔离操作。
功能实现
流量看得清——业务拓扑图可视化展示访问关系
自动学习业务访问关系,并以多种拓扑图清晰展示,结合资产信息,为策略制定提供基础。
- 拓扑图上交互式设置,自动生成策略,提高效率。
- 发现主机上无用的端口,减少风险暴露面。
- 丰富的查询方式和图例,直观评估策略配置情况。
策略好管理——多种策略形式实现自动化运维
依据不同管理场景,配置不同粒度的控制策略,并随业务或环境变化自适应调整策略,实现自动化运维。
- 提供业务组、标签、端口、IP等不同粒度的策略管理。
- 用标签定义策略,形式精简,降低运维成本。
- 策略表达明白易读,避免基于IP的安全策略。
策略易验证——监控异常访问并自动验证策略
在不真实拦截流量的情况下,持续监控学习业务访问关系,自动验证策略准确性和覆盖度。
- 自动验证策略正确性,减少人力成本。
- 重保场景中,发现恶意横向渗透行为。
- 发现异常访问,第一时间发出告警。
管控多选择——根据管理要求选择不同控制强度
-
访问控制模式决定控制策略如何放行/阻断网络连接,配合不同的管理要求,支持不同强度的控制模式。
-
主机控制模式:为每个业务端口配置策略,严密防护。
-
服务控制模式:管控20%的关键端口,降低80%的风险。
威胁可隔离——失陷主机快速隔离防止威胁扩散
在发生真实攻击场景下,提供应急响应手段,迅速隔离失陷主机网络,防止威胁进一步扩散。
- 出站、入站、双向网络流量,可选择不同隔离方式。
- 开放特定端口并指定访问IP,给上机排查问题提供条件。
- 威胁清除后远程解除隔离,恢复正常通信。
保护更全面——非受控设备和DMZ区主机访问控制
对未部署Agent的网络设备和业务敏感主机实现保护,并可对DMZ区主机的外网访问进行控制。
- 对已部署和未部署Agent主机之间的访问,进行安全控制。
- 严格限制出入外网的流量,收缩DMZ区主机暴露面。