大模型的下一站:AI Agent!

前言

现在各家基本上都有自己的大模型产品,现在的重点都是在找商业模式,以及扩展大模型的应用场景上。所以大家做APP、做Copilot也就不足为奇,都是为自己找出路的做法。但从作者的角度,Copilot只是传统互联网应用到大模型应用的过渡,AI Agent才是大模型的下一站!
仔细想想,自从Chat GPT发布之后,大模型行业相关的玩家们其实一直在忙两件事:

  • 提升基座大模型的能力:主力是国内外的大厂以及创业新势力,从最初的文、图、视频等单一模态到现在的综合多模态大模型,这些玩家利用Scaling Law,通过提升大模型的训练数据、训练算力和参数数量,以此来提升模型的性能,看这些市面上多如牛毛的大模型就知道这个方向成果颇丰。
    不过虽然目前Scaling law还未失效,但其实已经遇到了递减的回报—也就是说,虽然模型性能会随资源投入量的增加而改善,但每增加一单位资源带来的性能提升会逐渐减少,何况还有数据、算力上限的掣肘,未来的这个赛道的激烈程度不言而喻。

  • 探索大模型时代的Super APP:其实从 GPT-4 的 Auto GPT、Baby GPT、GPT-Engineer 等开源 Agent 开始,大家对于大模型时代的AI Agent的探索就再也没有停歇!对于广大的小公司或者普通人而言,基座大模型如何发展他们参与感不强,大家的机会或者说是关注点则更倾向于如何将LLMs落地于应用。

李彦宏说:所有应用都值得被大模型重构一遍,但快两年了,为什么目前还没有看到令人兴奋的AI应用?我个人的思考是:大模型的能力不够强是一方面,但更大的问题是大家并没有考虑清楚什么是大模型时代的应用?遍历市场上所谓的大模型应用,其实90%都是Copilot类产品,本质还是互联网应用,只是在原始架构上简单累加或者罗列大模型的能力。

Copilot只是传统互联网应用到大模型应用的过渡,AI Agent才是大模型的下一站!

01.Agent的前世今生

1. 1986年到1997年:Software Agent
“Agent“这个术语在这个时期就已经出现了,包括Carl Eddie Hewitt和Michael Wooldridge在内的西方学术界的杰出计算机科学家们及人工智能研究者,对这一主题进行了深入的探讨,并展示了众多的系统示例及发表了大量研究论文,探讨了Software Agent在各种应用场景中的潜力。

可以说,过去三十年来,Agent的理念基本保持不变,但由于当时的AI和计算能力限制,该概念在90年代流行了一段时间后逐渐淡出视线。

这个时期的Agent的概念源自于日常生活中广泛存在的代理概念。这些日常代理,如旅行代理或房地产代理,代表他人行事且具有一定的自主性,例如房地产代理可在未经房主直接同意的情况下,为空置房产安排看房。这些普通代理展示了主动性和合作的能力。

根据当时的计算机专家定义,Agent的几个关键特征包括:

自主性(在无需人类干预的情况下独立运作,并控制其行为和内部状态)
社交能力(能通过某种通讯语言与其他代理或人类互动)
反应能力(能感知并及时响应外部环境的变化)
主动性(具备目标导向的行为,不仅响应环境,也会主动行动以达成目标)。
2. 2023年4月至今:AI Agent
GPT-4发布之后,以AutoGPT、BabyAGI等为代表的一批自主代理(Autonomous Agents)的开源内容再次引发了学术界和产业界对于Agent系统和概念的兴趣。其中,学术界的参与和热情更为明显,目前Github上大约95%的相关Demo均由全球的科研机构和高校提供。
现阶段人们对 AI Agent 的定义和 30 年前当时对 Software Agent 定义变化不大,期望仍然是:在有了目标后,独立决策并完成任务的。唯一区别就是传统的Software Agent更多是依赖预设的算法或者规则解决一些简单的、流程明确的任务,但是在大模型加入后,Agent对于目标任务的拆解、规划能力更强了。

大语言模型的加入为 Agents 设计带来了变革,基于大语言模型的 Agent 可以整合更多的工具,同时多模态的能力还可以让Agent感知复杂和未知的环境,在决策策略上也更有优势,甚至可以利用一些手段让 Agent 具备持续学习能力,提高 Agent 处理任务的多样性。

简单来说,我们希望理想的AI Agent是一个强大的通用问题解决方案助手。

02.理想的AI Agent应该有哪些组件?

如果把大模型比作大脑前叶,负责计算,那么 Agent 也许更像整个大脑,有记忆,规划,行动,和使用工具的能力。所以对比大模型,Agent 更像一个完整的 App。Agent 时代的人机交互就像人与人的交互一样,更自然,更沉浸,更个人化。

比如:AutoGPT ,这类 Autonomous Agent 核心是利用模型 COT 能力让大模型通过审视自己上一次调用工具后输出结果,审视自己是否有改进的空间,再进行下一步规划和改进,以此来“激发”大模型的主动性。
参考Open AI研究员翁丽莲、机器学习专家吴恩达以及多篇关于Autonomous agents 的文章,这里我给出我理解的理想的AI Agent构成。

规划(Planning):

任务拆解:Agent能将大任务分解为更小的、可管理的子目标,从而有效地处理复杂任务。对于每一个目标,评估使用不同行为方案的可行性,选择其中期望效果最好的一个。
反思与改进:Agent可以接受来自人类或者环境的反馈,并反思历史的行为,从错误中吸取教训,并将错误内容加入长期记忆形成人类的教训,为未来的步骤进行改进,更新其对世界的认知,从而提高最终结果的质量。
行动(Action):

负责将Agent的决策转化为特定的输出。

环境探索和交互:Agent能够通过与环境交互获取新知识,并通过总结最近的经验来增强自己。通过这种方式可以生成越来越适应环境且符合常识的新行为。
记忆检索:Agent根据存储在记忆模块中的经验做决定,在采取行动时,相关的记忆片段被检索作为 LLM 的条件输入,以确保先前的错误不会再犯。
工具使用:可以通过文档和数据集教会 Agent 如何调用外部工具的 API,来补足 LLM 自身的弱项,甚至可以通过工具使用完成和硬件的交互。
记忆(Memory):

信息可以用各种格式存储在记忆中,来模仿人类大脑那样从过往的经验中学习正确的工作模式。

短期记忆:这一轮决策所需要用到的所有信息。其中包括上下文内容,目前Agent的记忆都是短期的。
长期记忆:这为Agent提供了在较长时间内保留和回忆(无限)信息的能力,目前是通过利用外部向量存储和快速检索来实现的,未来可以建设一个记忆系统,能记忆各种图、文、向量数据信息,包括用户用户偏好和工作习惯,以此能做出更智能的决策。

03. 为什么说大模型下一站是:AI Agent

1. AI Agent 将成为人类新的系统2
在《思考,快与慢》一书中,人的认知过程被划分为两大类,即系统 1 和系统 2。前者是快速且依赖直觉的思考模式,尽管灵活迅速,却容易犯错。后者则是缓慢而逻辑的思考方式,虽然速度较慢,但结果往往更为可靠和准确。

大型语言模型(LLMs)非常适合执行类似系统 1 的任务,它能迅速处理和回应大量信息,类似于人们在听到信息后能立刻理解和回答。然而,LLM 有时会产生幻觉效应,即造出不存在的事实,这种现象与人类的直觉思考中的偏误和本能响应有着相似之处。

而AI Agent的一项重要长期目标是让LLM能够担任类似系统 2 的角色,在深度思考和分析基础上做出更为复杂和可信的决策。CoT的研究就是这方面的一个杰出例子,它通过提示来让大模型模拟人类复杂的推理过程,以此激发出LLM更高级的智能,帮助和辅助人类进行思考,甚至是帮助人类完成行动。

2. AI Agent 将低成本为每个人实现软件定制
Andrej Karpathy 曾提出”Software 2.0″的概念,强调通过大数据和强大的计算力,可以有效处理此前需要大量人工和高成本才能解决的复杂问题,AI Agent正是将这一观念具体化的例子。

当前,市面上的主流软件多为用户群体大、标准化高的需求所设计,只有当需求量足够大时,企业才会投入资源开发。然而,许多小众、特异化的需求常常得不到满足。随着AI Agent的成熟,软件开发将实现成本的大幅降低。使软件能够灵活应对人类更加多样化的需求,开启类似于“3D打印”的软件生产新时代,为用户提供更加个性化的产品选择。

04.写在最后

短期,我们认为文章预想的Autonomous Agent 落地有些困难,因为上面也讲了是理想状态下的AI Agent,这就要求Agent有相当强大的自驱和自动化规划能力,但是在当前的大模型能力加持下,要想实现这样的效果,几乎不太可能。如果是短期的 AI Agent 产品,我们需要给产品的用户提供干预空间,让Agent辅助用户完成任务,保证至少有60%的事情是Agent完成的。

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.2.1 什么是Prompt
    • L2.2.2 Prompt框架应用现状
    • L2.2.3 基于GPTAS的Prompt框架
    • L2.2.4 Prompt框架与Thought
    • L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
    • L2.3.1 流水线工程的概念
    • L2.3.2 流水线工程的优点
    • L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
    • L3.1.1 Agent模型框架的设计理念
    • L3.1.2 Agent模型框架的核心组件
    • L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
    • L3.2.1 MetaGPT的基本概念
    • L3.2.2 MetaGPT的工作原理
    • L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
    • L3.3.1 ChatGLM的特点
    • L3.3.2 ChatGLM的开发环境
    • L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
    • L3.4.1 LLAMA的特点
    • L3.4.2 LLAMA的开发环境
    • L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/725919.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

汇凯金业:现货黄金技术分析及其应用

现货黄金技术分析是一种通过市场价、量、时、空间四个元素的研究,利用图表表达数据,从而预测未来价格走向的方法。虽然技术分析并非完美无缺,但它在投资决策中起到了重要作用。以下是现货黄金技术分析的详细介绍及其应用方法。 技术分析的基…

1分钟告诉你电脑微信文件夹储存在什么位置!

在日常生活中,微信已经成为我们不可或缺的社交工具之一,我们使用它来与亲朋好友保持联系,分享生活中的点滴。然而,随着我们在微信中发送和接收越来越多的信息、图片、视频等内容,微信所占用的存储空间也逐渐增加。 因…

做一个架构师需要什么能力?

作为一个架构师,需要具备多方面的能力来确保项目的顺利进行和系统的成功设计。以下是架构师所需的主要能力,按照不同的类别进行归纳和分点表示: 技术能力 编程能力:架构师通常是一个开发团队中技术较为出色的人员之一&#xff0…

转型技术管理:九大步骤解锁高效管理新境界

文章目录 引言一、寻求反馈二、从员工的角度看待问题三、总览全局四、管理自己的情绪五、赞赏员工的出色工作六、在人前支持员工七、管理自己的职业生涯八、认识到自己也许存在偏见,与不同于自己的人交流九、在工作中建立信任和沟通总结 引言 在快速变化的科技浪潮…

短视频开源项目MoneyPrinterTurbo:AI副业搞起来,视频制作更轻松!

目录 引言一、MoneyPrinterTurbo简介二、MoneyPrinterTurbo的核心功能三、MoneyPrinterTurbo的未来发展四、MoneyPrinterTurbo与AI副业五、部署实践1、克隆代码2、创建虚拟环境3、安装依赖4、安装好 ImageMagick5、端口映射6、启动Web界面7、模型配置8、填写主题9、视频生成10、…

Linux系统中的权限

在Linux系统中,权限是确保文件和目录安全性的关键机制。理解Linux权限对于有效管理和保护系统至关重要。本文将深入探讨Linux权限的概念、分类、设置方法以及实际应用,帮助读者更好地理解和运用这一关键技术。 一、Linux权限概述 Linux权限主要涉及三个…

前端路线指导(1):前端学习路线

小粉前端学习路线(前言) 哈喽大家好!我是小粉,双一流本科,自学前端一年,收获腾讯,字节等9家互联网大厂offer,秋招面试通过率100%,其中半数offer为ssp(薪资最高…

打造智能环境监测系统:全面解析Arduino Uno引脚与芯片功能!

Arduino Uno 是一个非常流行的微控制器开发板,广泛用于各种物联网项目。理解每个引脚的功能对于充分利用 Arduino Uno 的能力至关重要。本文将详细介绍 Arduino Uno 的每个引脚的功能、芯片功能,并通过表格、流程图和其他图表来帮助理解。 Arduino Uno 引…

机器学习课程复习——集成学习

1. 基本概念 1.1. 定义 通过构建并结合多个个体学习器来完成学习任务,获得比单一学习器显著优越的泛化性能。 1.2. 分类 名称个体学习器例子同质集成基学习器Boosting、Bagging异质集成组件学习器Stacking1.3. 研究的核心 个体学习器的“准确性”和“多样性”本身就存在冲…

【Jlink问题】:下载程序之后,无法识别下载驱动号,无法再进行下载。

项目场景: 因为我重装了一下软件 还有Jlink。导致每次使用Jlink下载一次程序之后,无法识别下载驱动号,无法再进行下载。 问题描述 关于Jlink 啊(我之前开发了一个IR工程 昨天晚上开始 每下载一次之后 芯片就锁死 然后需要解锁 再下…

onlyoffice报错:这份文件无法保存。请检查连接设置或联系您的管理员当你点击

文章目录 一、onlyoffice报错:这份文件无法保存。请检查连接设置或联系您的管理员当你点击二、解决方法总结 一、onlyoffice报错:这份文件无法保存。请检查连接设置或联系您的管理员当你点击 二、解决方法 禁用防火墙 sudo ufw disable总结 作者&…

【windows|006】基本分区和动态磁盘详解

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 ​ 🏅阿里云ACE认证高级工程师 ​ 🏅阿里云开发者社区专家博主 💊交流社…

音乐人王海军新歌《我没让你骄傲你却视我如宝》上线 好评如潮

时光飞逝,岁月如歌,华语乐坛向来不缺乏岁月金曲的沉淀与洗礼。2024,一首名为《我没让你骄傲你却视我如宝》的歌曲突然火爆全网,一经发行,便立刻赢得了广大歌迷朋友一致好评,共鸣内心,带来温暖与…

开源驰骋低代码-积极拥抱AI时代

开源驰骋AI低代码-积极拥抱AI时代 驰骋AI代码开发平台ccfast通过集成人工智能技术,为开发者提供了一系列强大的辅助功能,极大地提升了开发效率和流程体验。以下是针对您列出的功能的详细解释: 概要说明 驰骋低代码开发平台是一款基于云计算和…

PFA方桶聚四氟乙烯溢流槽PFA酸洗槽耐腐蚀浸泡桶15L

PFA浸泡桶又叫PFA酸缸、PFA清洗槽、PFA方槽。 主要用于浸泡、清洗带芯片硅片电池片的花篮。由于PFA的特点它能耐受清洗溶液的腐蚀性,同时金属元素值低,无溶出无析出,不会污染芯片晶圆等。 半导体晶圆清洗槽尺寸可按要求定做。同时&#xff0…

JS正则表达式构造函数和正则表达式字面量的区别

背景 笔者在使用正则表达式的过程中,经常看到两种使用方式,比较好奇这两种方式有什么不同。 一种是 正则表达式构造函数:new RegExp(“[xxx]”) 另一种是 正则表达式字面量: /[xxx]/ 于是,就去网上搜了一下…结果看到国…

Sealos 5.0 正式发布,云本应该是操作系统

把所有资源抽象成一个整体,一切皆应用,这才是云应该有的样子。 2018 年 8 月 15 日 Sealos 提交了第一行代码。 随后开源社区以每年翻倍的速度高速增长。 2022 年我们正式创业,经历一年的研发,在 2023 年 6 月正式上线 Sealos 公…

如何优雅地使用 console.log 打印数组或对象

一、背景 使用 console.log 在控制台中打印数组或者对象时,很多时候它们的字段都是默认关闭的,需要手动一个个的点开,非常不直观且麻烦。 二、解决方案 使用 JSON.stringify() 的第三个参数 我们来看一下官方对于 JSON.stringify 的介绍 三、…

windows pyenv-win:pyenv 下载过慢

先到官网下载指定版本的 exe 文件 Python Releases for Windows | Python.org 根据自己电脑的 下载 32 或者 64 下载完成后将 exe 放入 install_cache 再到 powershell 中执行安装指令 pyenv install 3.12.4

唯一工业操作系统!蓝卓supOS入榜中国500最具价值品牌

6月19日 在第21届世界品牌大会上 世界品牌实验室(World Brand Lab) 正式发布2024年《中国500最具价值品牌》分析报告 蓝卓supOS 以131.65亿元的品牌价值成为 国内首个入榜工业操作系统 国内首个工业操作系统的蜕变之旅 蓝卓supOS快速迭代指数增长 不断引领海内外多个首…