主要观点
- 🎓 基于HumanEval的测试,使用智能体工作流确实能够显著提升大语言模型的表现,有时甚至超过下一代更强大的模型。
- 🔄 AI智能体设计包括四种模式:反思、工具使用、规划、多智能体协作。
- 🏗️ 快速token生成对于提高AI智能体效率至关重要。
- 🛠️ 每种设计模式的实例和效果展示,及其影响。
- 🚀 智能体工作流的应用能够解决复杂问题,增强AI的实用性和创新能力。
- 🤖 多智能体协作展现了通过角色分担增强AI能力的潜力。
- 💼 多智能体辩论被证明能够提升整体AI系统的性能。
- 🌍 智能体工作流预计将极大扩展AI能做的事情,为实现人工通用智能贡献力量。
核心内容
智能体工作流的介绍
今天分享的是吴恩达教授在这次峰会上对智能体工作流的分享。在这次演讲中,他谈到了AI agentic workflow,也就是智能体工作流的迭代模式,以及基于人工评估基准测试的效果分析,还谈到了自己对于AI智能体设计模式的四种分类,包括反思、工具使用、规划、多智能体协作。与此同时,吴恩达还分享了它对AI智能体的未来发展潜力的展望,在他看来,通过智能体工作流,人工智能能够胜任的任务种类今年将会得到大幅的扩展。此外,快速token生成也很重要,即使使用质量略低、但是速度更快的语言模型,通过更多轮的迭代,也可能比使用更高质量、但是速度较慢的模型获得更好的结果。吴恩达的这次分享时间不长,但是信息密度很高,建议大家有时间可以去看下原视频。
智能体工作流与非智能体工作流对比
首先,吴恩达提出目前我们使用大语言模型的主要方式是一种非智能体工作流程,也就是我们输入一个提示,模型就生成一个回答。这有点像让一个人坐到电脑前,一次性从头到尾写一篇文章,但是中间不允许使用退格键。尽管这样做起来很难,但是大语言模型还是做得非常好。相比之下,智能体工作流程看起来是这样的:
- 首先,让AI大模型写一个文章大纲
- 如果需要上网查资料就先联网
- 然后写初稿
- 读初稿,思考哪些部分需要修改
- 然后再修改这篇初稿
- 再读再修改,如此循环往复、迭代多次。
很多人都没有意识到的是,这么做的效果会好得多。吴恩达自己也时常惊讶于智能体工作流的出色效果。
基于人工评估基准测试的效果分析
他的团队通过使用OpenAI发布的HumanEval编程评估基准,对智能体工作流做了一些数据分析。对于一些编程题,比如给定一个非空整数列表,返回位于偶数位置的所有奇数元素的和,AI会生成像这样的代码片段。我们很多人会直接使用零样本提示,也就是直接让大模型编写代码。但是实际上没有人是这样写代码的。事实证明,GPT-3.5在零样本提示的条件下,准确率只有48%。GPT-4能达到67%。但是如果使用智能体工作流,GPT-3.5实际上能表现更好,甚至超过GPT-4。如果在GPT-4上使用智能体工作流,GPT-4也能表现很好。
AI智能体设计模式分类
吴恩达注意到,这是一个信号,但是因为现在围绕智能体的讨论非常多,难免混乱,所以他接下来介绍了一下自己总结的智能体的四种设计模式。分别是:
- Reflection(反思或者自省) : 就是让智能体审视和修正自己生成的输出。
- Tool Use(使用工具) : 也就是让大语言模型进行生成代码、调用 API 等实际的操作。
- Planning(规划) : 也就是让智能体能够分解复杂的任务,并且按照规划执行。
- Multiagent Collaboration(多智能体协作) : 也就是多个智能体扮演不同角色,合作完成任务
Reflection现在很多人都在使用,也很有效。虽然Tool use得到了更广泛的认可,但是reflection实际上效果也很好。而规划和多智能体协作,属于正在兴起的技术,虽然有时候效果令人感到震惊,但是目前还不是很稳定。
Reflection 示例
接下来,吴恩达详细解释了这四种设计模式。首先是reflection,举个例子,假设我们让一个系统编写一个指定任务的代码,然后我们有一个编码智能体,它只是一个接受提示的大模型,会写一些像do_task这样的函数。那么self reflection的情况就是,我们让大模型写出这样的提示,告诉它这是用来执行某个任务的代码,然后把刚刚生成的代码给它,让它检查这段代码的正确性、效率等等类似的问题。结果我们会发现,根据提示写出代码的那个大模型,可能能够发现代码里的问题,比如第五行的bug,还会告诉你怎么修改。如果我们现在采纳了它的反馈并再次给它提示,它可能会提出一个比第一版更好的第二版代码。虽然不能保证结果一定一样,但是这种方式无疑是有效的,在很多应用中都值得去尝试一样。比方说,如果我们让模型运行单元测试,但是没有通过,我们想知道为什么没通过,那么通过这样的对话也许就能够找出原因。
多智能体系统示例
然后吴恩达提前提了一下多智能体系统,实际指的是多个单独的智能体,给它提示,让它们互相进行对话。放在编程的场景中,就是有两个智能体,其中一个是编写代码的智能体,另一个是评价代码的智能体。它们背后的大模型可能是同一个,但是给它们的提示是不一样的。比如我们对其中一个说,你是写代码的专家,负责编写代码。对另一个说,你是审核代码的专家,负责审核这段代码。这种工作流实际上很容易实现,而且应用场景很广,能够为大语言模型的性能带来显著的提升。
Tool Use 示例
许多人可能已经见过基于大模型的系统来使用工具。比方说,左边的截图来自于Copilot,而右边的截图来自于GPT-4。左边的问题是,网上最好的咖啡机是哪个?Copilot会通过上网检索来解决一些问题,而GPT-4会生成并且运行代码。事实证明,人们已经使用了很多不同的工具,来进行分析、收集信息、采取行动和提高个人生产力。很多早期与tool use有关的工作都是在计算机视觉领域,因为之前,大语言模型对图像无能为力,所以唯一的选择就是让大模型生成一个函数调用,用来操作图像,比如生成图像或者做目标检测什么的。逐渐才诞生了GPT-4V、LLaVA等模型。应该说,tool use扩展了大语言模型的能力。
Planning 规划示例
接下来是第三种设计模式,planning,规划。对于没有大量接触过规划算法的人来说,在见到ChatGPT的时候,会觉得,哇,从来没有见过这样的东西。他们看到AI智能体的时候也会很惊讶,哇,从来没有想到AI智能体能做到这些。而吴恩达实际已经经历了很多这样的时刻。其中一个例子改编自HuggingGPT的论文,输入的提示是,请生成一张图像,一个女孩在看书,她的姿态和图像中的男孩一样。然后用语音重新描述这张新图像。在AI智能体工作流下,可以确定第一件要做的事就是确定男孩的姿态,然后在HuggingFace上找到合适的模型,提取出姿态。接下来找到一个姿态图像的模型,遵循指令生成一张女孩的图像,然后再使用图像转文本模型得到描述,最后使用文本转语音模型读出描述。对于这种AI智能体工作流,吴恩达自己也说,有时候并不总是好用,但是起作用的时候,实际效果非常惊人。智能体循环能够帮助我们解决很多早期存在的问题。
吴恩达现在在自己的工作中,也会把一些需求发给AI智能体,几分钟后回来看看它做了什么。有时有效,有时不行,但是这已经成为了吴恩达个人工作的一种习惯了。
多智能体协作
最后一个设计模式是多智能体协作。它的效果比我们想象的要好得多。
左边这张图来自一篇名为ChatDev的论文,它是完全开源的。之前也流传过关于AI程序员Devin的演示,相信很多人也都看过。ChatDev可以笔记本电脑上运行,它是一个多智能体系统。我们可以让它有时扮演软件公司的CEO,有时扮演设计师,有时是产品经理,有时又是测试人员。这些智能体都是通过提示告诉大模型的,比如告诉它们,你现在是CEO,或者你现在是软件工程师。他们就会协作,会进一步的对话。如果你告诉它们,请开发一款游戏,它们就会花几分钟写代码,然后进行测试、迭代,然后生成一个令人惊讶的复杂程序。虽然并不总是能运行,但是有时候又很惊艳。这种多智能体的合作听起来可能有些奇特,但是实际上效果可能比想象的要好。这不仅仅是因为这些智能体之间的合作,能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让大语言模型不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。
此外,事实证明,多智能体辩论实际上会带来更好的性能。比如说,我们可以让ChatGPT和谷歌的Gemini进行辩论。因此,让多个相似的AI智能体一起工作,也是一个强大的设计模式。
总结
最后,吴恩达做了下总结。
- 得益于智能体工作流,今年AI能做的事情将大幅扩展。这四个智能体的设计模式也会变得非常关键。
- 我们人类在输入提示之后,总想立即得到结果,这是人性使然。我们喜欢即时获取、即时反馈。但是对于AI智能体工作流来说,我们需要学会把任务分配给AI智能体,然后耐心地等待几分钟,甚至几小时,等它给出回应。这就好比很多新升上来的管理者,把某件事情委托给某人之后,总是不放心,几乎每隔五分钟后就要去检查一下。这并不是一种有效的工作方式。所以我们也需要对AI智能体多点耐心。
- 另一个重要的事情是,快速的token生成非常重要。因为这些AI智能体是在一遍又一遍地迭代着。AI生成token的速度,应该比任何人的阅读速度都快。而且,即使用质量稍低的大模型快速生成更多的token,也比用更好的大模型慢慢生成token要好,因为它可能让智能体循环更多次。
- 同时吴恩达认为,在GPT-5出来之前,智能体工作流能带来接近于GPT-5的效果。
最后的最后,吴恩达升华了一下分享的主题。他说道,通往人工通用智能的道路,宛如一场旅程而非终点。但是我相信,智能体能帮助我们在这条漫长征途上,迈出微小而坚实的一步。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓