吴恩达AndrewNg 关于Agent工作流的分享

主要观点

  • 🎓 基于HumanEval的测试,使用智能体工作流确实能够显著提升大语言模型的表现,有时甚至超过下一代更强大的模型。
  • 🔄 AI智能体设计包括四种模式:反思、工具使用、规划、多智能体协作。
  • 🏗️ 快速token生成对于提高AI智能体效率至关重要。
  • 🛠️ 每种设计模式的实例和效果展示,及其影响。
  • 🚀 智能体工作流的应用能够解决复杂问题,增强AI的实用性和创新能力。
  • 🤖 多智能体协作展现了通过角色分担增强AI能力的潜力。
  • 💼 多智能体辩论被证明能够提升整体AI系统的性能。
  • 🌍 智能体工作流预计将极大扩展AI能做的事情,为实现人工通用智能贡献力量。

核心内容


智能体工作流的介绍

今天分享的是吴恩达教授在这次峰会上对智能体工作流的分享。在这次演讲中,他谈到了AI agentic workflow,也就是智能体工作流的迭代模式,以及基于人工评估基准测试的效果分析,还谈到了自己对于AI智能体设计模式的四种分类,包括反思、工具使用、规划、多智能体协作。与此同时,吴恩达还分享了它对AI智能体的未来发展潜力的展望,在他看来,通过智能体工作流,人工智能能够胜任的任务种类今年将会得到大幅的扩展。此外,快速token生成也很重要,即使使用质量略低、但是速度更快的语言模型,通过更多轮的迭代,也可能比使用更高质量、但是速度较慢的模型获得更好的结果。吴恩达的这次分享时间不长,但是信息密度很高,建议大家有时间可以去看下原视频。

智能体工作流与非智能体工作流对比

首先,吴恩达提出目前我们使用大语言模型的主要方式是一种非智能体工作流程,也就是我们输入一个提示,模型就生成一个回答。这有点像让一个人坐到电脑前,一次性从头到尾写一篇文章,但是中间不允许使用退格键。尽管这样做起来很难,但是大语言模型还是做得非常好。相比之下,智能体工作流程看起来是这样的:

  1. 首先,让AI大模型写一个文章大纲
  2. 如果需要上网查资料就先联网
  3. 然后写初稿
  4. 读初稿,思考哪些部分需要修改
  5. 然后再修改这篇初稿
  6. 再读再修改,如此循环往复、迭代多次。

很多人都没有意识到的是,这么做的效果会好得多。吴恩达自己也时常惊讶于智能体工作流的出色效果。

image.png

基于人工评估基准测试的效果分析

他的团队通过使用OpenAI发布的HumanEval编程评估基准,对智能体工作流做了一些数据分析。对于一些编程题,比如给定一个非空整数列表,返回位于偶数位置的所有奇数元素的和,AI会生成像这样的代码片段。我们很多人会直接使用零样本提示,也就是直接让大模型编写代码。但是实际上没有人是这样写代码的。事实证明,GPT-3.5在零样本提示的条件下,准确率只有48%。GPT-4能达到67%。但是如果使用智能体工作流,GPT-3.5实际上能表现更好,甚至超过GPT-4。如果在GPT-4上使用智能体工作流,GPT-4也能表现很好。

AI智能体设计模式分类

吴恩达注意到,这是一个信号,但是因为现在围绕智能体的讨论非常多,难免混乱,所以他接下来介绍了一下自己总结的智能体的四种设计模式。分别是:

  1. Reflection(反思或者自省) : 就是让智能体审视和修正自己生成的输出。
  2. Tool Use(使用工具) : 也就是让大语言模型进行生成代码、调用 API 等实际的操作。
  3. Planning(规划) : 也就是让智能体能够分解复杂的任务,并且按照规划执行。
  4. Multiagent Collaboration(多智能体协作) : 也就是多个智能体扮演不同角色,合作完成任务

image.png

Reflection现在很多人都在使用,也很有效。虽然Tool use得到了更广泛的认可,但是reflection实际上效果也很好。而规划和多智能体协作,属于正在兴起的技术,虽然有时候效果令人感到震惊,但是目前还不是很稳定。

Reflection 示例

接下来,吴恩达详细解释了这四种设计模式。首先是reflection,举个例子,假设我们让一个系统编写一个指定任务的代码,然后我们有一个编码智能体,它只是一个接受提示的大模型,会写一些像do_task这样的函数。那么self reflection的情况就是,我们让大模型写出这样的提示,告诉它这是用来执行某个任务的代码,然后把刚刚生成的代码给它,让它检查这段代码的正确性、效率等等类似的问题。结果我们会发现,根据提示写出代码的那个大模型,可能能够发现代码里的问题,比如第五行的bug,还会告诉你怎么修改。如果我们现在采纳了它的反馈并再次给它提示,它可能会提出一个比第一版更好的第二版代码。虽然不能保证结果一定一样,但是这种方式无疑是有效的,在很多应用中都值得去尝试一样。比方说,如果我们让模型运行单元测试,但是没有通过,我们想知道为什么没通过,那么通过这样的对话也许就能够找出原因。

多智能体系统示例

然后吴恩达提前提了一下多智能体系统,实际指的是多个单独的智能体,给它提示,让它们互相进行对话。放在编程的场景中,就是有两个智能体,其中一个是编写代码的智能体,另一个是评价代码的智能体。它们背后的大模型可能是同一个,但是给它们的提示是不一样的。比如我们对其中一个说,你是写代码的专家,负责编写代码。对另一个说,你是审核代码的专家,负责审核这段代码。这种工作流实际上很容易实现,而且应用场景很广,能够为大语言模型的性能带来显著的提升。

Tool Use 示例

image.png

许多人可能已经见过基于大模型的系统来使用工具。比方说,左边的截图来自于Copilot,而右边的截图来自于GPT-4。左边的问题是,网上最好的咖啡机是哪个?Copilot会通过上网检索来解决一些问题,而GPT-4会生成并且运行代码。事实证明,人们已经使用了很多不同的工具,来进行分析、收集信息、采取行动和提高个人生产力。很多早期与tool use有关的工作都是在计算机视觉领域,因为之前,大语言模型对图像无能为力,所以唯一的选择就是让大模型生成一个函数调用,用来操作图像,比如生成图像或者做目标检测什么的。逐渐才诞生了GPT-4V、LLaVA等模型。应该说,tool use扩展了大语言模型的能力。

Planning 规划示例

image.png

接下来是第三种设计模式,planning,规划。对于没有大量接触过规划算法的人来说,在见到ChatGPT的时候,会觉得,哇,从来没有见过这样的东西。他们看到AI智能体的时候也会很惊讶,哇,从来没有想到AI智能体能做到这些。而吴恩达实际已经经历了很多这样的时刻。其中一个例子改编自HuggingGPT的论文,输入的提示是,请生成一张图像,一个女孩在看书,她的姿态和图像中的男孩一样。然后用语音重新描述这张新图像。在AI智能体工作流下,可以确定第一件要做的事就是确定男孩的姿态,然后在HuggingFace上找到合适的模型,提取出姿态。接下来找到一个姿态图像的模型,遵循指令生成一张女孩的图像,然后再使用图像转文本模型得到描述,最后使用文本转语音模型读出描述。对于这种AI智能体工作流,吴恩达自己也说,有时候并不总是好用,但是起作用的时候,实际效果非常惊人。智能体循环能够帮助我们解决很多早期存在的问题。

吴恩达现在在自己的工作中,也会把一些需求发给AI智能体,几分钟后回来看看它做了什么。有时有效,有时不行,但是这已经成为了吴恩达个人工作的一种习惯了。

多智能体协作

最后一个设计模式是多智能体协作。它的效果比我们想象的要好得多。

image.png

左边这张图来自一篇名为ChatDev的论文,它是完全开源的。之前也流传过关于AI程序员Devin的演示,相信很多人也都看过。ChatDev可以笔记本电脑上运行,它是一个多智能体系统。我们可以让它有时扮演软件公司的CEO,有时扮演设计师,有时是产品经理,有时又是测试人员。这些智能体都是通过提示告诉大模型的,比如告诉它们,你现在是CEO,或者你现在是软件工程师。他们就会协作,会进一步的对话。如果你告诉它们,请开发一款游戏,它们就会花几分钟写代码,然后进行测试、迭代,然后生成一个令人惊讶的复杂程序。虽然并不总是能运行,但是有时候又很惊艳。这种多智能体的合作听起来可能有些奇特,但是实际上效果可能比想象的要好。这不仅仅是因为这些智能体之间的合作,能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让大语言模型不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

此外,事实证明,多智能体辩论实际上会带来更好的性能。比如说,我们可以让ChatGPT和谷歌的Gemini进行辩论。因此,让多个相似的AI智能体一起工作,也是一个强大的设计模式。

总结

最后,吴恩达做了下总结。

  • 得益于智能体工作流,今年AI能做的事情将大幅扩展。这四个智能体的设计模式也会变得非常关键。
  • 我们人类在输入提示之后,总想立即得到结果,这是人性使然。我们喜欢即时获取、即时反馈。但是对于AI智能体工作流来说,我们需要学会把任务分配给AI智能体,然后耐心地等待几分钟,甚至几小时,等它给出回应。这就好比很多新升上来的管理者,把某件事情委托给某人之后,总是不放心,几乎每隔五分钟后就要去检查一下。这并不是一种有效的工作方式。所以我们也需要对AI智能体多点耐心。
  • 另一个重要的事情是,快速的token生成非常重要。因为这些AI智能体是在一遍又一遍地迭代着。AI生成token的速度,应该比任何人的阅读速度都快。而且,即使用质量稍低的大模型快速生成更多的token,也比用更好的大模型慢慢生成token要好,因为它可能让智能体循环更多次。
  • 同时吴恩达认为,在GPT-5出来之前,智能体工作流能带来接近于GPT-5的效果。

image.png

最后的最后,吴恩达升华了一下分享的主题。他说道,通往人工通用智能的道路,宛如一场旅程而非终点。但是我相信,智能体能帮助我们在这条漫长征途上,迈出微小而坚实的一步。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/529010.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智慧公厕是智慧城市建设中不可或缺的一部分

智慧城市的数字化转型正在取得显著成效,各项基础设施的建设也在迅速发展,其中智慧公厕成为了智慧城市体系中不可或缺的一部分。作为社会生活中必要的设施,公共厕所的信息化、数字化、智慧化升级转型能够实现全区域公共厕所管理的横向打通和纵…

第12章 集合框架

一 集合框架概述 1.1 生活中的容器 1.2 数组的特点与弊端 一方面,面向对象语言对事物的体现都是以对象的形式,为了方便对多个对象的操作,就要对对象进行存储。另一方面,使用数组存储对象方面具有一些弊端,而Java 集合…

设计模式 -- 发布订阅模式

发布订阅模式: 订阅者把自己想订阅的事件注册到调度中心,当发布者发布该事件到调度中心,也就是该事件触发时,由调度者统一调度订阅者注册到调度中心的处理代码。 在javaScript 中我们一般使用事件模型来代替传统的发布订阅模式。 …

一文搞懂路由器2.4G和5G的区别,以及双频合一模式

我们知道,无线路由器是平时生活和工作中最常见不过的一个无线设备,通过它我们的手机、笔记本、智能电视、摄像头等,都可以接入互联网。 其实WiFi在1998年就开始使用了,当时仅仅是在欧美地区小范围使用,我们国家在2008年…

关于Ansible模块 ④

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 继《关于Ansible的模块 ①》、《关于Ansible的模块 ②》与《关于Ansible的模块 ③》之后,继续学习ansible常用模块之…

C++流程控制语句:嵌套循环案例分析【九九乘法表】

在C编程中,循环语句的嵌套是一种常见且强大的技术手段,它允许我们将多个循环结构相互嵌套,形成多维循环。不论是for循环、while循环还是do…while循环,均可以进行嵌套。 而在实践中,由于for循环具有明确的循环变量初…

[法规规划|数据概念]数据要素市场三月速递

“ 代表关注,市场活跃,发展迅速” 01—听听两会代表怎么说 在2024年的全国两会期间,数据要素作为新型的生产要素受到广泛关注,众多代表围绕数据要素市场化、立法、安全监管、人才培养及基础设施建设等方面,积极建言献策…

基于centos7安装docker+k8s+KubeSphere

实验环境:(每个服务器推荐内存为8G) 服务器 ip地址 主机名 centos7 192.168.80.1…

模型量化——NVIDIA——方案选择(PTQ、 partialPTQ、 QAT)

PTQ、 partialPTQ、 QAT 选择流程 PTQ、 partialPTQ、 QAT 咨询NVIDIA 官方后,他们的校正过程一致,支持的量化算子本质是一样的,那么如果你的算子不是如下几类,那么需要自己编写算子。参考TensorRT/tools/pytorch-quantization/py…

数据库入门-----SQL基础知识

目录 📖前言: 📑SQL概述&&通用语法: 🐳DDL: 🐻操作数据库: 🐞数据类型: 🦉操作表: 🦦DML: 语法规则&#x…

helm与k8基础

文章目录 一、helm二、K8S/K3S1.K8S基本组件1.1 资源对象1.2 核心组件1.3典型的创建 Pod 的流程1.4 Kubernetes 多组件之间的通信原理 三、容器运行时 Containerd1.查看当前k3s使用的容器运行时CRI2.K3S修改docker为运行环境3. Containerd 参考 一、helm Helm是Kubernetes的包…

吴恩达机器学习理论基础解读—线性模型(单一特征拟合)

吴恩达机器学习理论基础——线性模型 机器学习最常见的形式监督学习,无监督学习 线性回归模型概述 应用场景一:根据房屋大小预测房价 应用场景二:分类算法(猫狗分类) 核心概念:将训练模型的数据称为数…

使用C语言函数对数组进行操作

前言 在我们了解数组和函数之后,我们对数组和函数进行结合,之后完成一些操作吧 题目描述 杰克想将函数与数组结合进行一些操作,以下是他想要达到的效果,请你帮帮他吧! 创建一个整型数组,完成对数组的操作 1…

Taro框架中的H5 模板基本搭建

1.H5 模板框架的搭建 一个h5 的基本框架的搭建 基础template 阿乐/H5 Taro 的基础模板

人民网至顶科技:《开启智能新时代:2024中国AI大模型产业发展报告发布》

​3月26日,人民网财经研究院与至顶科技联合发布《开启智能新时代:2024年中国AI大模型产业发展报告》。该报告针对AI大模型产业发展背景、产业发展现状、典型案例、挑战及未来趋势等方面进行了系统全面的梳理,为政府部门、行业从业者以及社会公…

推荐一款自动化测试神器---Katalon Studio

Katalon Studio介绍 Katalon Studio 是一款在网页应用、移动和网页服务方面功能强大的自动化测试解决方案。基于 Selenium 和 Appium框架,Katalon Studio集成了这些框架在软件自动化方面的优点。这个工具支持不同层次的测试技能集。非程序员也可以快速上手一个自动…

5分钟了解清楚【osgb】格式的倾斜摄影数据metadata.xml有几种规范

数据格式同样都是osgb,不同软件生产的,建模是参数不一样,还是有很大区别的。尤其在应用阶段。 本文从建模软件、数据组织结构、metadata.xml(投影信息)、应用几个方面进行了经验性总结。不论您是初步开始建模&#xf…

Windows Server 2008添加Web服务器(IIS)、WebDAV服务、网络负载均衡

一、Windows Server 2008添加Web服务器(IIS) (1)添加角色,搭建web服务器(IIS) (2)添加网站,关闭默认网页,添加默认文档 在客户端浏览器输入服务器…

力扣LCR143---子结构判定(先序递归、Java、中等题)

题目描述: 给定两棵二叉树 tree1 和 tree2,判断 tree2 是否以 tree1 的某个节点为根的子树具有 相同的结构和节点值 。 注意,空树 不会是以 tree1 的某个节点为根的子树具有 相同的结构和节点值 。 示例 1: 输入:tree…

你真的了解区块链游戏吗?

随着区块链技术的不断发展和普及,越来越多的人开始关注区块链游戏这一新兴领域。然而,很多人对于区块链游戏的了解仅限于一些表面的概念和特点,真正深入了解的人并不多。那么,你真的了解区块链游戏吗? 首先&#xff0…