AI智能体技术突破:引领科技新浪潮

AI智能体技术突破:引领科技新浪潮

    • 基于大模型的 AI Agent 工作流
    • 基于大模型的 AI Agent 工作流效果
    • AI Agent 的四种设计模式
      • Reflection 反思设计模式
      • Tool use 工具使用设计模式
      • Planning 规划设计模式
      • Multiagent collaboration 多智能体协作设计模式

在这里插入图片描述

吴恩达在红杉美国 AI 峰会上分享了他对 AI Agent 智能体的看法,主要包括以下 3点:基于大模型的 AI Agent 工作流、AI Agent 工作流效果、AI Agent 的四种设计模式。

基于大模型的 AI Agent 工作流

我很期待与大家分享我在 AI Agent 智能体中看到的令人兴奋的趋势,我认为每个 AI 从业者都应该关注这个趋势。

目前,我们使用大语言模型的主要方式是一种非智能体工作流程,即您输入一个提示词,大模型就生成一个回答。这有点像让一个人坐下来一次性从头到尾编写一篇文章,而不允许使用退格键,尽管这样做很难,但大模型的表现出奇地出色。

相比之下,AI Agent 智能体工作流程看起来是这样的(如下图右边所示):一个 AI 大模型,我们让它写一份论文大纲。需要上网查资料吗?如果需要,就联网。然后写初稿、读初稿,并思考哪些部分需要修改。继续修改初稿并推进。
在这里插入图片描述
很多人没有意识到,这种做法可以带来显著的改进效果。我自己在使用这些代理工作流程时也感到非常惊讶,它们工作得如此之好。

总之,这种有迭代反思的做法会带来显著的改进效果。

基于大模型的 AI Agent 工作流效果

比如:给定一个非空整数列表,返回位于偶数位置的所有奇数元素的和。大模型生成的答案是像这样的代码片段(如下图所示):

在这里插入图片描述

事实证明,如果你使用 GPT-3.5,在零样本提示的条件下,GPT-3.5 的准确率是 48%。GPT-4 要好得多,达到了 67%。但如果你采用的是 AI Agent 智能体工作流,并将其打包,GPT-3.5 实际上能表现更好,甚至比 GPT-4 还好。

如果你围绕 GPT-4 构建这样的工作流,GPT-4 也能表现得很好。注意,处于AI Agent 智能体工作流中的 GPT-3.5 实际上优于 GPT-4。这是一个信号

在这里插入图片描述
解释一下上图:Reflection、Tool Use、Planning、Multiagent 是吴恩达提到的四种 Agent 设计模式,后续会详细介绍。

其实基于 Agent 的工作流程才符合人类的习惯,毕竟对于一段复杂的程序,没有一个程序员是从头写到尾的,一般都是先能跑通,然后不断优化重构,补充异常处理,持续迭代优化的过程。

AI Agent 的四种设计模式

Reflection 反思设计模式

很好理解,如果你让大模型写一段代码,它会立马给你一个反馈。这时候你可以将它输出的代码片段再输入回去,让大模型仔细检查它写的代码的准确性、结构规范性等,并且给出评论。

然后再将这些反馈结果输入给大模型,它可能会输出一个比第一版更好的代码。

在这里插入图片描述
我之前描述的是一个单一的编码 AI Agent 智能体 ,你提示它与自己进行交互。这个想法的一种自然延伸是,不是单一的代码 AI Agent 智能体 ,而是有两个AI Agent 智能体,一个是编码 AI Agent 智能体 ,另一个是评审 AI Agent 智能体 。它们可以基于同一个语言模型,但你以不同的方式对它们进行提示,对一个说“你是专业编码者,编写代码”,对另一个说"你是专业代码评审员,评审这段代码"。这种工作流程实际上非常容易实现,我认为它是一种通用技术,可以为很多工作流程带来显著的大语言模型性能提升。

Tool use 工具使用设计模式

相信大家使用 Copliot,或者月之暗面的 Kimi Chat,你给出 Prompt 提示词,它首先会检索互联网上的内容,基于检索到的内容进行总结分析,给出结论。

这个其实就是大模型使用「网页搜索」工具的例子。

再比如:你问大模型,今天的天气如何?这个时候大模型会调用天气预报工具得到今天的的天气状况。

在这里插入图片描述

Planning 规划设计模式

在我进行的一些现场演示中,有些演示会失败,AI Agent 智能体会重新规划路径。我经历过很多这样的时刻。其中一个例子是从 HuggingGPT 论文中改编的,输入的是:请生成一张图片,一个女孩在看书,她的姿态和图像中的男孩一样,再使用你的声音描述这张新图片。

在这里插入图片描述
今天有了 AI Agent 智能体,你可以确定第一件要做的事是确定男孩的姿态,提取姿态。接下来需要找到一个姿态图像模型,遵循指令生成一张女孩的图像。然后使用图像 - 文本模型得到描述。最后使用文本转语音模型读出描述。

Multiagent collaboration 多智能体协作设计模式

多智能体协作,这部分很很有趣,比你想象的好很多,类似于之前大火的 AI 斯坦福小镇。
在这里插入图片描述
吴恩达举的例子是开源项目 ChatDev,你可以让一个大模型扮演不同的角色,比如:公司CEO、设计师、产品经理或测试人员,这些 Agents 会相互协作,共同开发一个 App 或者复杂程序。

虽然不是每次都能成功,但有时确实非常惊艳!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/550811.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python可视化-matplotlib用法详解(一)

一、折线图绘制 import pandas as pds./../../data//unrate.csv unrate pd.read_csv(s) # 时间格式转换, unrate[DATE] pd.to_datetime(unrate[DATE]) print(unrate.head(12))DATE VALUE 0 1948-01-01 3.4 1 1948-02-01 3.8 2 1948-03-01 4.0 3 19…

C++ | Leetcode C++题解之第31题下一个排列

题目&#xff1a; 题解&#xff1a; class Solution { public:void nextPermutation(vector<int>& nums) {int i nums.size() - 2;while (i > 0 && nums[i] > nums[i 1]) {i--;}if (i > 0) {int j nums.size() - 1;while (j > 0 && …

pip如何查看Python某个包已发行所有版本号?

以matplotlib包为例子&#xff0c; pip install matplotlib6666 6666只是胡乱输入的一个数&#xff0c;反正输入任意一个不像版本号的数字都可以&#xff5e; matplotlib所有版本号如下&#xff0c; 0.86, 0.86.1, 0.86.2, 0.91.0, 0.91.1, 1.0.1, 1.1.0, 1.1.1, 1.2.0, 1.2.1…

从永远到永远-ThinkBook笔记本避坑

ThinkBook黑点吐槽 0.写在前边的话1.配置2.槽点1.蓝屏2.键盘失灵3.触摸板失灵4.游戏1.黑屏2.切出游戏 5.资源管理器搜索栏消失6.鼠标右键桌面失灵7.输入法8.声音 3.总结 0.写在前边的话 在购买本机之前&#xff0c;我一直使用的小米&#xff08;型号待补&#xff09;笔记本。也…

lua基本语法

Lua语法入门 初识lua vi hello.lua print("hello,lua") lua hello.lua 变量和循环 变量 循环 条件控制、函数 条件控制

计算机网络——实现smtp和pop3邮件客户端

实验目的 运用各种编程语言实现基于 smtp 协议的 Email 客户端软件。 实验内容 1. 选择合适的编程语言编程实现基于 smtp 协议的 Email 客户端软件。 2. 安装 Email 服务器或选择已有的 Email 服务器&#xff0c;验证自己的 Email 客户端软件是否能进行正常的 Email 收发功…

OWASP发布10大开源软件风险清单

3月20日&#xff0c;xz-utils 项目被爆植入后门震惊了整个开源社区&#xff0c;2021 年 Apache Log4j 漏洞事件依旧历历在目。倘若该后门未被及时发现&#xff0c;那么将很有可能成为影响最大的软件供应链漏洞之一。近几年爆发的一系列供应链漏洞和风险&#xff0c;使得“加强开…

材料物理 笔记-6

原内容请参考哈尔滨工业大学何飞教授&#xff1a;https://www.bilibili.com/video/BV18b4y1Y7wd/?p12&spm_id_frompageDriver&vd_source61654d4a6e8d7941436149dd99026962 或《材料物理性能及其在材料研究中的应用》&#xff08;哈尔滨工业大学出版社&#xff09; 文…

维护表和索引分区

1. ALTER FRAGMENT 语句 如果想更改分片策略&#xff0c;可以使用ALTER FRAGMENT语句。 初始化新的片段模式 ALTER FRAGMENT …INIT 增加额外片段 ALTER FRAGMENT …ADD 删除一个片段 ALTER FRAGMENT …DROP 修改片段表达式或 dbspace ALTER FRAGMENT …MODIFY 将表合并至一张…

音频---数字mic

一、常见的数字mic pdm麦通过codec芯片将数字麦转换为i2s信号输入到SOC 纯pdm麦就是直接进入SOC的pdm接口&#xff0c;走的是PDM信号&#xff0c;PDM信号就是两个线&#xff0c;一根数据线一根时钟线&#xff08;如顺芯ES7201/7202把MIC信号转换成PDM&#xff09;。 二、DMIC…

Chrome将网页保存为PDF的实战教程

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

半导体行业芯片加工机台数据采集,如何同时保证效率和准确性?

半导体行业的重要性不言而喻&#xff0c;随着互联网时代技术的不断更新和演进&#xff0c;芯片的应用更加广泛&#xff0c;新能源、信息通讯设备、4C产业、智能电网等领域均需要芯片的支撑。而芯片的制造涉及多个关键步骤&#xff0c;包括晶圆制备、氧化、光刻、刻蚀、薄膜沉积…

Vue3(四):组件通信详解(九种方法)

主要有九种方法&#xff0c;以下是详细解释及使用方法&#xff1a; 1.props props实现父子间的通信&#xff0c;是使用频率最高的。 &#xff08;1&#xff09;父传子&#xff1a;属性值是非函数。 以Father.vue和Child.vue 为例。 父组件中&#xff0c;引入子组件并给子组…

【Leetcode每日一题】 递归 - 二叉树的所有路径(难度⭐)(59)

1. 题目解析 题目链接&#xff1a;257. 二叉树的所有路径 这个问题的理解其实相当简单&#xff0c;只需看一下示例&#xff0c;基本就能明白其含义了。 2.算法原理 针对二叉树路径的求解问题&#xff0c;我们可以采用深度优先遍历&#xff08;DFS&#xff09;的策略来寻找所…

4.16 java项目小结1

java项目登录界面实现了服务端与客户端的连接&#xff0c;实现了客户端传递输入的账号和密码&#xff0c;服务端从数据库查询&#xff0c;并反馈给客户端。 学习了正则表达式 正则表达式的作用 作用一:校验字符串是否满足规则 作用二:在一段文本中查找满足要求的内容 目前我…

Python 包围盒裁剪卫星场景

下载 Landsat 场景 我们首先下载陆地卫星场景。您可以使用EarthExplorer门户来执行此操作。 数据下载后,您应该有一个下图所示的文件夹。这些是Landsat 2 级科学产品的所有可用文件。我们将处理突出显示的文件。这些是 3 个可见光波段和SR_stac文件。 加载图像和 stac 文件 …

PHP一句话木马

一句话木马 PHP 的一句话木马是一种用于 Web 应用程序漏洞利用的代码片段。它通常是一小段 PHP 代码&#xff0c;能够在目标服务器上执行任意命令。一句话木马的工作原理是利用 Web 应用程序中的安全漏洞&#xff0c;将恶意代码注入到服务器端的 PHP 脚本中。一旦执行&#xf…

Android Room 记录一个Update语句不生效的问题解决记录

代码展示 1.数据实体类 Entity public class User {PrimaryKey(autoGenerate true)private long id;private String name;private String age;private String sex;public User(String name, String age, String sex) {this.name name;this.age age;this.sex sex;}public …

Linux 磁盘管理和文件系统

硬盘的物理结构&#xff1a; 盘片硬盘有多个盘片&#xff0c;每盘片2面磁头每面一个磁头 硬盘的数据结构&#xff1a; 扇区盘片被分为多个扇形区域&#xff0c;扇区:每个扇区存放512字节的数据&#xff0c;硬盘的最小存储单位磁道同一盘片不同半径的同心圆&#xff0c;是由磁…

postgresql|数据库|实时数据库监控利器 pg_activity 的部署和初步使用

前言&#xff1a; postgresql的调优是比较重要的&#xff0c;那么&#xff0c;如何调优呢&#xff1f;自然是在某一个时间段内&#xff0c;通常是业务高峰期或者压测时间内实时观察数据库的运行情况&#xff0c;然后通过观察到的信息判断数据库的瓶颈&#xff0c;比如&#xf…