AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%

AI 智能体的宣传很好,现实不太妙。

随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。

但是,对于现有版本的 LLM 来说,它们的综合能力似乎并不能完全支撑得起 AI 智能体。

图片

多模态、多任务、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求,但是在具体的功能实践中所展现的真实效果却差强人意,这似乎也再次提醒各个 AI 智能体初创公司以及大型科技巨头认清现实:脚踏实地一点,先别把摊子铺得太大,从 AI 增强功能开始做起。

近日,一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:「AI 智能体在宣传上是个巨人,而现实却很不妙。」

不可否认的是,自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互,LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证明,这比预期的要更具挑战性。

WebArena 排行榜(一个真实可复现的网络环境,用于评估实用智能体的性能)对 LLM 智能体在现实任务中的表现进行了基准测试,结果显示即使是表现最好的模型,成功率也只有 35.8%。

图片

WebArena 排行榜对 LLM 智能体在现实任务中的表现进行的基准测试结果:SteP 模型在成功率指标上表现最为良好,达到了 35.8%,而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体?

「AI 智能体」这个术语并没有真正被定义,对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM(通常在 RAG 环境中进行函数调用),以便在环境中对如何执行任务做出高层次的决策。」

当前,构建 AI 智能体主要有以下两种架构方法:

  1. 单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。
  2. 多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。

理论上,具有无限上下文长度和完美注意力的单一智能体是理想的。由于上下文较短,在特定问题上,多智能体系统总是比单一系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后,作者认为它们目前仍为时过早、成本过高、速度过慢且不够可靠。许多 AI 智能体初创公司似乎在等待一个模型突破,以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表现并不够成熟,这体现在输出不精确、性能差强人意、成本较高、赔偿风险、无法获得用户信任等问题:

  • 可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。
  • 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。
  • 法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。
  • 用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。

现实世界中的尝试

目前,以下几家初创公司正在涉足 AI 智能体领域,但大多数仍处于实验阶段或仅限邀请使用:

  • adept.ai - 融资 3.5 亿美元,但访问权限仍然非常有限。
  • MultiOn - 融资情况未知,他们的 API 优先方法看起来很有前景。
  • HypeWrite - 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。
  • minion.ai - 最初引起了一些关注,但现在已经沉寂,仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的方法,这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA(record-and-replay)路线,这在现阶段可能是为保证可靠性所必需的。

同时,一些大公司也在将 AI 功能带到桌面和浏览器,并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序,可以与操作系统屏幕互动。

在 Google I/O 大会上,Google 演示了 Gemini 自动处理购物退货。

图片

微软宣布了 Copilot Studio,它将允许开发人员构建 AI 智能体机器人。

图片

这些技术演示令人印象深刻,人们可以拭目以待这些智能体功能在公开发布并在真实场景中测试时的表现,而不是仅限于精心挑选的演示案例。

AI 智能体将走向哪条路?

作者强调:「AI 智能体被过度炒作了,大多数还没有准备好用于关键任务。」

然而,随着基础模型和架构迅速进步,他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的:

  • 近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。
  • 人机协同的方法,让人类参与监督和处理边缘案例。
  • 根据当前的能力和局限,设定不脱离现实的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程方法,就可以在自动化等复杂任务方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作,例如网络抓取、填表和数据录入?

作者:「是的,绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/745594.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java基础的重点知识-04-封装

文章目录 面向对象思想封装 面向对象思想 在计算机程序设计过程中,参照现实中事物,将事物的属性特征、行为特征抽象出来,描述成计算机事件的设计思想。 面向对象思想的三大基本特征: 封装、继承、多态 1.类和对象 类是对象的抽象&#xff…

初阶 《操作符详解》11. 下标引用、函数调用和结构成员

11. 下标引用、函数调用和结构成员 1. [ ] 下标引用操作符 操作数:一个数组名 一个索引值 int arr[10];//创建数组 arr[9] 10;//实用下标引用操作符,[ ]的两个操作数是arr和9arr[7]-->*(arr7)-->*(7arr)-->7[arr] 7[arr] 9; //编译器不会…

软考《信息系统运行管理员》-1.1信息系统概述

1.1信息系统概述 信息的含义 信息是人们关心的事情的消息或知识 信息的分类 按产生信息的客体性质分: 自然信息:声、光、热、电等生物信息:遗传信息,生物体内、生物种群内的信息交流机器信息:自动控制系统社会信息…

flask与vue实现通过websocket通信

在一些情况下,我们需要实现前后端之间的时刻监听,本文是一篇工具文档,用于解决前后端之间使用websocket交互。 一. Flask的相关配置 1. 下载相关依赖库 如果还没有配置flask的话,需要先安装flask,同时为解决跨域问题&#xff0…

C++学习全教程(day1:变量和数据类型、运算符、流行控制语句)

目录 一、变量和数据类型 1、变量 2、标识符 3、作用域 4、常量 5、数据类型 1.基本数据类型-整型 2.char类型 3.bool类型 4.浮点类型 5.字面值常量 二、运算符 1、算数运算符 2、赋值运算符 3、复合赋值运算符 4、关系和逻辑运算 1.关系运算符 -------结果是…

SAP系统中如何用事务码图形视图寻找MD04增强开发实施点

在之前发布的文章中,介绍了善用事务码的图形视图以观察事务的执行流程以及如何在MD04中实施增强以改变生产订单的显示顺序。本文结合两者,介绍一下如何利用事务码的图形视图找到增强开发的实施点。 在事务码中输入SE93,进入图形视图&#xf…

sql:between and日期毫秒精度过多导致的查询bug

复现 一般情况下,前端传的日期值大多都是yyyy-MM-dd HH:mm:ss(标准格式),比如2024-06-25 10:49:50,但是在测试环境,测试人员测出了一个带毫秒的日期:比如2024-06-25 10:49:50.9999999 这种情况下会出现查询bug SELEC…

使用 shell 脚本同步 yum 源建立本地私有仓库

文章目录 [toc]事出有因脚本内容前端展示 事出有因 有两方面原因做了这个事情: dockerhub 国内无法访问centos 7 要停止社区支持了 结合两个情况,不久的将来,可能国内也就没有对应的 yum 仓库了(现在想找 centos 7 之前的仓库&…

企业数据挖掘平台产品特色及合作案例介绍

泰迪企业数据挖掘平台是一款通用的、企业级、智能化的数据分析模型构建与数据应用场景设计工具,能够一体化地完成数据集成、模型构建、模型发布,为数据分析、探索、服务流程提供支撑,提供完整的数据探索、多数据源接入、特征处理、模型搭建、…

【Python机器学习】聚类算法的对比与评估——在人脸数据集上比较算法

数据探查: 我们将k均值、DBSCAN和凝聚聚类算法应用于Wild数据集中的Labeled Faces,并查看它们是否找到了有趣的结构。我们将使用数据的特征脸表示,它由包含100个成分的PCA(whitenTrue)生成: peoplefetch_lfw_people(data_home &…

为了提高出图效率,我做了一款可视化制作气泡图谱的小工具

嗨,大家好,我是徐小夕,之前和大家分享了很多可视化低代码的最佳实践,今天和大家分享一下我基于实际场景开发的小工具——BubbleMap。 demo地址:http://wep.turntip.cn/design/bubbleMap 开发背景 之前在公司做图表开发…

LINUX操作系统:Mx Linux,用虚拟机VMware Workstation安装体验

需求说明: 操作系统目前流行有Windows、Linux、Unix等,中国人应该要知道国有操作系统,也要支持国产操作系统,为了更好支持国产操作系统,我们也要知己知彼,那么今天就来体验一把操作系统Mx_Linux_23.2的安装…

mac m芯片下安装nacos

背景:最近再研究 下载地址: https://nacos.io/download/nacos-server/ 解压zip包 unzip nacos-server-2.3.2.zip启动 进入到bin目录下 ./startup.sh -m standalone访问可视化界面 账号密码都是nacos,进行登录即可,nacos的端口为…

打破网络通信界限,推动供应链数字化转型

在当前全球经济低迷的背景下,中国经济的发展模式正在转变,从规模扩张到品质提升,通过优势的整合和叠加,释放出新的生产力。2023年前三季度,中国国内生产总值达到91.3万亿元,同比增长了5.2%1,增速…

红酒与珠宝:璀璨与醇香的奢华交响,双重诱惑难挡

在璀璨的灯光下,红酒与珠宝各自闪耀着迷人的光芒,它们如同夜空中的繁星,交相辉映,共同演绎着奢华的双重诱惑。今天,就让我们一起走进这个充满魅力的世界,感受红酒与珠宝带来的无尽魅力。 首先,让…

1966 ssm 流浪猫领养网站系统开发mysql数据库web结构java编程计算机网页源码eclipse项目

一、源码特点 ssm 流浪猫领养网站系统是一套完善的信息系统,结合springMVC框架完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具有完整的源代码和数据库,系统主要采用B/…

红酒舞动,运动风采,品味力与美

当夜幕降临,城市的灯火渐次亮起,忙碌了一天的人们开始寻找那份属于自己的宁静与愉悦。在这个时刻,红酒与运动,这两个看似截然不同的元素,却能以它们不同的魅力,为我们带来一场视觉与感官的盛宴。 红酒&…

【八股系列】Vue中的<keep-alive>组件:深入解析与实践指南

🎉 博客主页:【剑九 六千里-CSDN博客】 🎨 上一篇文章:【探索响应式布局的奥秘:关键技术与实战代码示例】 🎠 系列专栏:【面试题-八股系列】 💖 感谢大家点赞👍收藏⭐评论…

如何在前端项目中制定代码注释规范

本文是前端代码规范系列文章,将涵盖前端领域各方面规范整理,其他完整文章可前往主页查阅~ 开始之前,介绍一下​最近很火的开源技术,低代码。 作为一种软件开发技术逐渐进入了人们的视角里,它利用自身独特的优势占领市…