NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架

AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”),CAMEL框架是最早基于ChatGPT的autonomous agents知名项目,目前已被顶级人工智能会议NeurIPS 2023录用。

1777dbe9073c4bcd8ab59365481bcafc.png

 

论文题目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

论文链接: https://ghli.org/camel.pdf
代码链接: GitHub - camel-ai/camel: 🐫 CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society (NeruIPS'2023) https://www.camel-ai.org
项目主页: CAMEL-AI

“什么神奇的技巧让我们变得聪明? 窍门就是没有窍门。智慧的力量源于我们巨大的多样性,而不是任何单一的、完美的原则。”
——人工智能先驱 马文·明斯基(Marvin Minsky)[1]

目前来看,在机器通向高级智能的道路上,以ChatGPT为代表的大模型(LLMs)应该是必须经过的里程碑之一,它们以聊天对话的人机交互方式在多个领域的复杂任务解决方面取得了非常耀眼的成就。随着LLMs的发展,AI Agents(AI智能体)之间的交互框架也逐渐兴起,尤其是在一些复杂的专业领域,以角色扮演等模式预置的智能体完全有能力代替人类用户在任务中扮演的角色,同时,智能体之间通过以协作和竞争形式的动态交互往往能够带来意想不到的效果,这就是被OpenAI人工智能专家Andrej Karpathy等人看作是“下一代提示工程前沿领域”的AI Agents

该领域发展的时间线如下[2]:

  • “CAMEL”(骆驼:大模型心智交互框架)- 发布于2023.3.21

  • “AutoGPT” - 发布于2023.3.30

  • “BabyGPT” - 发布于2023.4.3

  • “Westworld” simulation(斯坦福西部世界小镇) — 发布于2023.4.7

作为最早基于ChatGPT的autonomous agents知名项目,CAMEL重点探索了一种称为角色扮演(role-playing)的新型合作代理框架,该框架可以有效缓解智能体对话过程中出现的错误现象,从而有效引导智能体完成各种复杂的任务,人类用户只需要输入一个初步的想法就可以启动整个过程。目前,CAMEL已经被国际人工智能顶级会议NeurIPS 2023录用

49ac5f0e79824b6fb0efccf9be687e67.png

作者对CAMEL框架设计了灵活的模块化功能,包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等,因此CAMEL可以作为一个基础的Agents后端,支持AI研究者和开发者更加轻松地开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。具体的,作者通过涉及两种角色扮演的合作场景,生成了两个大型的指令数据集AI Society和AI Code,以及两个单轮问答数据集AI Math和AI Science,用于探索LLM涌现能力的研究

01. CAMEL框架

下图展示了CAMEL中的role-playing框架,人类用户需要首先制定一个想要实现的想法或目标,例如:开发一个用于股票市场的交易机器人。这项任务涉及的角色是AI助理智能体(使其扮演Python程序员角色)和AI用户智能体(使其扮演股票交易员角色)

8fae33d32dfc4b09bfccf20cdbc4013f.png

更多技术细节,可以参考我们先前对CAMEL的报道。

02. 实验效果

本文的性能评估主要从三个方面进行,并且采用两个gpt-3.5-turbo作为实验智能体,实验的数据集使用CAMEL框架生成的四个AI数据集,其中AI Society和AI Code侧重于智能体的对话效果,而AI Math和AI Science侧重于智能体的问题解决能力。

2.1 Agent评估

在这一部分,作者从AI Society和AI Code数据集中分别随机选择 100 个任务进行评估,然后使用CAMEL框架和单个gpt-3.5-turbo进行对比实验,结果评估方面分为两部分,一方面由人类受试者对两种方法给出的解决方案给出453份投票数据,来决定哪种方案更加可行。另一方面,作者提示GPT4模型对两种方案直接给出评分,具体的对比数据如下表所示。

aadbbd5162ef4fbea0d82563fa8937e0.png

从上表中可以看出,CAMEL框架给出的解决方案在人类评估和GPT4评估中均大幅优于gpt-3.5-turbo给出的解决方案,其中人类评估和GPT4评估的总体趋势高度一致

2.2 使用GPT-4对ChatBot评估

在这一部分,作者在CAMEL生成的四个数据集上对LLaMA-7B模型进行了逐步的微调,通过向LLM中不断注入来自社会、代码、数学和科学等不同领域的知识,来观察模型对知识发现的接受效果。作者首先从AI Society数据集开始,让模型了解人类的互动常识和社会动态,随后AI Code和其他数据集的注入,模型获得了编程逻辑和语法的知识,同时拓宽了模型对科学理论、经验观察和实验方法的理解

b3ff76f0086e45dcb957cf4945bc6516.png

上表展示了模型在20个Society任务、20个代码编写任务、20个数学任务和60个科学任务上的测试效果,可以看到在每次添加数据集时,模型在已训练过的任务域上都会表现得更好。

2.3 HumanEval

为了进一步评估CAMEL框架的代码编写任务解决能力,作者在HumanEval和HumanEval+两个评估基准上进行了实验,实验结果如下表所示。

49fd4c645a9d498ebd0afdf37cba37fe.png

上表中清楚地证明了CAMEL框架的卓越性能,它不仅远远超过了LLaMA-7B模型,而且还大大超过了Vicuna-7B模型,这表明使用CAMEL生成的数据集在增强LLM处理编码相关任务方面有独特的效果。

3.CAMEL AI开源社区

值得一提的是,CAMEL作者团队正在构建了一个非常完善的CAMEL AI开源社区,社区Github仓库已经得到了3600+的star数,社区中涵盖了CAMEL中各种智能体的实现、数据生成pipeline、数据分析工具和已生成的数据集,以支持AI Agents及其他方面的研究,社区目前已吸引了诸多开源爱好者贡献代码。

距离 CAMEL 项目编写第一行代码到现在已有 9 个月,http://CAMEL-AI.org开源研究技术社区已经吸引超过 20 名来自KAUST/剑桥/索邦大学/NUS/CMU/芝加哥大学/斯坦福/杜克大学/北大/上交/哈工大/西电/东北大学/成信大以及工业界等独立代码贡献者。社区正在寻找全职/兼职/实习贡献者、工程师和研究人员加入一起学习和探索如何推动构建智能体社会的边界,杰出贡献者有机会参与框架和其他研究项目论文的撰写投稿。

如果感兴趣加入http://CAMEL-AI.org的社区,可以将简历发送至camel.ai.team@gmail.com或者添加微信号CamelAIOrg进行咨询!

微信图片_20231114145113.png

 

参考

[1] Minsky M. Society of mind[M]. Simon and Schuster, 1988.

[2] https://towardsdatascience.com/4-autonomous-ai-agents-you-need-to-know-d612a643fa92


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/185857.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C#,《小白学程序》第七课:列表(List)其一,编制《高铁车次信息表》

1 文本格式 /// <summary> /// 车站信息类 class /// </summary> public class Station { /// <summary> /// 编号 /// </summary> public int Id { get; set; } 0; /// <summary> /// 车站名 /// </summary>…

新手如何买卖可转债,可转债投资基础入门

一、教程描述 什么是可转债&#xff1f;可转债是可转换债券的二次简称&#xff0c;原始全称是可转换公司债券&#xff0c;这是一种可以在特定时间、按特定条件&#xff0c;转换为普通股票的特殊企业债券&#xff0c;可转换债券兼具债权和股权的特征&#xff0c;其英文为conver…

MindStudio学习一 整体介绍

一场景介绍 二 安装介绍 1.LINUX 采用无昇腾硬件采用linux 分部署 2.WINDOWS 3.linux下安装整体步骤 3.1安装依赖 3.2 安装步骤 1.gcc cmake 等依赖 2.python3.7.5 3.pip 安装依赖 4.安装JDK 5.安装 Ascend-cann-toolkit 6.解压安装Mindstudio 7.进入bin路径 ./…

卷积神经网络(Inception V3)识别手语

文章目录 一、前言二、前期工作1. 设置GPU&#xff08;如果使用的是CPU可以忽略这步&#xff09;2. 导入数据3. 查看数据 二、数据预处理1. 加载数据2. 可视化数据3. 再次检查数据4. 配置数据集 三、构建Inception V3网络模型1.自己搭建2.官方模型 五、编译六、训练模型七、模型…

腾讯云云服务器旗舰新品SA5重磅首发

近日&#xff0c;腾讯云云服务器CVM再升级&#xff0c;极具性价比的云服务器旗舰新机型SA5重磅发布&#xff0c;搭载第四代AMD EPYC处理器&#xff08;Bergamo&#xff09;&#xff0c; 相比云服务器SA3实例&#xff0c;整机性能最大提升120%以上。 温馨提醒&#xff1a;购买腾…

Interactive Visual Data Analysis

Words&Contents Home | Interactive Visual Data Analysis Book Outline 这本书对视觉、互动和分析方法进行了系统而全面的概述&#xff0c;作为数据可视化方面比较好的读物&#xff1b; 目录 Words&Contents Book Outline &#xff08;一&#xff09;Introduct…

Linux 家目录和根目录

摘要&#xff1a; 在 Linux 操作系统中&#xff0c;家目录和根目录是两个非常重要的概念。它们是 Linux 文件系统中的两个关键节点&#xff0c;为用户和系统进程提供存储、管理和访问文件和目录的接口。本文旨在深入探讨和理解这两个目录的结构、功能和使用方式&#xff0c;同时…

力扣刷题篇之排序算法

系列文章目录 前言 本系列是个人力扣刷题汇总&#xff0c;本文是排序算法。刷题顺序按照[力扣刷题攻略] Re&#xff1a;从零开始的力扣刷题生活 - 力扣&#xff08;LeetCode&#xff09; 这个之前写的左神的课程笔记里也有&#xff1a; 左程云算法与数据结构代码汇总之排序&am…

OpenCV快速入门:特征点检测与匹配

文章目录 前言一、角点检测1.1 角点特征1.1.1 角点特征概念1.1.2 角点的特点1.1.3 关键点绘制代码实现1.1.4 函数解析 1.2 Harris角点检测1.2.1 Harris角点检测原理1.2.2 Harris角点检测公式1.2.3 代码实现1.2.4 函数解析 1.3 Shi-Tomasi角点检测1.3.1 Shi-Tomasi角点检测原理1…

typora中的快捷键shift enter 和 enter的交换

1 问题&#xff1a; 我最近在用 typora 进行写作&#xff0c;但是在合格 typora 的 markdown 编辑器很奇怪&#xff0c;它的一个回车符是两次换行&#xff0c;而用 shfit ent 找了半天都不知道怎么解决的这个问题&#xff0c;然后我就去了这个 typora 在 github 开源的问题仓库…

改进YOLOv8 | YOLOv5系列:RFAConv续作,即插即用具有任意采样形状和任意数目参数的卷积核AKCOnv

RFAConv续作,构建具有任意采样形状的卷积AKConv 一、论文yolov5加入的方式论文 源代码 一、论文 基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷:一方面,卷积运算被限制在一个局部窗口,不能从其他位置捕获信息,并且其采样形状是…

C#,《小白学程序》第四课:数学计算,总和与平均值

程序是 数据 计算 显示。 1 文本格式 /// <summary> /// 《小白学程序》第四课&#xff1a;数学计算 /// 这节课超级简单&#xff0c;就是计算成绩的平均值&#xff08;平均分&#xff09; /// 这个是老师们经常做的一件事。 /// </summary> /// <param name&…

甲烷产生及氧化

温室气体排放被认为是加速气候变化的重要因素&#xff0c;甲烷(CH4)是仅次于二氧化碳(CO2)的重要温室气体&#xff0c;其百年温室效应潜势是CO2的28倍[1-2]。湿地中的CH4由产甲烷古菌在水体底部或沉积层严格厌氧环境下产生并释放进入水体&#xff0c;产生的CH4向上覆水运输过程…

力扣236. 二叉树的最近公共祖先(java DFS解法)

Problem: 236. 二叉树的最近公共祖先 文章目录 题目描述思路解题方法复杂度Code 题目描述 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&#xff0c;最近公共祖先表示为一个节点 x&am…

五种多目标优化算法(MOJS、NSGA3、MOGWO、NSWOA、MOPSO)求解微电网多目标优化调度(MATLAB代码)

一、多目标优化算法简介 &#xff08;1&#xff09;多目标水母搜索算法MOJS 多目标优化算法&#xff1a;多目标水母搜索算法MOJS&#xff08;提供MATLAB代码&#xff09;_水母算法-CSDN博客 &#xff08;2&#xff09;NSGA3 NSGA-III求解微电网多目标优化调度&#xff08;M…

【MATLAB】全网入门快、免费获取、持续更新的科研绘图教程系列2

14 【MATLAB】科研绘图第十四期表示散点分布的双柱状双Y轴统计图 %% 表示散点分布的双柱状双Y轴统计图%% Made by Lwcah &#xff08;公众号&#xff1a;Lwcah&#xff09; %% 公众号&#xff1a;Lwcah %% 知乎、B站、小红书、抖音同名账号:Lwcah&#xff0c;感谢关注~ %% 更多…

【算法专题】滑动窗口—无重复字符的最长子串

力扣题目链接&#xff1a;无重复字符的最长子串 一、题目解析 二、算法原理 解法一&#xff1a;暴力解法&#xff08;时间复杂度最坏&#xff1a;O(N)&#xff09; 从每一个位置开始往后枚举&#xff0c;在往后寻找无重复最长子串时&#xff0c;可以利用哈希表来统计字符出现…

RFID技术在刀具智能管理中的应用

RFID技术在刀具智能管理中的应用 科技日新月异&#xff0c;工业科技的不断提升,慢慢的改变了传统制造业。RFID技术的崛起改变了传统的人工记录数据、盘点物料的方式&#xff0c;带来更高效、错误率低的解决方案。 刀具是生产过程中不可或缺的工具&#xff0c;高效管理和利用刀…

MySQL where 子句

文章目录 前言MySQL where 子句语法 从命令提示符中读取数据使用PHP脚本读取数据后言 前言 hello world欢迎来到前端的新世界 &#x1f61c;当前文章系列专栏&#xff1a;Mysql &#x1f431;‍&#x1f453;博主在前端领域还有很多知识和技术需要掌握&#xff0c;正在不断努力…

windows11上安装WSL

Windows电脑上要配置linux&#xff08;这里指ubuntu&#xff09;开发环境&#xff0c;主要有三种方式&#xff1a; 1&#xff09;在windows上装个虚拟机&#xff08;比如vmware&#xff09;。缺点是vmware加载ubuntu后系统会变慢很多&#xff0c;而且需要通过samba来实现window…