AI 智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现,将 AI 智能体的概念推向了科技的最前沿。
在此前爆火的斯坦福“虚拟小镇”中,25 个 AI 智能体在虚拟小镇自由生长,举办了情人节派对;英伟达等提出的具身代理模型 Voyager,也在《我的世界》中学会各种生存技能,闯出了自己的一片天;此外,能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等,也同样引发了公众的广泛兴趣和热烈讨论。
甚至,前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露,每当有新的 AI 智能体论文出现时,OpenAI 内部就会非常感兴趣,并认真地进行讨论。
尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。
为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn),用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境中的表现(如推理和决策能力)。