北大AGI与具身智能评估新范式!Tong测试:基于动态具身物理和社会互动的评估标准

  • 作者:Yujia Peng, Jiaheng Han, Zhenliang Zhang, Lifeng Fan, Tengyu Liu, Siyuan Qi, Xue Feng, Yuxi Ma, Yizhou Wang, Song-Chun Zhu

  • 单位:北京通用人工智能研究院国家通用人工智能重点实验室,北京大学人工智能研究所,北京大学心理与认知科学学院北京行为与心理健康重点实验室,北京大学智能科学与技术学院,北京大学计算机科学学院

  • 论文标题:The Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions

  • 出版信息:Engineering 34 (2024) 12–22

  • 论文链接:https://www.sciencedirect.com/science/article/pii/S209580992300293X

主要贡献

  • 传统的任务导向型AGI评估方法通常局限于特定任务,无法充分衡量AGI的能力。论文建议采用更广泛、更具包容性的评估标准,通过动态具身物理和社会互动DEPSI)进行评估。

  • 定义了AGI系统的五个关键特征:无限任务、自驱动任务生成、价值对齐、因果理解和具身性。这些特征为AGI的开发和评估提供了明确的指导方向,并强调了AGI系统需要具备的复杂能力。

  • 提出了Tong测试作为AGI评估系统。Tong测试能够在DEPSI中生成无限任务,并通过多维度的能力和价值评估来量化AGI的表现,结合人类反馈和交互式学习过程,使AGI能够生成符合人类价值观的任务。

  • 详细描述了Tong测试平台的架构,包括基础设施、DEPSI环境和评估工具,旨在支持大规模的AGI模型测试,并提供了一个标准化的测试流程,以促进AGI的发展和标准化。

具身动态环境中的AGI评估

背景与重要性

  • 随着生成式预训练Transformer(GPT)系列的发布,AGI再次成为人工智能领域的焦点。然而,如何定义和评估AGI仍然不明确。

  • AGI的通用性与传统AI的不同之处在于其任务泛化能力,即AGI需要在动态环境中适应并表现出色,类似于人类在其生活环境中适应和行为的方式。

DEPSI环境中任务空间定义

  • 任务定义

    • 论文提出了一种基于DEPSI的新任务定义。一个任务 被定义为 ,其中 表示DEPSI初始状态的等价集,而 表示DEPSI目标状态的等价集。

    • 由于DEPSI环境的复杂性和多样性,每次任务开始或结束时很难获得完全相同的DEPSI状态。因此,任务的起点或终点被定义为一个所有符合条件的状态的等价集 。

    • 其中函数 表示DEPSI环境状态 的特征(例如,物理状态空间中物体之间的距离或社会状态空间中最可能的位置), 是特征的数量, 是相应的函数值。

  • 任务空间的内部结构

    • 任务空间可以分解为物理状态空间和社会状态空间。物理状态空间包括描述世界的物理量(例如,物体的位置 ),而社会状态空间则包括智能体对物理状态的估计(例如,智能体对物体位置的信念),这些估计是基于观察、与世界的互动以及来自其他智能体或环境的反馈,并以概率表示。

    • 物理任务涉及与物理环境相关的动作(例如,取回物体或准备食物),需要关于世界的常识知识。社会任务涉及与其他智能体的社会互动(例如,与其他智能体合作),需要理解他人的社会状态和价值观,同时对社会状态施加约束。

  • 任务的复杂性

    • 任务的复杂性可以通过任务所需的物理和社会状态的规模来确定。

    • 例如,相对简单的任务可能是原子动作(如按按钮),而更复杂的任务可能是多原子的(如要求AGI智能体创建工具来完成另一个任务)。

DEPSI中AGI基本特征

  • 无限任务

    • 人类智能的一个基本特征是能够执行无限数量的任务,而不是局限于预定义的有限任务。

    • AGI也应具备这一特征,能够在开放环境中处理未预见的场景和任务。

  • 自驱动任务生成

    • 为了应对现实生活中的意外情况,AGI必须具备自驱动能力,即在没有人类精细指令的情况下,能够自主发起行动并生成任务。

    • 这种能力使得AGI能够在开放环境中知道下一步该做什么,并根据其内在的“目的”自主生成任务。

  • 价值对齐

    • 价值是自驱动行为的基本驱动力。为了使AGI能够自主生成和完成满足人类需求的各种任务,需要为其赋予一个价值系统。

    • 这个价值系统应与人类价值系统对齐,以便AGI能够学习并适应人类的偏好。

  • 因果理解

    • 因果推理是人类认知发展的早期阶段,也是支持具有类人常识的认知AI的基础。

    • 在AGI中,因果理解是连接价值和行为的链条,帮助AGI在动态环境中完成任务。

  • 具身性

    • 发展AGI的目的是使其能够直接服务于人类社会。因此,AGI必须能够以某种具身形式参与人类生活,无论是物理形态还是虚拟环境。

    • 具身AI可以在不同环境中无缝集成,提供无障碍的人机交互。

LLMs与AGI

  • LLMs的局限

    • 尽管大模型(LLMs)在各种语言任务上表现出色,但它们仍存在一些系统性限制。例如,LLMs可能会遇到遗忘问题,在常识推理任务上表现不佳,以及在少数语言上下文中表现较差。

    • 在使用发展心理学实验比较LLMs和儿童时,研究人员发现LLMs在对象和动作理解、心理理论(Theory of Mind, ToM)以及因果推理任务上存在局限性。这些任务通常需要具身和自我启动的探索,而这些能力无法仅从语言输入中获得。

    • 当前的LLMs(如GPT系列)本质上仍然是统计模型,依赖于大量数据来获取复杂的统计规律。

    • 虽然它们在文本任务上接近人类水平的表现,但仍然缺乏在具身环境中生成任务的能力,也缺乏与人类社会价值观对齐的内在价值系统。

    • 语言和思想是相关但不同的概念。LLMs流畅的语言生成只捕捉到了思想的一个方面,而许多其他方面的思想(如情感、记忆和感知)可能没有被充分捕捉到。

  • Tong测试的提出

    • 基于上述AGI标准,论文提出Tong测试作为一个系统的AGI评估系统。Tong测试基于DEPSI环境,从任务导向转向能力和价值导向的评估。

    • 该平台还支持具身AI的训练和测试,使具身AI智能体能够在平台上获取信息,并以交互方式继续学习和微调其价值和能力。

从图灵测试到Tong测试

经典AI评估方法

  • 人类判别测试

    • 基于人类观察来评估AI,最著名的例子是图灵测试。图灵测试最初被称为模仿游戏,由艾伦·图灵设计,用于测试机器是否能够展示出类似人类的反应和智能。通过图灵测试的AI算法需要与人进行交互,以语言或文本为基础,使人无法判别对方是人还是机器。

    • 图灵测试的优点在于提供了一个简单且可操作的AI定义,但其局限性也很明显,包括只能定性测试(通过或失败)、依赖人类评判者的知识和认知水平、缺乏定量测量能力,以及缺乏具身性。

  • 任务导向的问题基准

    • 通过特定的任务来评估AI的性能。过去十年中,出现了许多数据集,用于评估AI在特定领域的表现。这些数据集从单一任务基准(如仅用于图像分类的ImageNet数据集)发展到多任务基准(如用于单句任务、相似性和释义任务、自然语言推理任务的GLUE)。

    • 然而,这些任务导向的基准强调解决高度具体的问题,而不是推动AI向AGI发展。

  • 环境基准

    • 通过虚拟环境来评估AI,提供了现实和多样的场景,支持丰富的互动,并促进数据收集和分析。例如,OpenAI Gym、DeepMind Lab、iGibson、ThreeDWorld、AI2的THOR、AI Habitat、House3D和VirtualHome等。

    • 尽管这些系统提供了多样化的场景和互动,但它们是由人类预先定义的,无法生成无限的任务。

  • AGI基准的发展

    • 最近,AI社区努力开发AGI基准。例如,法国国家计量与测试实验室提出了一个高层次的AI能力分类法,并将评估任务分为传统的能力模块(识别、理解、任务管理和生成)。AI2在AI2 Leaderboard上列出了几十个标准的AI测量任务。Google推出了Beyond the Imitation Game基准(BIG-bench),包含来自各个领域的200多个任务。Stanford的Behavior数据集作为以人为中心的机器人综合模拟基准。

    • 这些基准虽然在特定能力上进行评估,但仍然局限于一般AI的特定子空间内的有限任务。

发展心理学和智力理论

  • 心理发展与智力理论的贡献

    • 论文回顾了几种经典的智力测试,这些测试在理解人类智力方面取得了进展。例如,斯坦福-比奈智力量表、贝利婴幼儿发展量表、韦氏成人智力量表和瑞文渐进矩阵等。

    • 这些测试的共同特点是定义了发展里程碑(即在什么阶段达到哪些能力)和整合了多种能力的任务(如视觉、自然语言、认知和推理、运动技能和学习)。

  • 智力理论的映射

    • 论文将这些智力理论与Tong测试的概念进行了对比。例如,三重智力理论(Triarchic Theory of Intelligence)提出了智力的三个主要组成部分:实践能力(适应不同环境的能力)、创造力(提出新想法的能力)和分析能力(评估信息和解决问题的能力)。

    • 这些组件可以与Tong测试中的具身性、自驱动和因果理解等概念相对应。

  • 智力测试的启示

    • 论文认为,通过借鉴智力理论和心理发展测试,可以为AGI评估提供有价值的见解。

    • 这些理论可以帮助定义AGI所需的关键能力和特征,从而推动AGI的发展。

Tong测试

无限任务生成系统

  • 为了构建支持无限任务的Tong测试平台,论文采用了一种组合图形模型(即“解析图”)作为基本的知识表示形式,用于解析任何给定场景的空间、时间和因果关系。

  • 在此基础上,定义了“丝滑空间”作为解析图中属性的时间变化变量的空间,其中“丝滑”代表时间变化的量或变量。

  • 通过这种知识表示形式(即带有丝滑空间的解析图),所有可能的场景配置可以在DEPSI环境的连续空间中表示。因此,任务被定义为DEPSI环境中丝滑空间内两个样本点之间的转换,起始样本点对应于初始场景配置,结束样本点对应于期望的状态。

  • 此外,任务可以通过从解析图中采样来分解为子任务,创建一个层次化的任务空间。Tong测试平台能够生成一系列具有物理真实感和丰富交互特征的3D虚拟场景,满足所需的场景配置。

  • 通过采样配置(例如不同对象、物理和社会丝滑状态和动作的组合)在DEPSI环境的连续空间中并构建相应的3D虚拟场景,可以实现无限任务生成过程。

价值与能力导向的评估

  • 基于价值-因果-行为链,Tong测试跨越了能力和价值两个领域,即U-V双系统。U系统描述了智能体对外在物理或社会规则的理解,而V系统包括智能体的内在价值,定义为构建智能体自驱行为的一组价值函数。

  • 能力系统被划分为五个维度(即视觉、自然语言、认知和推理、运动技能和学习),每个能力维度设计了五个随任务复杂性增加而提高的级别。这些基准是基于婴儿发展里程碑、AI专家判断和AI发展模式的组合提出的。

  • Tong测试与以往基准的主要区别在于其对价值的评估。以往的AI评估主要集中在能力上,而Tong测试则强调价值系统是任务生成的驱动力,能够支撑无限任务。

  • 基于AGI与人类价值观一致的原则和心理学中的经典价值理论(如马斯洛的需求层次理论、ERG理论和施瓦茨的价值调查),Tong测试提出了一个五级价值系统,从生理和生存需求到情感和社会价值,最终到群体价值。

Tong测试平台架构

  • Tong测试作为一个虚拟仿真平台实现,使AGI智能体能够在3D环境中感知、学习、互动和评估。

  • 平台提供了必要的基础设施,以跨能力和价值维度进行评估。

  • 系统通过所有能力和价值维度的动态具身互动场景生成无限任务。

  • Tong测试平台的设计考虑了能力和价值维度,并遵循具身图灵测试的理念。

  • 然而,与之前的测试平台不同,必须考虑人机互动,以便同时测试AI智能体的能力和价值维度。

  • 因此,Tong测试平台结合了一般的算法测试范式和基于人机互动的测试范式。

平台包括三个主要组件:

  • 基础设施
    • 需要大量的硬件(如服务器、数据库和通信网络)和软件及交互设备生态系统来支持并行运行的数千个应用实例。

    • 使用Unity 3D、Unreal Engine 4/5和Omniverse平台等图形引擎来创建平台内容。

    • 利用虚拟现实(VR)和增强现实设备作为人机界面接口。

  • DEPSI环境
    • 作为测试环境,构建在基本功能模块和任务生成模块之上。功能模块包括数据传感器模块、物理模拟、精细操作和其他确保系统正常工作的模块。

    • 任务生成模块由物理和社会任务生成两个核心子模块组成,帮助生成物理和社会上现实的场景。

  • 评估工具
    • 包括中间数据可视化和模型性能显示面板。

    • 中间数据可视化模块协助模型调试,而模型性能显示面板指示测试模型根据价值和能力导向的评估范式的表现。

总结

论文提出了一种基于DEPSI环境的AGI评估方法—Tong测试,解决了传统AI评估方法的局限性。

通过无限任务生成、价值和能力导向的评估,Tong测试能够全面评估AGI的能力和价值。

该方法为AGI的开发和标准化提供了一个实用路径,推动了AGI领域的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/964723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DeePseek结合PS!批量处理图片的方法教程

​ ​ 今天我们来聊聊如何利用deepseek和Photoshop(PS)实现图片的批量处理。 传统上,批量修改图片尺寸、分辨率等任务往往需要编写脚本或手动处理,而现在有了AI的辅助,我们可以轻松生成PS脚本,实现自动化处…

OkHttpClient请求失败处理与网页下载成功实践

在现代的网络应用开发中,数据的获取和处理是核心任务之一。无论是从第三方API获取数据,还是从网页中提取内容,网络请求都是不可或缺的环节。在Java中,OkHttp是一个非常流行且功能强大的HTTP客户端库,它提供了简洁的API…

Idea ⽆ Maven 选项

Idea ⽆ Maven 选项 1. 在 Idea 项⽬上右键2. 选中 Maven 选项 如果在创建 Spring/Spring Boot 项⽬时,Idea 右侧没有 Maven 选项,如下图所示: 此时可以使⽤以下⽅式解决。 1. 在 Idea 项⽬上右键 2. 选中 Maven 选项 选中 Maven 之后&#…

Vue3状态管理: Pinia使用技巧与最佳实践

Vue3状态管理: Pinia使用技巧与最佳实践 随着Web应用复杂度的提升,前端状态管理变得愈发重要。而在Vue3中,Pinia作为一种全新的状态管理工具,为我们提供了更加灵活和强大的状态管理解决方案。本文将从Pinia的基本概念入手,深入探讨…

从零开始实现一个双向循环链表:C语言实战

文章目录 1链表的再次介绍2为什么选择双向循环链表?3代码实现:从初始化到销毁1. 定义链表节点2. 初始化链表3. 插入和删除节点4. 链表的其他操作5. 打印链表和判断链表是否为空6. 销毁链表 4测试代码5链表种类介绍6链表与顺序表的区别7存储金字塔L0: 寄存…

AI推理性能之王-Groq公司开发的LPU芯片

Groq公司开发的LPU(Language Processing Unit,语言处理单元)芯片是一种专为加速大规模语言模型(LLM)和其他自然语言处理任务而设计的新型AI处理器。以下是对其技术特点、性能优势及市场影响的深度介绍: 技…

【玩转 Postman 接口测试与开发2_016】第13章:在 Postman 中实现契约测试(Contract Testing)与 API 接口验证(上)

《API Testing and Development with Postman》最新第二版封面 文章目录 第十三章 契约测试与 API 接口验证1 契约测试的概念2 契约测试的工作原理3 契约测试的分类4 DeepSeek 给出的契约测试相关背景5 契约测试在 Postman 中的创建方法6 API 实例的基本用法7 API 实例的类型实…

The specified Gradle distribution ‘gradle-bin.zip‘ does not exist.

The specified Gradle distribution ‘https://services.gradle.org/distributions/gradle-bin.zip’ does not exist. distributionUrl不存在,关联不上,下载不了,那就匹配一个能下载的 distributionUrlhttps://services.gradle.org/distrib…

【Linux系统】线程:认识线程、线程与进程统一理解

一、更新认知 之前的认知 进程:一个执行起来的程序。进程 内核数据结构 代码和数据线程:执行流,执行粒度比进程要更细。是进程内部的一个执行分值 更新认识: a. 进程是承担分配系统资源的基本实体b. 线程是OS调度的基本单位 …

请求响应(接上篇)

请求 日期参数 需要在前面加上一个注解DateTimeFormat来接收传入的参数的值 Json参数 JSON参数:JSON数据键名与形参对象属性名相同,定义POJO类型形参即可接收参数,需要使用 RequestBody 标识 通过RequestBody将JSON格式的数据封装到实体类…

Linux提权--SUDO提权

​sudo​ 是 Linux 中常用的特权管理工具,允许普通用户以其他用户(通常是 root 用户)的身份运行命令。如果配置不当,攻击者可能通过滥用 sudo​ 权限来提升自己的权限。 一.常见的 sudo 提权方法: 误配置的 sudo 权限&…

【Elasticsearch】filter聚合

在Elasticsearch中,Filter聚合是一种单桶聚合,用于根据特定的查询条件筛选文档,并对筛选后的文档集合进行进一步的聚合分析。它允许用户在执行聚合操作之前,先过滤出符合某些条件的文档,从而更精确地分析数据。 Filter…

Colorful/七彩虹 隐星P15 TA 24 原厂Win11 家庭版系统 带F9 Colorful一键恢复功能

Colorful/七彩虹 隐星P15 TA 24 原厂Win11 家庭中文版系统 带F9 Colorful一键恢复功能 自动重建COLORFUL RECOVERY功能 带所有随机软件和机型专用驱动 支持机型:隐星P15 TA 24 文件下载:asusoem.cn/745.html 文件格式:ISO 系统版本&…

实时波形与频谱分析———傅立叶变换

实时波形与频谱分析:一个交互式动画演示 在信号处理领域,时域波形和频域频谱是理解信号特性的重要工具。通过时域波形,我们可以直观地观察信号随时间的变化,而频域频谱则揭示了信号中所包含的频率成分及其幅值。为了帮助大家更好…

03链表+栈+队列(D1_链表(D1_基础学习))

目录 一、什么是链表 二、基本操作 三、为什么要使用链表 四、为什么能够在常数时间访问数组元素 数组优点 数组缺点 五、动态数组诞生 链表优点 链表缺点 六、链表、数组和动态数组的对比 七、 链表种类 1. 单向链表 2. 双向链表 3. 循环链表 八、链表衍生 ...…

企业微信开发012_使用WxJava企业微信开发框架_封装第三方应用企业微信开发005_多企业授权实现---企业微信开发014

这里主要说一下如何授权的思路,如何来做,其实非常简单, 如果你有很多企业微信需要授权以后才能使用自己开发的,第三方企业微信功能,那么 首先,在企业列表中,你可以给某个企业去配置,这个企业,他对应的企业微信的,比如, 这个企业的企业id,cropID,当然还可以有,比如企业名称,用…

“AI智能分析综合管理系统:企业管理的智慧中枢

在如今这个快节奏的商业世界里,企业面临的挑战越来越多,数据像潮水一样涌来,管理工作变得愈发复杂。为了应对这些难题,AI智能分析综合管理系统闪亮登场,它就像是企业的智慧中枢,让管理变得轻松又高效。 过去…

蓝桥杯思维训练营(三)

文章目录 题目详解680.验证回文串 II30.魔塔游戏徒步旅行中的补给问题观光景点组合得分问题 题目详解 680.验证回文串 II 680.验证回文串 II 思路分析:这个题目的关键就是,按照正常来判断对应位置是否相等,如果不相等,那么就判…

[LeetCode] 二叉树 I — 深度优先遍历(前中后序遍历) | 广度优先遍历(层序遍历):递归法迭代法

二叉树 基础知识深度优先遍历递归法迭代法(栈)144# 二叉树的前序遍历94# 二叉树的中序遍历145# 二叉树的后序遍历 广度优先遍历递归法迭代法(队列)102# 二叉树的层序遍历107# 二叉树的层序遍历 II199# 二叉树的右视图637# 二叉树的…

Hugging Face GGUF 模型可视化

Hugging Face GGUF 模型可视化 1. Finding GGUF files (检索 GGUF 模型)2. Viewer for metadata & tensors info (可视化 GGUF 模型)References 无知小儿,仙家雄霸天下,依附强者才是唯一的出路。否则天地虽大,也让你们无路可走&#xff0…