通用人工智能的能力评估框架-Levels of AGI Operationalizing Progress on the Path to AGI

通用人工智能的能力评估框架-Levels of AGI: Operationalizing Progress on the Path to AGI

  • 译自’Levels of AGI: Operationalizing Progress on the Path to AGI’,有所删节.
  • 笔者能力有限,敬请勘误。

摘要

Google DeepMind提出一种针对通用人工智能 (Artificial General Intelligence, 简称AGI) 框架,该框架用于评估AGI的模型及早期版本的能力和表现。该分类框架详细阐述了AGI性能、适用范围及自治力(autonomy) 的不同层次。Google希望该框架能和自动驾驶技术等级框架一样有用,为AGI提供一套通用语言便于对AGI进行模型比较、风险评估及跟踪其发展进展。

Google分析了目前AGI的定义,提炼出兼具深度(能力-performance)与广度(适用性)的6大原则作为AIG评估框架的分类体系。

原始信息

image.png

  • 地址:arxiv.org/pdf/2311.02…

引言

通用人工智能(Artificial General Intelligence, 简称:AGI) 是计算研究中重要又有争议的一个概念,它用于描述在大部分至少可以拥有与人类一样能力的人工智能系统。 得益于机器学习(Machine Learning ,ML) 模型的飞速发展,AGI的概念已经从哲学争论走到具体实践。目前有人认为AGI已出现在近代的大语言模型中(large language models,LLMs) ,有人预言AI将在10年人赶超人类,甚至有人直言现有的LLMs就是AGI。

关于AGI的定义100个AI领域的专家有会有到100种不同但又有联系的答案,事实上AGI概念的重要性源于它与AI的目标、预测与风险相关。

对许多领域的人来说,达到人类水平的“智能"是隐而不言的唯一目标。1955的达特茅斯人工智能会议(Dartmouth Artificial Intelligence Conference) 为研究AI技术的企业开创了人工智能的领域, 这些公司的使命宣言中包含了诸如“确保变革性的人工智能帮助到人类与社会"和"确保通用人工智能的目标是造福人类"等条款。

AGI的概念与它是否走向拥有更强、更接近或超越人类的通用性有关。 AGI通常是和"涌现"的概念交织在一块。这些涌现的能力包括与人类的技能形成互补的能力, 而这些能力有可能带动与AGI有关的新型互动等类型的新产业。同时对AGI能力的预测演变成了对社会影响的预测,比如,AGI可能会带来重大经济影响,是否达到广泛劳动力替代的必要标准;以及地缘政治的影响(AGI可能带来的经济优势或军事相关等)

AGI被某些人认为是一种极端风险的概念。这些人认为AGI系统可能会实施欺骗、操纵,实行自我资源的积累,推进目标及代理某人的行为,在大部分的领域智力超过人类,在关键角色上取代人类以及有可能进行自我学习与提升。

"涌现"能力是指开发人员未明确预期但AI系统在运行时突然出现的能力

AGI定义:9个案例研究

许多人工智能的人员与组织已提出了AGI的定义。在本节中,我们列出9个有代表性的案例并分析了这些定义的优劣。这份分析为我们随后引入的AGI能力评估框架的二维分层法提供了分析依。

案例1: 图灵测试 - The Turing Test

图灵在1950年提出的图灵测试应该是最著名的将AGI概念付诸实践的最著名的尝试。图灵的"模仿游戏"是一种测试机器是否具备人类智能的方法,即要求人类以交互的方式来分辨文字的另一端是人还是机器。 最初的测试框架是一个思想试验,遭到很多的的批判。 在实际的测试中,这个测试通常在强调如何更好的骗过人类而不是在强调机器的"智能化"程度。 考虑到现阶段的LLM已经过了某些图灵框架的测试, 这更加证明“图灵测试"的这一标准并不能作为AGI的评判标基准。

Googlle认为图灵机器是否能“思考"是一个有趣哲学和科学问题,但AGI要以能力来定义而非过程(processes)。

**案例2: 强人工智能 - Strong AI - Systems Possessing Consciousness **

哲学家John Searle提出: “根据’强人工智能’,计算机不仅仅一个研究大脑的工具, 相反,一个编写了程序的计算机实际上是一种人的思维(思维 mind), 从这个意义上来说,给定正确程序的计算机可以说成是具有他人意识”。虽然强人工智能可能是一种通向AGI的路径,但就确定机器是否拥有强人工智能的属性(比如意识)的方法上并没有科学共识。

案例3: 类比人脑 - Analogies to the Human Brain

最初使用"通用人工智能"这一术语是在1997年的Mark Gubrud的一个军事技术的文章中,在该文章中AGI被定义为"在复杂性与速度上超过了人类大脑,它可用于知识获取,操纵和推理,适用于任何需要人工智能的工业或军事行动的任何阶段上"的智能系统。 这个早期定义除了强调AI的能力还强调过程(复杂度媲美人类)。 虽然现代机器学习(modern ML)下的神经网络架构是受人脑的启发而生, 但基于transformer架构体系的成功并不依赖于类人的学习, 因此对于AGI来说是否具有严格人类大脑的思维过程和基准并不是必须的。

案例4:人类认知任务的表现 - Human-Level Performance on Cognitive Task

2001年Legg和Goertzel在计算机科学家间推广’AGI’这一术语,将AGI描述为一个 能够执行人类可完成的认知任务 的机器。 这个定义关注点在了非物理任务上(即无需一个机器人作为AGI的实体)。 和许多AGI的定义一样,这个框架在"做什么任务"和 "哪些人"的选择上存在歧义。

案例5:学习任务的能力 - Ability to Learn Tasks

在《技术奇点》(The Technological Singularity)一书中,Shanahan提出了AGI的定义:AGI是指“并不是要专门完成某一特定任务,而是可以学习和执行人类的广泛任务”的人工智能。这个框架有一个很重要的属性,就是它强调了包括元认知任务(学习)对实现AGI要求的重要性。

案例6:经济价值的工作 - Economically Valuable Work

OpenAI的章程对AGI的的定义是: “一个最具经济价值的工作过胜过人类的高度自治的系统”。这个定义具有优势,它强调"能力而非过程"这一标准,得点关注了系统的能力而非不是其底层机制;而且这个定义提供了一个潜在的衡量标准,即经济价值。

该定义的缺点是他并没有涵盖"通用智能"的所有的标准。许多与智力相关的任务(如艺术创造力与情感智商等)虽没有直接经济价值,但也有间接的价值(比如艺术创造力产出书籍或电影,情商有可能与能否成为一名出色的CEO的能力有关)。

从经济价值来定义AGI的带来的另个问题就是框架必须经过实施部署,而能力关注的焦点应该是AGI执行一个任务的潜力。

案例7:灵活性与通用性 - Flexible and General

Flexible and General – The “Coffee Test” and Related Challenges

Marcus认为AGI是 “任务灵活性与通用性的简写,其智能水平与可靠性和人类相当甚至超越”。 这个定义涵盖了 通用性和能力, 且它提到的"灵活性"是很有价值的,像Shanahan的公式一样,这个提议涵盖了如学习新技能的元认知任务的AGI能力,只有具备元认知任务的AGI才能足够的通用。

而且Marcus通过5项具体的任务来测试他定义(理解电影,理解小说内容,烹饪,写一个无bug的1万行程序,将自句语言的数学证明转为了符号形式)。但对于该评测系统是否将AGI的状态全部纳入Google表示并未知晓。

案例8:人工能力的智能 - Artificial Capable Intelligence

《在即将到来的浪潮》一书中,Suleyman提出了“人工能力的智能(Artificial Capable Intelligence ACI)”,并提出AI系统是指是一个具有足够能力和通用性的人工智能系统,在现实世界中可以完成复杂且多步骤的任务。具体来说,Suleyman提出了一个基于经济的ACI技能定义,被认为是“现在图灵测试”,即给定人工智能10万美元的资本要求其在10个月内将其升值为100万美元。

这个框架比OpenAI的经济价值工作的定义更狭窄,它有一个额外的缺点就是只以财务利润为目标会会潜在引入结盟的风险。然而,Suleyman概念的优势在专注在人类重视的执行一个复杂的表多步骤的任务,这些任务比当前AI的基准测试更具生态有效性。Marcus的上述五项灵活性和通用性测试似乎也符合ACI的精神。

案例9: SOTA的通才 - SOTA LLMs as Generalists

SOTA LLMs as Generalists

Agüera y Arcas and Norvig 提出了最新的LLMs(GPT-4, Bard, Llama 2 和 Claude)就是AGI。他们认为通用性是AGI的关键属性, 因为语言模型可以讨论很多主题,执行许多任务,处理多模态的输入与输出,以多语言的方式操控及及可以零样本和少样本的学习,这些足以达到通用性的标准。

Google认为该定义只有通用性这一AGI的重要特征,执行力(performance)并没过多的提及。

AGI定义-六大原则

聚焦能力而不是过程: 该原则让我们可以将以下两点排除在外:

  1. AGI的实现并不意味着系统一定盯以人类的方式思考或理解(这是关注过程的重要表现)
  2. AGI的实现并不意味着系统具有主观意识或感知能力等品质(这些品质不仅在关注过程而且目前无法进行科学测量)

保证通用性与能力(Performance)

AGI是否需要领域通用以及在某一领域执行如何两者同样重要,缺一不可。

重视认知与元认知任务

元认知能力(诸如学习新任务的任务或何时需要向人类澄清和协助的能力)是一个AI系统是否具有通用性的关键且必要条件。

是否需要一个机器人身体作为定义AGI的准标一定是一个充满争议的问题。目前大多数定义都聚集在认知任务上,也就是我们说的非物理任务。

核心在于潜力而非部署

只要一个系统在有能力执行给定能力的任务,就可以证明他拥有AGI的能力。因为是否在现实世界中部署这么一套系统需要考虑的因素很多(法律、道德、安全等等)不该作为定义AGI的必要条件。

关注生态有效性

选择与人类真实世界(即生态有效)的价值一致的任务非常重要(这些任不仅是经济价值,还有社会价值与艺术价值等)。我们要避开传统的人工智能指标,因为后者虽然容易自然化与量化但可能无法捕促到人们看重的AGI技能。

关注AGI路径而非单一终端

我们计划为每一层次的AGI设定一组明确的指标或基准,为每一级别引入可识别的风险,并由此改变人工智能的交互范式。

这种基于层级的AGI定义有利于与许多著名的公式与之共存,例如,Aguera y Arcas和Norvig的定义属于我们的"新兴AGI"类别,而OpenAI的劳动力替代阈值更符合"Virtuoso AGI", 其他的对于AGI的许多现有定义(例如Legg、Shanahan和Suleyman的公式等)我们归属这些分类至"合格AGI"水平。

AGI能力水平分类框架(二维分层法) - Levels of AGI -

Level0: No AI

  • 专用(Narrow): 计算机软件;编译器
  • 通用(General):人机回圈计算,比如亚马逊土耳其机器人

Level1: 新兴(Emerging)

  • 专用(Narrow):新兴IA。GOFA。GOFAI4; 简单的基于规则系统。simple rule-based systems, e.g., SHRDLU
  • 通用(General):新兴AGI:** ChatGPT(OpenAI, 2023), Bard (Anil et al., 2023), Llama 2 (Touvron et al., 2023)

Level2: 熟练(Competent)

  • 专用(Narrow): 恶意评估检测器,如Jigsaw;智能扬声器,如Siri;Alexa或Google助手,VQA系统,如PaLI;Watson; SOTA LLMs的子任务(例如,短文写作、简单编码等)
  • 通用(General):还没达到

Level3: 专家(Expert)

  • 专用(Narrow): 拼写与语法检查,如法语; 图像生成如Imagen 或 Dall-E 2
  • 通用(General):还未达成

Level4: 大师(Virtuoso)

  • 专用(Narrow): Deep Blue(深蓝),AlphaGo
  • 通用(General): 还没达到

Level5: 超人类(Superhuman)

  • 专用(Narrow): AlphaFold,AlphaZero,StockFish
  • 通用(General):还没达到
  • 人机回圈(Human-in-the-loop, HITL) 是一种人与机器的交互方式。
  • Amazon Mechanical Turk: 亚马逊土耳其机器人
  • GOFAI (Good Old-Fashioned Artificial Intelligence) 有效的老式人工智能(狭义人工智能)
  • SHRDLU : 一种早期的自然语言理解计算机程序
  • Stockfish: 国际象棋引擎

原表

image.png

总结

共享AGI的概念与含义将有助于:

  • 模型比较,风险评估与应对策略(mitigation strategies);
  • 明确政策制定者与监管机构的标准;
  • 确定研发的目标、预期(predictions) 和风险,
  • 以及理解我们现在通话AIG道路上的所处位置。

附录: 达特茅斯人工智能会议-Dartmouth Artificial Intelligence Conference

会议内容有:

  • C.E香农(C.E. Shannon)的研究提案
  • M.L.明斯基(M.L.Minsky)的研究提案
  • N.罗切斯特(N.Rochester)的研究提案
  • 约翰·麦卡锡JohnMcCarthy)的研究提案
  • 对人工智能问题感兴趣的人

www.360doc.com/content/19/…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/336494.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

端口映射的定义、特点、场景、实例、常见问题回答(Port Mapping)

目 录 一、端口映射(Port Mapping) 二、端口映射应用场景(什么时候用到端口映射) (一)、使用端口映射的条件 (二)使用端口映射的具体场景 三、端口映射技术的特点 …

LLM之RAG实战(十七)| 高级RAG:通过使用LlamaIndex重新排序来提高检索效率

基本RAG的检索是静态的,会检索到固定数字(k)个相关文档,而如果查询需要更多的上下文(例如摘要)或更少的上下文,该怎么办? 可以通过在以下两个阶段来实现动态检索: 预检索…

Python对Excel文件中不在指定区间内的数据加以去除的方法

本文介绍基于Python语言,读取Excel表格文件,基于我们给定的规则,对其中的数据加以筛选,将不在指定数据范围内的数据剔除,保留符合我们需要的数据的方法。 首先,我们来明确一下本文的具体需求。现有一个Exc…

Centos 7 单机部署 consul

一、下载安装 参考官网文档 Install | Consul | HashiCorp Developer 进入Centos 执行下面命令 sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://rpm.releases.hashicorp.com/RHEL/hashicorp.repo sudo yum -y install consul 这种方法安装完成…

Javascript简介(全部是基础)

js初识 js是一种解释性语言,不需要编译,直接由浏览器解析执行 组成 ECMAScript是一种开放的,被国际上广为接收的,标准的脚本语言规范,主要描述:语法,变量,数据类型,运算…

什么是DOM?(JavaScript DOM是什么?)

1、DOM简洁 DOM是js中最重要的一部分,没有DOM就不会通过js实现和用户之间的交互。 window是最大的浏览器对象,在它的下面还有很多子对象,我们要学习的DOM就是window对象下面的document对象 DOM(Document Object Model&#xff09…

C++ 学习系列 -- std::function 与 std::bind

一 std::function 与 std::bind 的介绍 1. std::function std::function 是 c 11 的新特性 &#xff0c;包含在头文件<functional>中&#xff0c;为了更方便的调用函数而引入。 std::function 是一个函数包装器&#xff08;function wrapper&#xff09;&#xff0c;…

Cmake(1)——Cmake的基本介绍和原理、Cmake的安装、如何使用Cmake构建项目

Cmake的基本介绍和原理、Cmake的安装、如何使用Cmake构建项目 插播&#xff01;插播&#xff01;插播&#xff01;亲爱的朋友们&#xff0c;我们的Cmake课程上线啦&#xff01;感兴趣的小伙伴可以去下面的链接学习哦~ https://edu.csdn.net/course/detail/39261 1、Cmake的基…

在微信公众号中加入ChatGPT聊天的方法

1 介绍 开源项目 "chatgpt-on-wechat" 支持通过微信公众号进行调用&#xff0c;这意味着用户可以在与公众号的交互中体验 ChatGPT。由于服务是部署在远端服务器上的&#xff0c;因此用户只需拥有一部手机&#xff0c;就可以在任何环境下与 ChatGPT 进行交流。例如&am…

fabric.js 组件 图片上传裁剪并进行自定义区域标记

目录 0. 前言 1. 安装fabric与引入 2. fabric组件的使用 3. 属性相关设置 4. 初始化加载 4. 方法 5. 全代码 0. 前言 利用fabric组件&#xff0c;实现图片上传、图片”裁剪“、自定义的区域标记一系列操作 先放一张效果图吧&#x1f447; 1. 安装fabric与引入 npm i …

Flink(十三)【Flink SQL(上)SqlClient、DDL、查询】

前言 最近在假期实训&#xff0c;但是实在水的不行&#xff0c;三天要学完SSM&#xff0c;实在一言难尽&#xff0c;浪费那时间干什么呢。SSM 之前学了一半&#xff0c;等后面忙完了&#xff0c;再去好好重学一遍&#xff0c;毕竟这玩意真是面试必会的东西。 今天开始学习 Flin…

“GPC爬虫池有用吗?

作为光算科技的独有技术&#xff0c;在深入研究谷歌爬虫推出的一种吸引谷歌爬虫的手段 要知道GPC爬虫池是否有用&#xff0c;就要知道谷歌爬虫这一概念&#xff0c;谷歌作为一个搜索引擎&#xff0c;里面有成百上千亿个网站&#xff0c;对于里面的网站内容&#xff0c;自然不可…

虚拟机安装宝塔的坑

问题&#xff1a; 在虚拟机中centos7和centos8中安装宝塔之后&#xff0c;无法访问面板。 解决&#xff1a; 1.先关闭防火墙&#xff08;如果本机能够ping通相关端口&#xff0c;则不用关闭防火墙&#xff09; 2.最新的宝塔会自动开启ssl协议&#xff0c;需要手动关闭。…

PostgreSQL 是不是大小写敏感

如果你踩过 MySQL 的大坑的话就知道&#xff1a;MySQL 在 Windows 下不区分大小写&#xff0c;但在 Linux 下默认是区分大小写。 如果你稍加不注意就会出现在本机开发的程序运行一切正常&#xff0c;发布到服务器行就出现表名找不到的问题。 这是我们前一个项目遇到的巨大问题…

【力扣4行代码解题】572另一棵树的子树 | C++

总结&#xff1a;本题可以使用递归和迭代法&#xff0c;但平时还是建议两种方法都掌握&#xff0c;感兴趣的同学可以看看原题。 文章目录 1 题目2 知识点3 代码及解释 1 题目 力扣链接 > 572.另一棵树的子树 给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 sub…

探索图像检索:从理论到实战的应用

目录 一、引言二、图像检索技术概述图像检索的基本概念图像检索与文本检索的区别特征提取技术相似度计算索引技术 三、图像检索技术代码示例图像特征提取示例相似度计算索引技术 四、图像搜索流程架构数据采集与预处理特征提取相似度计算与排名结果呈现与优化 五、实际应用图像…

基于Java+SSM志愿者服务管理系统详细设计和实现【附源码】

基于JavaSSM志愿者服务管理系统详细设计和实现【附源码】 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取联系方式 承接各种定制系…

线上SQL超时场景分析-MySQL超时之间隙锁

前言 之前遇到过一个由MySQL间隙锁引发线上sql执行超时的场景&#xff0c;记录一下。 背景说明 分布式事务消息表&#xff1a;业务上使用消息表的方式&#xff0c;依赖本地事务&#xff0c;实现了一套分布式事务方案 消息表名&#xff1a;mq_messages 数据量&#xff1a;3000多…

[java基础揉碎]基本数据类型转换

介绍 当java程序在进行赋值或者运算时&#xff0c;精度小的类型自动转换为精度大的数据类型&#xff0c; 这个就是自动类型转换。 数据类型按精度&#xff08;容量&#xff09;大小排序为: 自动类型转换注意和细节 1.有多种类型的数据混合运算时&#xff0c;系统首先自动…

【Linux的权限命令详解】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言 shell命令以及运行原理 Linux权限的概念 Linux权限管理 一、什么是权限&#xff1f; 二、权限的本质 三、Linux中的用户 四、linux中文件的权限 4.1、文件访问…