ChatGPT只算L1阶段,谷歌提出AGI完整路线图

按照谷歌这个标准来看,大多数已有AI产品其实都分别进入了不同的AGI阶段,但只仅限于在技能水平上——要谈及通用性,目前只有ChatGPT等模型完全合格。

AGI应该如何发展、最终呈什么样子?

现在,业内第一个标准率先发布:

AGI分级框架,来自谷歌DeepMind。

图片

该框架认为,发展AGI必须遵循6个基本原则:

  • 关注能力,而非过程
  • 同时衡量技能水平和通用性
  • 专注于认知和元认知任务
  • 关注最高潜力,而非实际落地水平
  • 注重生态有效性
  • 关注整条AGI之路的发展,而非单一的终点

在此原则之上,AGI将呈现6大发展阶段,每个阶段都有对应的深度(性能)和广度(通用性)指标。

图片

我们当前的AI产品走到哪一阶段了?这里也有答案。

详细来看。

6项基本原则

什么是AGI?

对于这个问题,许多科学家、研究机构都给出了自己的理解。

比如图灵提出的图灵测试认为机器是否能“思考”就是一个衡量指标;强人工智能的概念提出者则认为,AGI是一个拥有意识的系统;还有人说AGI一定是能在复杂性和速度上与人脑一样甚至超越人脑……

谷歌认为,这些定义都不全面。

像图灵测试,一些LLM已经可以通过,但我们能称那些模型为AGI吗?

像类人脑说法,Transformer架构的成功就已表明,严格基于大脑的思考过程对于AGI来说并不是必须的。

通过分析这些定义(一共9种,详情可翻阅原文)的优缺点,谷歌重新理出了6项基本原则:

1、关注能力,而非过程

这可以帮助我们去除一些不一定是实现AGI的必备要求:

比如AGI不一定要用类似人类的方式思考或理解,也不意味着系统必须具有主观意识等能力(主要是这种能力无法也通过固定的方法去测量)。

2、注重通用性和技能水平

目前所有的AGI定义都强调了通用性,这一点不必多说。但谷歌强调,性能也是AGI的关键组成部分(也就是可以达到人类的几分水平)。在后面的具体阶段制定中,主要也是根据这俩指标进行分类的。

3、专注于认知和元认知任务

前者目前基本为共识,即AGI可以执行各种非体力任务。不过谷歌在此强调,AI系统执行物理任务的能力也需要加强,因为它对于认知能力是有推动作用的。

此外,元认知能力,如学习新任务或知道何时向人类寻求帮助,是系统走向通用性的关键先决条件。

4、关注最高潜力,而非实际落地水平

证明一个系统可以在给定的标准上完成任务,就足以宣布该系统为AGI,我们不要求一定得在开放世界中完全部署出水平相同的系统。

因为,这可能会面临一些非技术阻碍,比如法律和社会考虑、潜在道德问题。

5、注重生态有效性

所谓生态有效性,谷歌指的是选择真正有用的现实任务去benchmark系统的进步,这些任务不仅包括经济价值也包括社会和艺术价值,要避开那些容易自动匹配和量化的传统AI指标。

6、关注整条AGI之路的发展,而非单一的终点

这也是为什么谷歌要制定我们接下来将要看到的6个发展阶段。

6大必经阶段

AGI之路的6个阶段由深度指标(即技能水平,与人类相比)和广度指标(通用性)进行划分。

第零阶段为“No AI”,计算软件、编译器等属于该范畴,在通用性上只能执行human-in-the-loop任务。

第一阶段为“涌现级”(Emerging),技能相当于或略比没有相关技能的人类要强。

ChatGPT、Bard和Llama 2等大模型就属于该阶段,并且已经满足了该阶段要达到的通用性。

第二阶段可理解为“刚刚合格级”(Competent),可以达到正常成年人50%的水平。

像语音助手Sir、能在短文写作/简单编码等任务中达到SOTA水平的大模型都属于这一阶段。

不过,它们都只是在技能指标上合格了,通用性还够不上,也没有其它能够达到这一阶段通用性水平的AI产品。

图片

第三阶段为“专家级”(Expert),可达到正常成年人90%的水平。

谷歌认为,拼写和语法检查器如Grammarly、图像生成模型Imagen等可以划为该阶段,主要也是在技能水平上达标了,通用性还不够。

第四阶段为“大师级”(Virtuoso),可达到正常人类99%的水平。

深蓝、AlphaGo等都属于。同样,还没有哪个AI产品可以达到属于这一级别的通用能力。

最后一阶段为“超人级”(Superhuman),在技能指标上,已经可以超越顶尖科学家的AlphaFold、AlphaZero也可划入该阶段。

毫无疑问,具备超人智能级通用性的AI还没诞生。

图片

从中我们看出,按照谷歌这个标准来看,大多数已有AI产品其实都分别进入了不同的AGI阶段,但只仅限于在技能水平上——要谈及通用性,目前只有ChatGPT等模型完全合格。

但它们也只还处于最底层的“一级AGI”阶段。

不过,正如原则2所说,评价AGI就是要看这技能水平和通用性这两个指标,这样划分也算说得过去。

值得一提的是,我们可以看到,像DALLE-2这样的图像生成模型已经可以归类于“三级AGI”。

谷歌给出的理由是,因为它生成的图像已经比大多数人都要强了(也就是超越90%人类)。

这一划分并未考虑大多数用户由于提示技巧不佳,无法达成最佳性能的情况。

因为遵循原则4,我们只需要关注一个系统的潜力到了就够了。

另外,对于最终阶段的AGI,谷歌畅想,它除了蛋白质结构预测,还可能能同时进行与动物交流、分析大脑信号、进行高质量预测等各种人类难以企及的任务,这样才不枉费我们的期待。

最后,对于这个层级划分,谷歌也承认还有很多事情要做:

比如在通用性维度上,应该用哪些标准任务集进行测量?完成多大比例的任务才行?有哪些任务是一定要满足的?

这些问题一时都不大可能全部摸清。 

你同意谷歌提出的这些原则和阶段划分吗? 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/144237.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

春秋云境靶场CVE-2022-32991漏洞复现(sql手工注入)

文章目录 前言一、CVE-2022-32991靶场简述二、找注入点三、CVE-2022-32991漏洞复现1、判断注入点2、爆显位个数3、爆显位位置4 、爆数据库名5、爆数据库表名7、爆数据库数据 总结 前言 此文章只用于学习和反思巩固sql注入知识,禁止用于做非法攻击。注意靶场是可以练…

任意注册漏洞

目录 一漏洞介绍 二实战演示 三漏洞修复 本文由掌控安全学院 - 小博 投稿 一漏洞介绍 1.未验证邮箱/手机号 情景:应用为了方便用户记录用户名,使用邮箱和手机号作为用户名(因此很多应用在注册的时候就要求用户填写,多数时候…

java spring cloud 企业电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展

功能描述 1、门户管理:所有用户可在门户页面查看所有的公告信息及相关的通知信息。主要板块包含:招标公告、非招标公告、系统通知、政策法规。 2、立项管理:企业用户可对需要采购的项目进行立项申请,并提交审批,查看所…

vscode远程连接服务器报错

报错: Bad owner or permissions on C:\\Users\\Alice/.ssh/config> 过程试图写入的管道不存在。 1.ping一下config里面ip 2.ping的通,不是网络问题 3.扩展 -> remote-ssh -> 设置 -> 扩展设置(红框) 4.输入config绝…

后端接口性能优化分析-2

常见思路 1.批量思想: 这个其实是一个最容易想到的代码层次的修改,其实对业务上来说,结果都是一样的,只不过这个涉及到了一件事就是,像数据库中发请求,是发十次还是发一次的问题。其原因最根本的还是&…

评论:AlexNet和CaffeNet有何区别?

一、说明 在这个故事中,我们回顾了AlexNet和CaffeNet。AlexNet 是2012 年ILSVRC(ImageNet 大规模视觉识别竞赛)的获胜者,这是一项图像分类竞赛。而CaffeNet是AlexNet的单GPU版,因此,我们平时在普通电脑的Al…

一文懂得电源模块过温保护测试方法 ate测试软件助力测试

过温保护测试是电源模块保护功能测试项目之一,也是电源模块测试的重要测试指标,以保证电源模块过温保护功能正常,确保电源模块不受损坏。用ate测试软件测试电源模块过温保护,不仅可以保证测试结果的准确性,还可以多维度…

revit获取FamilySymbol的name

因为想解析把Element的CategoryId跟FamilySymbolId解析并存下来,这样就可以还原Revit中项目浏览器,里面的族的结构层次了。 参考:Revit中“Category、Family、 Familysymbol、 FamilyInstance”之间的关系​​​​​​ 但是对于wall和floor等…

通过key在数仓里查询dt的时候报错

现象 Query failed (#20231114_080638_00103_iaf4c) in hive: line 3:11: Column tyc_web_company_workright cannot be resolved 原因 key应该被单引号括起来,字段名称才应该被双引号括起来 修改 把单引号换成双引号就好了

软件测试自学指南,十年阿里测试工程师的建议

通过技能提升,入行IT可以的,但得先积累足够的经验,才能拿高薪,有个成长的过程。 软件测试岗介绍 软件测试岗位主要负责系统的测试工作,属于IT项目中的质量管理(QA)模块。 这个岗位分为两种类…

Python+Appium自动化测试框架详解

appium简介 Appium 是一个开源的、跨平台的测试框架,可以用来测试 Native App、混合应用、移动 Web 应用(H5 应用)等,也是当下互联网企业实现移动自动化测试的重要工具。Appium、Appium-desktop、Appium Client 的区别是 Appium …

识别代理IP:保障网络安全的重要一环

在互联网的世界中,代理服务器被广泛用于隐藏用户真实IP地址,带来了一些挑战,特别是在网络安全和欺诈检测方面。本文将探讨如何识别代理IP,以确保网络的安全性和可靠性。 1. 代理IP的背景与用途 代理服务器是位于用户和目标服务器…

进程间通信--管道

一、为什么要有进程间通信(目的) 数据传输:一个进程需要将它的数据发送给另一个进程 资源共享:多个进程之间共享同样的资源。 通知事件:一个进程需要向另一个或一组进程发送消息,通知它(它们)发生了某种事…

cmake 开 asan 未生效

为什么有的时候 cmake 开 asan 没有生效 当使用CMake构建项目时,启用ASan(AddressSanitizer)的方式可能因为多种原因而没有生效。以下是一些常见的可能原因和解决方法: 1. 检查编译器和CMake版本:确保您使用的编译器…

一文解码语言模型:语言模型的原理、实战与评估

在本文中,我们深入探讨了语言模型的内部工作机制,从基础模型到大规模的变种,并分析了各种评价指标的优缺点。文章通过代码示例、算法细节和最新研究,提供了一份全面而深入的视角,旨在帮助读者更准确地理解和评估语言模…

功能强大的国产API管理神器 Eolink,亲测好用

前言 大家好,我是小月,今天给大家讲讲最近很火的Eolink,一款功能强大且非常实用的国产 API管理工具。在我们日常的前端、后端开发测试过程中经常会用到API,特别是在大型项目中API管理工具也就必不可少。工欲善其事必先利其器&…

git快速上传代码

① git init; 初始化git,之后在文件夹里有.git文件,这个需要 勾选才能查看。 ② git remote add test myFisrtTest: 测试专用 这里的test是自定义的,myFisrtTest: 测试专用 是远程仓库 ③ git branch -a 这里是查看分支 ④ …

Git推送本地代码到远程仓库

Git推送本地代码到远程仓库 1、首先需要安装Git,如果已经安装,请跳过。下载地址:https://git-for-windows.github.io/ 2、安装好git服务器后。首先找到你项目的文件夹,比如项目名称为Item,进入到这个文件夹&#xff0…

%与floormod方法区别

%求余数 计算步骤: 10 / -3 -3.333333........... %是向0方向取整,因此-3.3333.......取整数-3 10 % -3 10-(-3*-3) 1 floormod方法 计算步骤:floormod(10,-3) floormod是向负无穷方向取整,因此-3…

Java数据结构

Java 数据结构 数据结构主要包括以下几种接口和类: 枚举(Enumeration) 接口定义了一种从数据结构中取回连续元素的方式。 nextElement 的方法,该方法用来得到一个包含多元素的数据结构的下一个元素。 位集合(BitSet…