斯坦福报告解读4:图解有趣的推理基准(中)

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著,该报告已被公认为最权威、最具信誉人工智能数据与洞察来源之一。

2024年版《人工智能指数报告》是迄今为止最为详尽的一份报告,包含了前所未有的大量原创数据,新增了对AI训练成本的估算、对负责任AI领域详尽分析,以及全新章节专门探讨人工智能对科学与医学的影响。

技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远,结合AI模型评估基准,针对各个模态进行深入分析,观察其在不同课题面前的性能表现。

一般推理能力

一般推理是指人工智能可以跨多个领域进行推理而不是执行一项狭隘的任务,例如下棋。由于今年来人工智能系统的推理能力已经大大提高,以至于 SQuAD(用于文本推理)和 VQA(用于视觉推理)等传统基准测试已经饱和,研究人员开发了MMMU评估标准。

MMMU全称是Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI。它是用于评估专业领域的理解力和推理力的指标。

那么现在主流的模型在这些问题上的表现如何?模型和人类的表现之间还是有较大差距,无论是MMMU还是GPQA。

GPQA全称A Graduate-Level Google-Proof Q&A Benchmark,来自纽约大学、该由 448 个困难的多项选择题组成,这些问题无法通过 Google 搜索轻松回答。由生物学、物理学和化学等各个领域的主题专家精心设计的。

数学推理能力

数据推理,通过解决数学问题来评估模型的数据推理能力。一般GSM8K基准是作为数学推理评估基准的首选,此次GSM8K上表现最好的是GPT-4 Code Interpreter准确率97%。

MATH基准是加州大学伯克利分校研究人员在2021年引入的12,500个具有挑战性的竞赛级数学问题的数据集。GPT-4成功解决了数据集中84.3%的问题。

PlanBanch,一个基准测试套件用来评估LLM解决规划问题的能力。结果显示,GPT-4约有34%的时间能够生成正确且成本最优的计划,而I-GPT-3这一比例约为6%。

视觉推理能力

视觉推理旨人工智能系统对视觉和文本数据的推理能力,当前的评估方式是视觉常识推理挑战赛(VCR),通过Q->AR 分数来衡量模型表现,其中Q->A指的是机器选择正确答案,Q->R指的是选择该答案背后的适当理由的能力。当前VCR最佳得分是81.6。其实也就看图说话,选择正确的回答。

道德伦理推理能力

在未来人工智能将在诸如医疗保健和司法系统等伦理考量至关重要的领域得到广泛应用。因此,至关重要的是,AI系统必须具备稳健的道德推理能力,以便能够有效地应对和推断伦理原则及道德考量。当前评估方式是通过模型对含有道德元素的数据集(MoCa)给出的反应与一致性指标的对齐程度来评估。其结果是,虽然没有一个模型能够完全匹配人类的道德体系,但更多参数的模型会更符合人类的道德情感。

这类的题目主要还是为了测试大模型的道德体系,有点类似电车难题,到底是救一个人,还是牺牲一个人救更多的人。其实从人类的角度,这类道德题目也是争议很大,所以的确有点为难LLM了。

因果推理能力

因果推理基准评估LLMs是否具备理解并归因于信念、意图、情绪等心理状态的“心智理论”(Theory-of-Mind,ToM)能力.。2023年BigToM评估基准旨在评估LLMs的社会和因果推理能力,该基准已被认定为最有的ToM基准。

上图左侧为因果关系分析框架,t1发生之后会由经历感知(紫色),然后由自我判断(红色)结合期望(蓝色),一起做出行为(绿色)。上图右侧为案例,输入一段场景和因果事件,然后考核大模型预测未来(b)和未来行为(c),包括回测追溯(d)的能力。

例题中,Noor在一家繁忙的咖啡店担任咖啡师。 她想为一位需要燕麦奶的顾客制作一杯美味的拿铁咖啡。Noor抓起一个牛奶罐装满了燕麦奶。Noor认知里奶罐里含有燕麦奶。而当她去处理另一项任务时,一名同事接手了,但是他没有听到顾客的要求,将罐子里的燕麦奶换成了杏仁奶。那么这个时候可以问问大模型,Noor认知是什么?接下来会做什么?要是Noor做了一些举动,那么她当时认知是什么?

那么针对目前的大模型的评测结果如下:

分析的结果最有趣,机器已经和人类的预判达成平手,甚至在部分超过了人类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/659877.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

逍遥散人的“痛婚”,让《光夜》玩家悄悄破防了

网红博主的一场求婚,让《光与夜之恋》玩家破防了。 知名游戏博主逍遥散人发微博公布求婚成功,本来应该是一件喜事,但却因为求婚场景布满了《光与夜之恋》男主角之一陆沉的谷子(周边),遭到了“6推”&#x…

AI知识库和Agent简介及实现

AI知识库和Agent简介及实现 引言 随着人工智能的发展,大规模预训练模型(Large Pre-trained Models,简称大模型)成为了AI领域的重要研究方向。大模型通过大量的数据训练,能够在各种任务中展现出强大的性能。本文将重点…

出租房水电抄表系统的全面解析

1.系统定义和功能 出租房水电抄表系统是一种智能的可视化工具,关键用于解决房东在经营好几个出租房源时,对水电的使用量统计分析、收费和管理上的问题。通过自动化抄表、收费和通告,此系统减轻了房东的工作负担,提高了效率&#…

深入理解统计学中的最大值与最小值

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、统计学中的基础概念:最大值与最小值 1. 创建数组与数据导入 2. 求解整体数…

电表自动抄表系统:智能时代的能源管理新方式

1.界定和功能 电表自动抄表系统是一种现代化电力计量技术,它利用先进的通讯技术和互联网,完成了远程控制、实时电磁能数据采集和处理。系统的主要作用包含全自动载入电表数据信息、实时检测电力应用情况、出现异常报案及其形成详尽能源使用报告&#xf…

设置 SSH 主机 *** 正在初始化 VS Code 服务器

首先在server端 找到vscode server的服务端: ps -ef|grep node 然后kill掉 kill -9 pid 然后删除掉 .vscode-server 文件 rm -rf .vscode-server

Remix IDE 创建和部署第一个合约HelloWorld

Remix IDE 地址 https://remix.ethereum.org/ 流程步骤: 创建一个新文件 输入文件名保存 在文件资源管理器中,点击新建文件图标创建一个新文件,并给它命名。在 Remix 中,默认的文件扩展名是 .sol ,如果文件名没有…

亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题

近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图…

容器Android:Waydroid

环境:intel PC,Ubuntu20.04 目标:在Ubuntu20.04上搭建waydroid Android容器系统1. 搭建weston环境 由于waydroid依赖wayland环境,当前Ubuntu20.04默认为X11,需要安装weston $sudo apt install weston $weston #进入W…

基于L1范数惩罚的稀疏正则化最小二乘心电信号降噪方法(Matlab R2021B)

L1范数正则化方法与Tikhonov正则化方法的最大差异在于采用L1范数正则化通常会得到一个稀疏向量,它的非零系数相对较少,而Tikhonov正则化方法的解通常具有所有的非零系数。即:L2范数正则化方法的解通常是非稀疏的,并且解的结果在一…

【Spring Cloud】分布式配置动态刷新

目录 问题解决方案1.使用Spring Boot Actuator监控接口【不推荐】流程图使用Spring Boot Actuator的步骤 2.Spring Cloud Bus第一种方案问题Spring Cloud Bus流程图Spring Cloud Bus实现客户端刷新的步骤开发准备实现1. 在config-server中添加依赖2.在config-server中添加配置a…

LeetCode --- 399周赛

题目列表 3162. 优质数对的总数 I 3163. 压缩字符串 III 3164. 优质数对的总数 II 3165. 不包含相邻元素的子序列的最大和 一、优质数对的总数I 这里由于数据范围比较小,我们可以直接暴力枚举,代码如下 class Solution { public:int numberOfPairs…

linnux上安装php zip(ZipArchive)、libzip扩展

安装顺序: 安装zip(ZipArchive),需要先安装libzip扩展 安装libzip,需要先安装cmake 按照cmake、libzip、zip的先后顺序安装 下面的命令都是Linux命令 1、安装cmake 确认是否已安装 cmake --version cmake官网 未安装…

渗透测试之信息收集篇

前言 信息收集的重要性 进行渗透测试之前,最重要的一步就是信息收集。 信息收集可以让渗透者选择合适和准确的渗透测试攻击方式,缩短渗透测试时间。 所谓知己知彼,百战不殆,我们越了解测试目标,测试的工作就越容易。 最后能否成功渗透进入目…

【MySQL数据库】 MySQL主从复制

MySQL主从复制 MySQL主从复制主从复制与读写分离的意义主从数据库实现同步(主从复制)三台mysql服务器搭建主从复制,要求不可以用root帐号同步,要求第三台服务器在测试过1、2的主从复制之后进行主从复制配置四台mysql服务器(m1,s1,…

如何遍历并处理不平衡的Python数据集

目录 一、引言 二、不平衡数据集的概念与影响 三、处理不平衡数据集的策略 重采样策略 集成学习方法 代价敏感学习 一分类方法 四、Python工具与库 五、案例分析与代码实现 案例一:使用imbalanced-learn库进行上采样 案例二:使用scikit-learn…

史上最全网络安全面试题+答案

1、什么是SQL注入攻击 前端代码未被解析被代入到数据库导致数据库报错 2、什么是XSS攻击 跨站脚本攻击 在网页中嵌入客户端恶意脚本,常用s语言,也会用其他脚本语言 属于客户端攻击,受害者是用户,网站管理员也属于用户&#xf…

小白windows系统从零开始本地部署大模型全记录

大家好,最近两年大语言模型风靡全球,最近,不少开源大模型,将模型部署到自己的电脑上,用个性化的数据微调想必是不少人的愿望,这次,让我来分享从hugging face上下载部署chatglm3-6b中的经验。 1.…

2024-2025年跨境电商展览会计划表:共筑未来跨境行业的繁荣

-----------------------------2024年跨境电商展计划如下---------------------------- 2024年,2025年国内跨境电商行业将迎来一系列重大的展会活动,是企业展示品牌、交流趋势、拓展商机的重要平台。全国各地展会排期信息现已出炉,记得收藏哦…

图解PHP MySQL:轻松掌握服务器端Web开发

在当今数字化时代,Web开发成为了一个炙手可热的领域,而PHP和MySQL作为Web开发领域的两大基石,其重要性不言而喻。对于初学者和寻求深化理解的开发者而言,一本好的教材就如同灯塔一般,指引着他们前行。《图解PHP & …