斯坦福报告解读3:图解有趣的评估基准(上)

《人工智能指数报告》由斯坦福大学、AI指数指导委员会及业内众多大佬Raymond Perrault、Erik Brynjolfsson 、James Manyika等人员和组织合著,旨在追踪、整理、提炼并可视化与人工智能(AI)相关各类数据,该报告已被大多数媒体及机构公认为最权威、最具信誉人工智能数据与洞察来源之一。

2024年版《人工智能指数报告》是迄今为止最为详尽的一份报告,包含了前所未有的大量原创数据,新增了对AI训练成本的估算、对负责任AI领域详尽分析,以及全新章节专门探讨人工智能对科学与医学的影响,充分体现了人工智能在我们生活各个领域日益凸显的重要性。

技术性能处于第二章节主要是回顾下现在的人工智能技术走了多远,从总体视角总结当前AI技术发展以及AI模型评估基准现状,再回到各个模态深入分析,以便于观察各个模型在不同课题面前的性能表现以及评估基准。

评估基准概览

2023年有很多被废弃的指标也有很多新增的指标。整体而言一些新的具有挑战性的基准出现了,例如用于编程的SWE-bench、用于图像生成的HEIM、用于一般推理的MMMU、用于道德推理的MoCa以及用于基于代理的行为的AgentBench以及用于幻觉评估的HaluEval。

自然语言能力评估基准

自然语言处理 (NLP) 使计算机能够理解、解释、生成和转换文本。目前最先进的模型已能够生成流畅连贯的散文,并表现出高水平的语言理解能力。这个部分围绕着“理解力”,“语言生成”,“幻觉和真实性”的一些相关基准来观测AI技术现状。

HELM是斯坦福推出,下图为各项子任务中得分较高的大模型

MMLU是多任务的语言理解,目前已经达到人类水准。MMLU 基准Gemini Ultra 以 90.0% 的最高分排名第一,率先超过了 MMLU 的人类基线 89.8%。

幻觉与真实性旨在LLM容易受到事实不准确和内容幻觉的影响,从而产生看似现实但虚假的信息。报告中TruthfulQA评估基准观察指出,较多大模型容易出现欠缺真实性的情况,但 2024年初发布的 GPT-4(RLHF)在 TruthfulQA基准测试中取得了迄今为止的最高成绩,得分为 0.6,比2021年GPT-2模型高出近三倍。

编码能力评估基准

HumanEval评估基准是用于评估对当前AI生成代码能力,由OpenAI研究人员于 2021年推出,由 164 个具有挑战性的手写编程问题组成。当前GPT-4模型变体 (AgentCoder) 在这个指标方面处于领先地位,得分为 96.3%。

另外一种基于软件工程问题数据集的SWE-bench基准,对AI编码能力有着更严格的测试,例如,要求系统协调多个功能之间的更改,与各种执行环境交互,并执行复杂的推理。Claude 2在这个指标上表现最好,但是也仅仅解决了 4.8% 的问题。

视觉与图像生成评估基准

AIGC相关模态,分别从“图像生成”、“指令遵从”、“图像编辑“、“图片元素分割”、“二维转三维”的方面来评估当前AI的水平。

在图像生成方面,Midjourney模型从2022年至2024年几个迭代版本对“一幅哈利·波特的超写实图像”的指令而生成的图像。

当前图像生成技术已经十分先进,生成的图与真是的图像时常无法区分。

HEIM,旨在全面评估图像生成器对实际部署至关重要的 12 个关键方面,例如图像-文本对齐、图像质量和美学。虽然没有一个模型在所有标准中都表现出色。但是在个别标准中还是有佼佼者的。比如,OpenAI的DALL-E 2对于评估生成的图像与输入文本的匹配程度得分最高。Stable Diffusion 的Dreamlike Photoreal在图像质量(衡量图像是否与真实照片相似)、美学(评估视觉吸引力)和原创性(衡量新颖图像生成和避免侵犯版权的指标)方面得分最高。

报告还提到了3D建模的图像技术,其中字节跳动和加州大学圣地亚哥分校的研究人员开发MVDream十分亮眼。

在指令遵循方面,VisIT-Bench评估基准用于观察模型基于文本指令生成图像的能力。VisIT-Bench,由592个具有挑战性的视觉语言指令组成,涵盖大约70个指令类别,例如情节分析、艺术知识和位置理解。截至2024年 1月,表现最好的是GPT-4Turbo的视觉变体,Elo得分为1,349。

在文本引导图片编辑改方面,报告指出其尚未有成熟的准确度评定方式,只是浅谈了EditVal评估基准。EditVal,包括超过 13 种编辑类型,例如添加对象或更改其位置,涵盖 19 个对象类。该基准测试用于评估八种领先的文本引导图像编辑方法,包括 SINE 和 Null-text。

下图为ControlNet和NeRF2NeRF

视频生成基准

旨在用文本或图片生成视频。报告采用了UCF101评估基准进行观察,今年的顶级模型W.A.L.T-XL取得了FVD16得分为36。值得注意的是,因为该模态有着其难题,例如大部分模型智能创建短小、低分辨率的视频,或者是生成的视频过于复杂而且训练数据集不理想导致模型表现不好等。这些问题报告介绍了“Align Your Latents”和“Emu Video”这些正在尝试克服这些问题的技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/653766.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

知识点总结

1、Uboot的流程调用: 1.1、cmd_process函数是怎么被调用到的: cmd_process在common/command.c 1.2、uboot阶段断电,后续起不来,可能要换线去使用,也许和电源线有关 2、git 相关使用 2.1 .gitignore相关的使用 1、…

搭建电商电子商务平台有哪些好用的电商API数据采集接口?

电商API接口主要用于帮助开发者将电商功能集成到自己的应用程序中,实现诸如商品检索、商品价格数据获取、订单处理、支付、物流跟踪等功能。以下是一些常用的电商API接口提供商: 主流电商平台API: 淘宝开放平台:提供淘宝、天猫、…

卤菜销售|基于SSM+vue的智能卤菜销售平台的设计与实现(源码+数据库+文档)

智能卤菜销售平台 目录 基于SSM+vue的智能卤菜销售平台的设计与实现 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2管理员功能模块 3用户功能模块 4商家功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八…

URL跳转

1.URL介绍 开放重定向(Open Redirect),也叫URL跳转漏洞,是指服务端未对传入的跳转url变量进行检查和控制,导致诱导用户跳转到恶意网站,由于是从可信的站点跳转出去的,用户会比较信任。 2.URL跳…

有一个3x4的矩阵,求矩阵中所有元素中的最大值。要求用函数处理

解此题的算法已在之前的文章中介绍,详见:https://mp.csdn.net/mp_blog/creation/editor/139181787 编写程序: 运行结果:

香橙派 AIPro开发板上手测评

前言 最近拿到了一个新玩具:香橙派 AIPro。一个只比银行卡大一点点的开发板能带给我们多少惊喜呢?接下来就跟我一起来体验下这块开发板的魅力。 一、硬件配置 CPU:配备了4核64位ARM处理器,其中默认预留1个给AI处理器使用 NPU&am…

【Qt常用控件】—— 布局管理器

目录 前言 (一)垂直布局 (二)水平布局 (三)网格布局 (四)表单布局 (五)分组布局 (六)Spacer 总结 前言 之前使⽤Qt在界⾯上…

听说部门来了个00后测试开发,一顿操作给我整麻了

公司新来了个同事,听说大学是学的广告专业,因为喜欢IT行业就找了个培训班,后来在一家小公司实习半年,现在跳槽来我们公司。来了之后把现有项目的性能优化了一遍,服务器缩减一半,性能反而提升4倍&#xff01…

HTML静态网页成品作业(HTML+CSS)——动漫熊出没介绍网页(3个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有3个页面。 二、作品演示 三、代…

使用`War`包部署`Jenkins`(超级详细)

使用War包部署Jenkins(超级详细) 别着急,你看这年复一年,春光不必趁早,冬霜不会迟到。过去的都会过去,该来的都在路上,一切都是刚刚好。 网站说明 https://get.jenkins.io/war-stable/ war包下载地址 https://www.jenk…

AIGC笔记--基于PEFT库使用LoRA

1--相关讲解 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRA 在 Stable Diffusion 中的三种应用:原理讲解与代码示例 PEFT-LoRA 2--基本原理 固定原始层,通过添加和训练两个低秩矩阵,达到微调模型的效果; 3--简单代…

boost asio异步服务器(2)实现伪闭包延长连接生命周期

闭包 在函数内部实现一个子函数,子函数的作用域内能访问外部函数的局部变量。闭包就是能够读取其他函数内部变量。但是由于闭包会使得函数中的变量都被保存在内存中,内存消耗很大,所以不能滥用闭包,否则会造成程的性能问题&#x…

没开玩笑!高速信号不能参考电源网络这条规则,其实很难做到

高速先生成员--黄刚 看到这篇文章的题目,我相信大家心里都呈现出了这么一个场景:高速信号线在L20层,我只要把L19和L21层都铺上完整的地平面,这不就满足了高速信号线不能参考电源平面这条规则了吗?这难道很难做到吗&…

51驱动DY-SV20F语音播放模块

51驱动DY-SV20F语音播放模块 简介模块特征电气参数工作模式配置原理图代码结果图 简介 DY-SV20F 是一款一对一分段触发控制播放器,支持 MP3,WAV 解码格式; 可分段触发 9 首曲目;低电平触发;3.7-5VDC 宽电压供电,直驱 …

expect自动交互

在执行命令或脚本的时候,当控制台提示我们需要输入账号密码、参数等信息的时候,expect可以将预设的参数值自动输入到控制台,实现了自动交互。 1. 安装expect yum install expect 2. 案例: 创建 demo.exp 文件,并添…

英语四级翻译练习笔记③——大学英语四级考试2023年12月真题(第三套)

目录 引言(必看) 四级翻译评分标准分析及真题解析 四级翻译评分标准 四级翻译真题 学生作答 1. 评分 2. 修正翻译中的错误 错误标记: 3. 改正句子 4. 标出错误单词 5. 标准答案 6. 常考万能句子 7.重点单词的中文意思 引言&…

移动应用程序设计详解:基本概念和原理

移动应用程序设计是什么? 一般来说,应用程序设计师的核心职责是让用户有体验应用的欲望,而开发者负责让它正常工作。移动应用程序设计包括用户界面 (UI) 和用户体验 (UX)。设计者负责应用程序的整体风格,包括配色方案、字体选择、…

关于如何通过APlayer+MetingJS为自己的wordpress博客网页添加网易音乐播放器(无需插件)

本文转自博主的个人博客:https://blog.zhumengmeng.work,欢迎大家前往查看。 原文链接:点我访问 序言:最近在网上冲浪,发现大家的博客大部分都有一个音乐播放器能够播放音乐,随机我也开始寻找解决方法。可是找来找去我…

达梦数据库查看字符集、页大小

1.查看字符集select UNICODE (); 0 表示 GB18030,1 表示 UTF-8,2 表示 EUC-KR 2.查看页大小select SF_GET_PAGE_SIZE(); 也可以通过管理工具去查看

【组合数学 放球问题 虚拟点 小于等于转小于】1621. 大小为 K 的不重叠线段的数目

本文涉及知识点 放球问题 组合数学汇总 本题难道分:2198 LeetCode1621. 大小为 K 的不重叠线段的数目 给你一维空间的 n 个点,其中第 i 个点(编号从 0 到 n-1)位于 x i 处,请你找到 恰好 k 个不重叠 线段且每个线段…