如何评估大模型音频理解能力-从Gemini说起

      Gemini家族包含Ultra、Pro和Nano三种大小的模型是谷歌开发的大型多模态人工智能模型,它在人工智能的多模态领域实现了重大突破,结合了语言、图像、音频和视频的理解能力。

     Gemini的性能评估情况如下:

Gemini模型的评估的具体指标从文本理解能力、图像理解能力、音频理解能力、多模态能力四个维度进行测试。评估具体指标核心之一就是选择基准测试集。选择基准测试集时,我们会从几个关键因素做选择,如数据覆盖范围、数据质量和规模、评价指标和评价指标。

1、Gemini模型的评估的具体指标

1.1 文本理解能力

学术基准测试:包括MMLU、GSM8K、Math、BIG-Bench等文本理解和推理基准测试。

长文本理解:涵盖NarrativeQA、Scrolls等长文本理解基准测试。

数学/科学理解:包括GSM8K、Math、MMLU等数学和科学知识理解基准测试。

推理能力:包括BigBench Hard、CLRS等推理能力基准测试。

摘要能力:涵盖XL Sum、WikiLingua等摘要生成基准测试。

多语言能力:包括WMT23、WikiLingua等机器翻译和多语言摘要生成基准测试。

1.2 图像理解能力

对象识别:包括VQAv2、TextVQA等图像和文档的文本理解基准测试。

细节识别:涵盖DocVQA、ChartQA等细节识别基准测试。

图表理解:包括MathVista、AI2D等图表理解基准测试。

跨语言图像理解:包括XM-3600等跨语言图像理解基准测试。

1.3 视频理解能力

视频问答:涵盖VATEX、YouCook2、NextQA等视频问答基准测试。

视频推理:包括ActivityNet-QA、Perception Test MCQA等视频推理基准测试。

1.4 音频理解能力

语音识别:包括FLEURS、VoxPopuli、Librispeech等语音识别基准测试。

语音翻译:涵盖CoVoST 2等语音翻译基准测试。

1.5 多模态能力

跨模态推理:涵盖MMMU、AI2D等跨模态推理基准测试。

图像生成:涵盖图像生成基准测试。

视频理解:涵盖视频理解基准测试。

音频理解:涵盖音频理解基准测试。

跨模态组合推理:涵盖多模态推理基准测试。

2、语音识别领域三大基准测试集

       在语音识别领域,FLEURS、VoxPopuli和Librispeech是几个重要的基准测试集,用于评估语音识别系统的性能。

2.1 FLEURS

FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)基准测试集是一个用于评估和推动低资源语言语音理解研究的多语言语音数据集,由Alexis Conneau等人创建,并在arXiv上发表相关论文。它旨在鼓励在更多语言中发展语音技术,以实现更广泛的语音识别和语音翻译技术的普及。

主要特点:

多语言覆盖:FLEURS包含102种语言,提供了大约12小时的有监督语音数据支持每种语言,这为研究者提供了足够的数据来训练和评估多语言语音识别模型。

任务多样性:FLEURS可以用于多种语音相关的任务,包括自动语音识别(ASR)、语音语言识别(Speech LangID)、翻译和检索。

数据集构建:FLEURS是基于机器翻译的FLoRes-101基准测试构建的,它使用了来自FLoRes公开可用的dev和devtest数据集中的多对多平行句子。

2.2 VoxPopuli

VoxPopuli是由Facebook AI(现为Meta AI)开源的大规模多语言语音数据集,旨在推动语音识别、表示学习、半监督学习以及同声传译等领域的研究。数据集可通过GitHub仓库获取,其中包含了下载脚本和使用指南。

主要特点:

数据集规模和多样性:VoxPopuli提供了23种语言的100,000小时未标记语音数据,以及1,800小时的转录演讲和它们对15种目标语言的口译,总计达到17,300小时。

数据来源:VoxPopuli的数据来源于2009-2020年间欧洲议会的事件录音,包括全体会议、委员会会议等。这些录音包括了来自不同欧盟语言的演讲,并被部分转录和口译。

数据处理:为了提高数据质量,VoxPopuli的创建者们构建了数据处理流程,包括使用基于能量的语音活动检测(VAD)算法将长录音分割成15-30秒的短片段,并去除连续沉默超过2秒的片段。

数据集应用:VoxPopuli不仅适用于自动语音识别(ASR)任务,还适用于语言模型训练、半监督学习以及语音到文本的翻译任务。

预训练模型:Facebook AI还提供了基于VoxPopuli数据训练的预训练wav2vec 2.0模型,这些模型可以用于下游语音任务。

下载:https://github.com/facebookresearch/voxpopuli

2.3 Librispeech

LibriSpeech是一个用于评估英语语音识别性能的开源数据集,它包含了约1000小时的16kHz采样率的有声读物录音。这个数据集被广泛用于训练和评估自动语音识别(ASR)系统的性能。

主要特点:

数据集规模:LibriSpeech数据集规模庞大,提供了充足的数据用于深度学习模型的训练和测试。

数据分集:LibriSpeech数据集通常被分为多个子集,包括训练集(train-clean-100, train-clean-360, train-other-500)、开发集(dev-clean, dev-other)和测试集(test-clean, test-other)。这些子集根据录音的质量和来源进行了区分。

测试集特点:

test-clean:此测试集包含了清晰度较高的说话人的录音,用于评估ASR系统在理想或较为理想条件下的性能。

test-other:相比test-clean,此测试集包含了更多不同背景和录音条件下的语音数据,用于评估ASR系统在更广泛或更具有挑战性的场景下的性能。

数据格式:LibriSpeech数据集中的音频文件通常以flac格式存储,同时提供对应的文本文件(.trans.txt),其中包含了音频内容的转录文本。

数据预处理:在使用LibriSpeech数据集进行ASR任务之前,需要进行数据预处理,包括将音频文件转换成适合模型输入的特征表示,如梅尔频率倒谱系数(MFCC)等。

使用工具:LibriSpeech数据集可以与多种工具和库一起使用,例如TensorFlow Datasets、Torchaudio等,这些工具提供了方便的数据加载和管理功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/605213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

量化地形处理

1: 量化地形切片:GDAL查询数据;CTB算法转mesh;高度图需要和周围高度图边界做高度融合,四顶点需要做平均值融合;法线想要在前端显示正确必须将mesh坐标转为4326或者3857; 这个使用开源即可:cesi…

【进程间通信】共享内存

文章目录 共享内存常用的接口指令利用命名管道实现同步机制总结 System V的IPC资源的生命周期都是随内核的。 共享内存 共享内存也是为了进程间进行通信的,因为进程间具有独立性,通信的本质是两个不同的进程看到同一份公共资源,所以共享内存…

数仓开发,分层(ods,dw,app层)

1、从数据源中导入源数据,到ODS表,作为事实表的数据 2、可以根据自己的开发设计,是否单独分支出来一个维度表,帮助和协助处理源数据表ODS层 和需求层ADS(APP)层 3、现在我们有了一个事实ODS层&#xff0…

【R语言】边缘概率密度图

边缘概率密度图是一种在多变量数据分析中常用的图形工具,用于显示每个单独变量的概率密度估计。它通常用于散点图的边缘,以便更好地理解单个变量的分布情况,同时保留了散点图的相关性信息。 在边缘概率密度图中,每个变量的概率密度…

Linux-信号保存

1. 概念 进程执行信号的处理动作,称为 信号递达(Delivery) 信号从产生到递达之间的状态,称为 信号未决(Pending) 进程可以选择 阻塞(Block)某个信号 过程: 信号产生 ——…

Java的BIO/NIO/AIO

1. Java中的BIO、NIO和AIO的基本概念及其主要区别 BIO (Blocking I/O): 传统的同步阻塞I/O模型。每个连接创建成功后都需要一个线程来处理,如果连接没有数据可读,则线程会阻塞在读操作上。这种模型简单易理解,但在高并发环境下会消耗大量系统…

苹果Mac用户下载VS Code(Universal、Intel Chip、Apple Silicon)哪个版本?

苹果macOS用户既可以下载通用版(Universal),软件将自动检测用户的处理器并进行适配。 也可以根据型号下载对应CPU的版本: 使用Intel CPU的Mac电脑可下载Intel Chip版本; 使用苹果自研M系列CPU的Mac电脑下载Apple Si…

Animation: (1) animatedline

目录 示例1:显示线条动画示例2:指定动画线条颜色示例3:指定日期时间和持续时间值示例4:设置最大点数示例5:批量添加点以生成快速动画示例6:使用drawnow limitrate创建快速动画示例7:定时更新屏幕…

如何获取中国各省市区的边界

前几个专栏我介绍了获取各流域边界的方法,可参见以下的文章: 格林兰岛和南极洲的流域边界文件下载-CSDN博客 读取shp文件中的经纬度坐标-CSDN博客 读取谷歌地球的kml文件中的经纬度坐标_谷歌地球识别穿过矿区的公路,并获取公路的经纬度坐标-CSDN博客 关于…

docker-compose部署gitlab

需要提前安装docker和docker-compose环境 参考:部署docker-ce_安装部署docker-ce-CSDN博客 参考:docker-compose部署_docker compose部署本地tar-CSDN博客 创建gitlab的数据存放目录 mkdir /opt/gitlab && cd mkdir /opt/gitlab mkdir {conf…

算法学习Day2——单调栈习题

第一题,合并球 题解:一开始写了一次暴力双循环,直接O(n^2)严重超时,后面于是又想到了O(n)时间复杂度的链表,但是还是卡在 最后一个数据会TLE,我也是高兴的拍起来安塞腰鼓和华氏护肤水,后面学长给…

内网安全【2】——域防火墙/入站出站规则/不出网隧道上线/组策略对象同步

-隧道技术:解决不出网协议上线的问题(利用出网协议进行封装出网)(网络里面有网络防护,防火墙设置让你不能正常访问网络 但有些又能正常访问,利用不同的协议tcp udp 以及连接的方向:正向、反向) -代理技术&…

《ESP8266通信指南》13-Lua 简单入门(打印数据)

往期 《ESP8266通信指南》12-Lua 固件烧录-CSDN博客 《ESP8266通信指南》11-Lua开发环境配置-CSDN博客 《ESP8266通信指南》10-MQTT通信(Arduino开发)-CSDN博客 《ESP8266通信指南》9-TCP通信(Arudino开发)-CSDN博客 《ESP82…

数据库管理-第185期 23ai:一套关系型数据干掉多套JSON存储(20240508)

数据库管理185期 2024-05-08 数据库管理-第185期 23ai:一套关系型数据干掉多套JSON存储(20240508)1 上期示例说明2 两个参数2.1 NEST/UNNEST2.2 CHECK/NOCHECK 3 一数多用3.1 以用户维度输出订单信息3.2 以产品维度3.3 以产品种类维度 4 美化输出总结 数…

出差——蓝桥杯十三届2022国赛大学B组真题

问题分析 该题属于枚举类型&#xff0c;遍历所有情况选出符合条件的即可。因为只需要派两个人&#xff0c;因此采用两层循环遍历每一种情况。 AC_Code #include <bits/stdc.h> using namespace std; string str;//选择的两人 bool ok(){if(str.find("A")!-1…

SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体&#xff0c;公式如下&#xff1a; SwiGLU ⁡ ( x , W , V , b , c , β ) Swish ⁡ β ( x W b ) ⊗ ( x V c ) \operatorname{SwiGLU}(x, W, V, b, c, \beta)\operatorname{Swish}_\beta(x Wb) \otimes(x Vc) SwiGLU(x,…

CSS---复合选择器和元素显示模式(三)

一、CSS的复合选择器 1.1 什么是复合选择器 在CSS中&#xff0c;可以根据选择器的类型把选择器分为基础选择器和复合选择器&#xff0c;复合选择器是建立在基础选择器之上&#xff0c;对基本选择器进行组合形成的。 复合选择器是由两个或多个基础选择器连写组成&#xff0c;它…

从Python整数变量内存大小占用28字节谈起

实验结果 本机环境64位Python 3.12 内存布局图 0 4 8 12 16 20 24 28 |----------|----------|----------|----------|----------|----------|----------| | ob_refcnt | ob_type | ob_digit | …

【大数据】分布式数据库HBase下载安装教程

目录 1.下载安装 2.配置 2.1.启动hadoop 2.2.单机模式 2.3.伪分布式集群 1.下载安装 HBase和Hadoop之间有版本对应关系&#xff0c;之前用的hadoop是3.1.3&#xff0c;选择的HBase的版本是2.2.X。 下载地址&#xff1a; Index of /dist/hbase 配置环境变量&#xff1a…

红米1s 刷入魔趣 (Mokee)ROM(Android 7.1)

目录 背景准备工具硬件&#xff08;自己准备&#xff09;软件&#xff08;我会在文末提供链接&#xff09; 刷机步骤1. 重启电脑2. 安装驱动3. 刷入TWRP4. 清空数据5. 刷入魔趣6. 开机 结尾下载链接 本文由Jzwalliser原创&#xff0c;发布在CSDN平台上&#xff0c;遵循CC 4.0 B…