今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规

在足球世界,裁判的哨声可谓“千金难买”,因为它能直接决定俱乐部的钱包是鼓是瘪。但球场变化莫测,非常考验裁判的水平。

2022年卡塔尔世界杯上,半自动越位识别技术(SAOT)闪亮登场,通过12台摄像机,每秒50次追踪球员的29个数据点,精确绘制出越位线,辅助裁判做越位判别,以防错判和漏判。

除此之外,有学者开始研究让大模型来“看球”,通过视频判断球员是否违规并给出相应的解释。

这个模型叫做X-VARS,在足球领域SoccerNet-XFoul数据集上进行了训练与验证。这个数据集包含了超过22k个视频-问题-答案三元组,涵盖了最基本的裁判问题。超过70名专业裁判为数据集提供了详尽的标注和决策解释,确保了数据的质量和准确性。

经过验证,X-VARS在SoccerNet-MVFoul数据集上取得了最先进的性能,X-VARS生成的决策解释水平竟与人类裁判相当。一起来看看是否真的有这么厉害。

论文标题:
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Models

论文链接
https://arxiv.org/pdf/2404.06332.pdf

SoccerNet-XFoul数据集构建

SoccerNet-XFoul,是一个专门设计用于犯规视频识别和解释的数据集。它包含高质量的视频文本对,超过10k个视频剪辑和22k个问题,由70多名经验丰富的裁判进标注。

与其他体育数据集相比,如下图所示,SoccerNet-XFoul是体育领域中最大的数据集,涵盖了复杂问题,并且是唯一专注于裁判问题的数据集。

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

1. 确定问题

作者首先确定了裁判在比赛中必须面对的最基础、最复杂和对比赛产生影响的决定的4个关键问题:

  1. “这是犯规吗?为什么?” ;

  2. “你会给出什么牌?为什么?”;

  3. “防守者是否阻止了有希望的进攻或进球机会?” ;

  4. “裁判是否可以给予优势?”。

要回答这四个问题,模型需要深入理解比赛规则,以及理解行为发生的背景。必须考虑诸如意图、犯规位置、比赛动态和接触强度等因素。问题的答案不仅仅是视觉的,模型还必须对潜在的未来结果进行预测。例如,在评估裁判是否应该给予优势时,模型需要评估进攻方是否更有利于继续比赛而不是获得任意球。

标注者

为确保答案质量,作者精选了经验丰富的裁判进行标注。这些裁判平均执裁了655场正式比赛,经验丰富。他们可以灵活评估视频剪辑,随时暂停避免疲劳。标注者可选择德语、法语、英语或西班牙语作答,确保语言无障碍。答案经ChatGPT-3.5翻译后再由人类裁判审核,保证翻译准确。

主观性

裁判在判决时也带有很强的主观性,如下图所示,两位裁判都认为视频中的行为是犯规的。但一位裁判认为犯规强度较低,不会出示牌,而另一位标注员认为铲球速度很快且鲁莽,会出示黄牌。

由于裁判工作中存在这种固有的主观性,数据集会收集同一行为的多个答案,而不是为每个问题收集单一的决定和解释。这种多个决定和解释实际上帮助模型学习人类裁判采用的一系列有效解释和推理策略。这可以提高 AI 模型的鲁棒性,使其能够在模糊或主观情况下做出明智的决策。

为确保同一行为得到多次评估,我们随机分配视频剪辑给标注者。最终,每个行为平均拥有1.5个相同问题的答案,丰富了模型的学习资源。

数据集统计

该数据集包含10k个视频剪辑,其中包含超过22k个裁判生成的问题和答案。下图显示了裁判标注者解释中最常见单词的分布。最常用的单词是用于描述两名球员之间对抗的特定术语,从描述性术语如defender或card到评估犯规时要考虑的关键术语如intention或intensity。每个答案的单词数量范围从1到66,总共超过540k个单词,平均每个答案近25个单词,单词分布存在显著不平衡。

方法

架构

本文的目标任务是识别是否犯规,并提供了关于其决策过程的解释。主要架构如下图所示:

使用多模态模型Video-ChatGPT作为基础模型,能够理解和生成关于视频的详细对话。首先输入一个视频剪辑视频,其中 T、H、W 和 C 分别是视频的帧数、高度、宽度和通道维度,以供 CLIP ViT-L/14 模型 使用。

通过上述公式获得相应的帧特征向量和隐藏状态.其中通过将 和 相乘获得的tokens数量, 是 CLIP 的 patch 大小,是输出层的维度,是隐藏状态的维度。然后沿时间维度对隐藏状态进行平均池化,以获得时间特征 ,并沿空间维度进行池化以获得视频级空间表示

。最后将两者连接起来以获得时空特征。

在将视频特征 输入LLM之前,通过应用线性投影层将其投影到与文本嵌入相同的特征空间中。

使用表示一系列视觉标记。特征向量也沿时间维度进行平均池化,以获得单个视频级表示。视频级特征表示通过两个分类头和C_{sev}传递,以获得犯规类型(即铲球、拉扯、推搡、站立铲球、肘击、假摔、挑战或高腿)并确定是否犯规,以及相应的严重程度(即无犯规、犯规+无牌、犯规+黄牌或犯规+红牌),预测结果为:

为了在LLM中获得高性能,关键在于找到LLM能够理解的提示。鉴于使用的是VideoChatGPT骨干,作者精心设计了以下查询作为提示,以优化模型性能:

其中代表从视频-问题-答案三元组的训练集中随机抽取的一个问题, < >和< >是从经过微调的CLIP获得的关于犯规类型和严重程度识别任务的两个预测, < >是投影的时空特征。

两阶段训练方法

作者第一阶段对CLIP进行微调,进行多任务分类以学习关于足球和裁判的先验知识。第二步是微调投影层和几层LLM,以增强模型在特定领域的生成能力。

  • 阶段1微调CLIP以融入足球专业知识。虽然CLIP擅长泛化到各类图像任务,但在识别细粒度动作或事件方面仍显不足。这类动作的识别需综合考虑时间维度,而非仅依赖静态图像。例如,评估足球犯规的严重程度需考虑动作强度和速度,这无法通过单张图像准确判断。由于CLIP未针对足球数据训练,不同情景的足球视频片段可能产生相似特征,使得LLM难以区分动作。因此,作者在SoccerNet-MVFoul数据集上微调CLIP,以学习足球相关知识。训练过程中,最小化两个任务的交叉熵损失之和,鉴于损失量级相近,直接相加而不进行缩放或加权。

  • 阶段2涉及特征对齐和端到端训练。保持微调后的CLIP权重不变,仅对线性投影层和LLM进行训练。采用VideoChatGPT的预训练投影层权重作为起点进一步微调这个投影层,确保足球片段的时空特征能够与词嵌入处于同一维度空间,实现特征的有效对齐。在训练过程中,使用CLIP的预测标签<>和<>的groundtruth标签<>和<>进行替换,因为CLIP的预测可能存在噪音,导致混淆。为确保模型能够充分利用视频信息,采用了端到端的训练策略,使模型能够在整个流程中学习到最佳的特征表示和文本生成方式。

实验

人类评估

作者邀请了20名足球裁判对X-VARS模型回答的质量进行评估。这些裁判并不知道这些解释是由人类裁判还是由X-VARS系统生成的,确保了评估的公正性和客观性。

每位裁判随机评估了20个视频片段,每个片段时长为5秒,且评估过程不受时间限制。裁判们主要关注解释的质量,判断其是否与视频内容保持一致,以及决定和解释是否符合《比赛规则》。裁判们根据1到5的评分标准对每个解释进行打分,其中5分代表“非常同意”,1分代表“非常不同意”。

下表显示了结果,X-VARS 的表现与人类裁判类似,只有极小的分数差异

定性评估

下图展示了使用X-VARS模型判决的过程:

在图(a)中X-VARS能够准确回答用户的问题,与真实情况基本一致,图(b)展示了犯规情况的主观性。X-VARS将犯规解释为中等强度,而人类裁判将其解释为低强度,没有机会触球。

结论

本文邀请70多名经验丰富的裁判员标注了一个犯规视频识别和解释的数据集——SoccerNet-XFoul。还提出了一个多模态LLM:X-VARS,从裁判的角度理解足球视频。X-VARS不仅具备视频描述、问题回答、动作识别等多种功能,更能根据视频内容展开有意义的对话,判断足球运动员是否犯规,并给出合理且专业的理由。

这一研究不仅展示了多模态大语言模型在足球视频理解领域的巨大潜力,更为未来的研究提供了新的思路与方向。我们期待着X-VARS在足球领域发挥更大的作用,为比赛的公正性和透明度贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/576123.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

高并发场景中DB和Cache的一致性新的方案感想

拜读了: 美团2面&#xff1a;如何保障 MySQL 和 Redis 数据一致性&#xff1f;这样答&#xff0c;虐爆面试官这篇文章后的感想 高并发场景中数据库和缓存的一致性和可用性的感想 1&#xff0c;先更新缓存&#xff0c;再更新数据库1.1&#xff0c;前提1.2&#xff0c;理由1.2.1&…

Echarts-知识图谱

Echarts-知识图谱 demo地址 打开CodePen 效果 思路 1. 生成根节点 2. 根据子节点距离与根节点的角度关系&#xff0c;生成子节点坐标&#xff0c;进而生成子节点 3. 从子节点上按角度生成对应的子节点 4. 递归将根节点与每一层级子节点连线核心代码 定义节点配置 functio…

目标检测——大规模商品数据集

引言 亲爱的读者们&#xff0c;您是否在寻找某个特定的数据集&#xff0c;用于研究或项目实践&#xff1f;欢迎您在评论区留言&#xff0c;或者通过公众号私信告诉我&#xff0c;您想要的数据集的类型主题。小编会竭尽全力为您寻找&#xff0c;并在找到后第一时间与您分享。 …

阿里云企业邮箱API的使用方法?调用限制?

阿里云企业邮箱API性能如何优化&#xff1f;配置邮箱API的优势&#xff1f; 阿里云企业邮箱以其稳定、高效和安全的特点&#xff0c;受到了众多企业的青睐。而阿里云企业邮箱API的开放&#xff0c;更是为企业提供了更加灵活、便捷的管理和操作方式。下面&#xff0c;我AokSend…

新标准日本语初下 课后练习作业

新版标准日本语初下 第二十五課 これは明日会議で使う資料です 第二十五課 これは明日会議で使う資料です &#xff12;&#xff14;&#xff0d;&#xff10;&#xff14;&#xff0d;&#xff12;&#xff16; 練習&#xff12;&#xff15;&#xff0d;1&#xff0d;1 例…

uniapp中vue写微信小程序的生命周期差别

根据uniapp官网里的生命周期&#xff0c;感觉不太对劲&#xff0c;就自己测试了几个&#xff0c;发现有所差别。 红字数字 为 实际测试生命周期顺序。 因为需要页面传参 后再 初始化数据&#xff0c;而onLoad(option)接收参数后&#xff0c;就已经过了create()了&#xff0c;所…

绘制等值线地图——以气压等压线为例(Python版)

绘制等值线地图——以气压等压线为例(Python版&#xff09; - 知乎 1.前期环境配置 本篇博客主要使用了basemap和netCDF4两个库&#xff0c;推荐使用conda新建虚拟环境并安装相关的包 可以参考笔者之前的博客1和博客2完成windows系统上conda的安装在conda完成安装后在anacond…

【牛客网】:链表的回文结构(提升)

&#x1f381;个人主页&#xff1a;我们的五年 &#x1f50d;系列专栏&#xff1a;每日一练 &#x1f337;追光的人&#xff0c;终会万丈光芒 目录 &#x1f3dd;问题描述&#xff1a; &#x1f3dd;问题分析&#xff1a; 步骤一&#xff1a;查找链表的中间节点 步骤二&am…

C++教学——从入门到精通 11.嵌套循环及数组

上次讲到了循环&#xff0c;这次来讲嵌套循环 如果一个人叫你用C来画一个10*10/2cm^2三角形会么&#xff1f; 这就要用到嵌套循环了 来看看结构&#xff1a; for(变量类型1 变量;条件1;返回值1){语句1;for(变量类型 变量2;条件2;返回值2){语句2;}语句3; } 语句1,2,3是依次…

ThingsBoard远程RPC调用设备

使用 RPC 功能 客户端 RPC 从设备发送客户端 RPC 平台处理客户端RPC 服务器端 RPC 服务器端RPC结构 发送服务器端RPC 使用 RPC 功能 ThingsBoard 允许您从服务器端应用程序向设备发送远程过程调用 (RPC)&#xff0c;反之亦然。基本上&#xff0c;此功能允许您向设备发送命…

关于discuz论坛网址优化的一些记录(伪静态)

最近网站刚上线&#xff0c;针对SEO做了些操作&#xff0c;为了方便网站网页被收录&#xff0c;特此记录下 1.开启伪静态 按照操作勾选所有项&#xff0c;然后点击查看伪静态规则 2.打开宝塔&#xff0c;找到左侧列表的网站&#xff0c;然后找到相应站点的设置。把discuz自动…

科普:嵌入式代码软件在环(SiL)测试的可靠性

关键词&#xff1a;嵌入式系统、软件在环&#xff08;SiL&#xff09;、测试、生命周期 01.简介 当前&#xff0c;嵌入式系统开发的大趋势为通过软件实现大量的硬件功能&#xff0c;这导致软件的复杂程度显著上升——代码开发成本和风险也成倍增加。复用已有系统中的软件组件…

【数据结构(邓俊辉)学习笔记】绪论05——动态规划

文章目录 0.前言1. Fibonacci数应用1.1 fib&#xff08;&#xff09;&#xff1a;递归1.1.1 问题与代码1.1.2 复杂度分析1.1.3 递归分析 1.2 fib&#xff08;&#xff09;&#xff1a;迭代 0.前言 make it work,make it right,make it fast. 让代码能够不仅正确而且足够高效地…

明日周刊-第7期

转眼间就又快到了五一假期&#xff0c;小长假有什么计划吗。封面配图是杭州高架上的月季花&#xff0c;非常好看。 文章目录 一周热点资源分享言论歌曲推荐 一周热点 鸿蒙系统持续扩大影响力&#xff1a;近期&#xff0c;华为官方宣布广东省已有超过600款应用加入鸿蒙系统&…

大模型的研究新方向:混合专家模型(MoE)

大模型的发展已经到了一个瓶颈期,包括被业内所诟病的罔顾事实而产生的“幻觉”问题、深层次的逻辑理解能力、数学推理能力等,想要解决这些问题就不得不继续增加模型的复杂度。随着不同应用场景的实际需求,大模型的参数会变得越来越大,复杂性和规模不断的增加,尤其是在多模…

C# 生成图形验证码

目录 应用场景 开发运行环境 设计 生成内容 生成图片 实现 核心代码 调用示例 小结 应用场景 我们当用户登录系统时经常会用到图形验证码技术&#xff0c;要求用户识别图片中的内容&#xff0c;并正确输入&#xff0c;方可尝试登录。类似的场景还有用户注册或者涉及…

svg图标填充渐变色及CSS鼠标悬停纯色渐变色转换

svg图标填充渐变色及CSS鼠标悬停纯色渐变色转换&#xff1a; HTML&#xff1a; <!--底部导航--> <ul class"milliaNav"> <li class"active"><a href"#"> <svg class"icon" viewBox"0 0 1024 1024&qu…

随手记:树结构翻页和定位指定数据逻辑

业务背景&#xff1a; 树形组件展示数据&#xff0c;数据包含过去数据&#xff0c;现在数据&#xff0c;未来数据&#xff0c;用户在首次进入页面时&#xff0c;展示的是当天的数据&#xff0c;如果当天没有数据&#xff0c;则显示最近一条的过去数据。数据按照时间越长数据会…

【AMBA Bus ACE 总线 5 -- Non-cached master】

文章目录 Non-cached masterNon-cached master 图 1-1 Non-cached master 意思就是,比如对于master0,它想写的时候,就直接发起transaction,它不是对自己的local cache进行操作,比如以non-shareable write 为例,master0在写的时候分别在AW,和 W channel发起命令和数据,见…

CV | 360BEV: Panoramic Semantic Mapping for Indoor Bird‘s-Eye View理解

本文主要是对于论文360BEV的解读和实现。 Paper:2023.03_360BEV: Panoramic Semantic Mapping for Indoor Birds-Eye View 360BEV&#xff1a;室内鸟瞰全景语义映射 arxiv.org/pdf/2303.11910 Code:jamycheung/360BEV: Repository of 360BEV (github.com) Demo:360BEV (jamyche…