长视频生成、尝试性检索、任务推理 | Big Model Weekly 第56期

点击蓝字

78956f8571c5d504ec0c8d0aa4eaa81e.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

COMAL:AConvergent Meta-Algorithm for Aligning LLMs with General Preferences

许多对齐方法,包括基于人类反馈的强化学习(RLHF),依赖于布拉德利-特里(Bradley-Terry)奖励假设,然而这一假设无法充分捕捉人类偏好的全范围。为了实现与一般偏好的稳健对齐,本文将对齐问题建模为一个二人零和博弈,其中纳什均衡策略能够保证在对抗任何竞争策略时的胜率达到50%。然而,以往用于寻找纳什策略的算法要么发散,要么收敛到修改后的博弈中的纳什策略,即使在简单的合成环境中,也无法保持对所有其他策略的50%胜率保证。本文提出了一种用于语言模型与一般偏好对齐的元算法——收敛性元对齐算法(Convergent Meta Alignment Algorithm, COMAL),其灵感来源于博弈论中的收敛算法。理论上,本研究证明该元算法在最终迭代中能够收敛到精确的纳什策略。此外,该元算法简单易用,可以与许多现有的针对RLHF和偏好优化的方法相结合,且仅需进行最小的改动。实验结果表明,当与现有的偏好策略优化方法结合时,所提出的框架能够有效发挥作用。

27580459d5d30cda2c3632b5de908f05.png

5f4341c17d446782d9e050ce0f35b019.png

cb48dec81ff07cc7ecf76681f55bfd1e.png

文章链接:

https://arxiv.org/pdf/2410.23223

02

Why Fine-grained Labels in Pretraining Benefit Generaliza tion?

近期研究表明,使用细粒度标注数据对深度神经网络进行预训练,随后在下游任务中使用粗粒度标注数据进行微调,通常比仅使用粗粒度标注数据进行预训练获得更好的泛化性能。尽管有大量的实证研究支持这一现象,但其理论依据仍然是一个未解决的问题。本文通过引入“层次多视图”结构来约束输入数据分布,填补了这一空白。在该框架下,本文证明了:1)粗粒度预训练仅能使神经网络很好地学习到共同特征,而2)细粒度预训练则有助于网络在学习共同特征的同时,还能够学习到稀有特征,从而在困难的下游测试样本上提高准确性。

5729e4eaebfe5f2dbfd487c5bfb3d11a.png

1b08d8ce97f4fee1080e43e5a2f92ac2.png

1b398fc0de058d00f774c87e39a07148.png

9b8c4d2ea1b8708845d11bf399075b7c.png

文章链接:

https://arxiv.org/pdf/2410.23129

03

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

人类拥有互补的学习系统,能够将对一般世界动态的缓慢学习与从新体验中快速存储情景记忆相结合。然而,以往的视频生成模型主要关注通过大量数据预训练实现的缓慢学习,忽略了对情景记忆存储至关重要的快速学习阶段。这种忽视导致在生成较长视频时,时间上相隔较远的帧之间会出现不一致,因为这些帧超出了模型的上下文窗口范围。为此,本文提出了SLOWFAST-VGEN,这是一个用于行为驱动的长视频生成的新型双速学习系统。该方法结合了一个用于缓慢学习世界动态的掩码条件视频扩散模型,以及一个基于时间LoRA模块的推理时快速学习策略。具体而言,快速学习过程会根据局部输入和输出更新其时间LoRA参数,从而高效地将情景记忆存储在其参数中。本文进一步提出了一种慢-快学习循环算法,将内部快速学习循环无缝整合到外部缓慢学习循环中,使模型能够回忆起之前的多情景体验,以实现具有上下文感知能力的技能学习。为了促进对近似世界模型的缓慢学习,作者收集了一个包含20万段视频的大型数据集,这些视频附带语言行为注释,涵盖了广泛的情景。大量实验表明,SLOWFAST-VGEN在行为驱动的视频生成的各种指标上均优于基线模型,其FVD得分为514,而基线模型为782,并且在较长视频中保持了更好的一致性,平均场景切换次数为0.37,相比之下基线模型为0.89。此外,慢-快学习循环算法在长视野规划任务中也显著提升了性能。

ae32e5d2f95387dda3a7a9acb74ca29f.png

5a2300379be3a53a228aa749ca1f8646.png

4d3eceeddf547053c842a4a532254924.png

e055b04421c14ed3edc6170e209cab34.png

文章链接:

https://arxiv.org/pdf/2410.23277

04

Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

大语言模型(LLMs)的幻觉问题正通过允许其搜索信息并将其回答基于真实来源来逐步缓解。然而,LLMs在提出正确的搜索查询时常常面临困难,尤其是在处理复杂或间接的主题时。鉴于LLMs可以通过尝试不同的查询来学习搜索相关事实,并对成功检索到相关信息的查询赋予更高的权重,本文提出了一种名为“通过尝试学习检索”(Learning to Retrieve by Trying, LeReT)的强化学习框架。该框架通过探索搜索查询并利用基于偏好的优化方法来提升查询质量。LeReT能够将检索准确率提升多达29%,并将下游生成器的评估指标提升17%。LeReT的简单性和灵活性使其能够应用于任意现成的检索器,并使其成为改进通用LLM流程的有前景的技术。

983b9aa8dde67113b070e9c42b93b4a5.png

edaeab3db06e6a1fddedaa9f779604f7.png

81867243eb03d148373d0efc8f5e09ac.png

85f9c3cbe0455a1b9dae14a48a5da7ae.png

3b1c0e37fdcb9a4073843b8132b094f9.png

c06ce439d342110feaf5b0e4533fcc16.png

文章链接:

https://arxiv.org/pdf/2410.23214

05

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

近年来,强化学习(RL)领域出现了一种趋势,即通过序列建模在大规模数据集上离线训练大型动作模型。现有的模型主要基于Transformer架构,从而实现了强大的智能体。然而,由于推理速度较慢,基于Transformer的方法在实时应用(例如机器人技术)中并不实用。最近,提出了一些现代循环架构,例如xLSTM和Mamba,这些架构在训练过程中具有与Transformer架构类似的并行化优势,同时提供了快速推理的能力。在本研究中,作者探讨了这些现代循环架构在大型动作模型中的适用性,并提出了一种以xLSTM为核心、具有线性时间推理复杂度和自然序列长度外推能力的大型循环动作模型(LRAM)。在来自6个领域的432个任务上的实验表明,LRAM在性能和速度方面与Transformer相当。

c1d299aedb6520c9d646c05673d9ab6f.png

b551fb31766416c0edba6de057aa87cf.png

08a9f4a37a249801cd50196c715ab651.png

b76e382b8f3bc2f47888d07162e80e95.png

1af5d97318bb7428ca2ae27b440772a1.png

文章链接:

https://arxiv.org/pdf/2410.22391

06

Project MPG: towards a generalized performance benchmark for LLM capabilities

目前存在大量用于评估大语言模型(LLM)的基准测试任务,但在决策过程中,尤其是对于非专业人士来说,一个单一的数字往往是更具可操作性的信息。然而,目前尚未有一种非基于Elo评分系统的聚合方法,而Elo系统可能成本高昂或耗时较长。鉴于此,本文提出了一种用于聚合一般基准测试空间中模型性能的方法,称为“MPG项目”,即“Model Performance and Goodness”(模型性能与优劣)。这一名称也隐喻性地引用了一个广为人知但并不准确且粗糙的汽车性能指标。在此框架下,本文创建了两个数字指标:一个“优劣”数字(答案准确性)和一个“速度”数字(成本或每秒查询次数,QPS)。通过将不同模型相互比较,本文根据这一通用指标以及子领域呈现了模型的排名。研究发现,本文的得分与Chatbot Arena的得分之间存在显著的皮尔逊相关性,甚至在相关性上优于MMLU排行榜与Chatbot Arena之间的相关性。

c86b736d624b8285d5d2c55fb228655e.png

29fc1baff344558450b5628ea464cec9.png

323fc77cae5df926e05ce69e5d3f2114.png

文章链接:

https://arxiv.org/pdf/2410.22368

07

Image2Struct: Benchmarking Structure Extraction for Vision-Language Models

本文介绍了Image2Struct,这是一个用于评估视觉-语言模型(VLMs)从图像中提取结构能力的基准测试。该基准测试具备以下特点:1)涵盖真实世界的应用场景;2)完全自动化,无需人工判断;3)基于可更新的数据流。在Image2Struct中,视觉-语言模型被提示从输入图像(例如网页截图)中生成底层结构(例如LaTeX代码或HTML)。生成的结构随后被渲染以产生输出图像(例如渲染后的网页),并与输入图像进行比较以生成相似性评分。这种往返评估方法使得我们能够定量评估视觉-语言模型在具有多种有效结构的任务上的表现。

本文构建了一个数据管道,能够在执行时从活跃的在线社区下载最新数据,并在无需人工干预的情况下对视觉-语言模型进行评估。本文引入了三个领域(网页、LaTeX和乐谱),并采用五种图像度量方法(像素相似性、Inception向量之间的余弦相似性、学习到的感知图像块相似性、结构相似性指数和地球移动相似性),以实现图像对之间的高效自动比较。本文在14种突出的视觉-语言模型上对Image2Struct进行了评估,发现评分差异较大,表明Image2Struct能够区分不同视觉-语言模型的性能。此外,不同领域的最高评分差异显著(例如,乐谱上的评分为0.402,而LaTeX公式上的评分为0.830),这表明Image2Struct包含不同难度的任务。

47a3261d78f06b87ea2d44123ce6bc8c.png

a850e81ee68c35e7efbd5e8aefe30a0d.png

6309caef539c2b07d5fa45ee355be294.png

a24d75a87ec90a175728949ecb3901c7.png

文章链接:

https://arxiv.org/pdf/2410.22456

本期文章由陈研整理

往期精彩文章推荐

48a72252fdef0e11642c6bfff5e22bd7.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 6bc6f08119f3dcb9c821788b5130c58d.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

dd0f20bf597aac950d8b05b679fc601d.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/971238.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32 串口转 虚拟串口---实现USB转串口功能

一,USART与UART 区别 USART(Universal Synchronous/Asynchronous Receiver/Transmitter)通用同步/异步串行接收/发送器 相较于UART:通用异步收发传输器(Universal Asynchronous Receiver/Transmitter)多了…

将OpenWrt部署在x86服务器上

正文共:1234 字 40 图,预估阅读时间:2 分钟 如果你问ChatGPT有哪些开源的SD-WAN方案,他会这样答复你: 我们看到,OpenWrt也属于比较知名的开源SD-WAN解决方案。当然,在很久之前,我就发…

EtherNetIP转ModbusTCP网关,给风电注入“超级赛亚人”能量

EtherNetIP转ModbusTCP网关,给风电注入“超级赛亚人”能量 在工业通信领域,常常需要将不同网络协议的设备和系统连接起来,以实现更高效的数据交互和系统集成。比如,把EtherNet/IP设备及其网络连接到ModbusTCP网络系统&#xff0c…

【LeetCode】438.找到字符串中所有的字母异位词

目录 题目题目要求什么是“异位词”?如何快速判断两个字符串是否是“异位词”? 解法 滑动窗口 哈希表 (统计个数)核心思路具体步骤 代码 题目 题目链接:LeetCode-438题 给定两个字符串 s 和 p,找到 s 中所…

【设计模式】【结构型模式】装饰者模式(Decorator)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 👍 欢迎点赞、收藏、关注,跟上我的更新节奏 🎵 当你的天空突…

基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南

一、 前言:拥抱vLLM与T4显卡的强强联合 在探索人工智能的道路上,如何高效地部署和运行大型语言模型(LLMs)一直是一个核心挑战。尤其是当我们面对资源有限的环境时,这个问题变得更加突出。原始的DeepSeek-R1-32B模型虽…

Windows环境搭建ES集群

搭建步骤 下载安装包 下载链接:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.27-windows-x86_64.zip 解压 解压并复制出3份 es-node1配置 config/elasticsearch.yml cluster.name: xixi-es-win node.name: node-1 path.data: D:\\wor…

STM32 I2C通信协议说明

目录 背景 I2C协议 数据的有效性 I2C通信开始和停止条件 I2C数据传输 发送 响应 正常情况: 异常情况: 主机结束接收 写寄存器的标准流程 读寄存器的标准流程 仲裁机制 时钟同步 SDA线的仲裁 程序 背景 对单片机的三大通信中的I2C通信进…

Unity学习part2

为bilibili教程【【Unity教程】零基础带你从小白到超神】 https://www.bilibili.com/video/BV1gQ4y1e7SS/?p50&share_sourcecopy_web&vd_source6e7a3cbb802eb986578ad26fae1eeaab的笔记 1、灯光的使用 定向光模拟太阳,是平行光。旋转定向光,光…

Vue 实现主题切换(明暗)

项目地址:https://gitee.com/abcdfdewrw/vue3_xiaohongshu_project 效果展示: 步骤1:定义明暗scss样式 // 浅色模式 html[data-theme"light"]:root {--header-height: 72px;--color-border-bottom: #eef2f9;--color-primary-lab…

rabbitmq五种模式的总结——附java-se实现(详细)

rabbitmq五种模式的总结 完整项目地址:https://github.com/9lucifer/rabbitmq4j-learning 一、简单模式 (一)简单模式概述 RabbitMQ 的简单模式是最基础的消息队列模式,包含以下两个角色: 生产者:负责发…

数据结构 day02

3. 线性表 3.1. 顺序表 3.1.3. 顺序表编程实现 操作:增删改查 .h 文件 #ifndef __SEQLIST_H__ #define __SEQLIST_H__ #define N 10 typedef struct seqlist {int data[N];int last; //代表数组中最后一个有效元素的下标 } seqlist_t;//1.创建一个空的顺序表 seq…

STM32的HAL库开发---ADC

一、ADC简介 1、ADC,全称:Analog-to-Digital Converter,指模拟/数字转换器 把一些传感器的物理量转换成电压,使用ADC采集电压,然后转换成数字量,经过单片机处理,进行控制和显示。 2、常见的AD…

25/2/16 <算法笔记> DirectPose

DirectPose 是一种直接从图像中预测物体的 6DoF(位姿:6 Degrees of Freedom)姿态 的方法,包括平移和平面旋转。它在目标检测、机器人视觉、增强现实(AR)和自动驾驶等领域中具有广泛应用。相比于传统的位姿估…

企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析

解决方案链接:https://www.aliyun.com/solution/tech-solution/deepseek-r1-for-platforms?utm_contentg_1000401616 何为DeepSeek R1 DeepSeek R1模型有诸多技术优势。高效架构设计使其能更高效提取特征,减少冗余计算,提升数据处理速度、…

137,【4】 buuctf web [SCTF2019]Flag Shop

进入靶场 都点击看看 发现点击work会增加¥ 但肯定不能一直点下去 抓包看看 这看起来是一个 JWT(JSON Web Token)字符串。JWT 通常由三部分组成,通过点(.)分隔,分别是头部(Header&…

ThinkPHP8视图赋值与渲染

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 在控制器操作中,使用view函数可以传入视图…

渗透利器:YAKIT 工具-基础实战教程.

YAKIT 工具-基础实战教程. YAKIT(Yak Integrated Toolkit)是一款基于Yak语言开发的集成化网络安全单兵工具,旨在覆盖渗透测试全流程,提供从信息收集、漏洞扫描到攻击实施的自动化支持。其核心目标是通过GUI界面降低Yak语言的使用…

Fiori APP配置中的Semantic object 小bug

在配置自开发程序的Fiori Tile时,需要填入Semantic Object。正常来说,是需要通过事务代码/N/UI2/SEMOBJ来提前新建的。 但是在S4 2022中,似乎存在一个bug,即无需新建也能输入自定义的Semantic Object。 如下,当我们任…

shell——分支语句

文章目录 基本语法常用判断条件(1)两个整数之间比较(2)按照文件权限进行判断(3)按照文件类型进行判断(4)多条件判断(&& 表示前一条命令执行成功时,才执行后一条命令&#xf…