ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。


本期内容速览

01. 应对深度强化学习中的信号延迟问题

02. 级联强化学习

03. DyVal:首个大语言模型的动态评测协议

04. KOSMOS-2:将多模态语言模型同视觉世界连接对应

05. MG-TSD:基于引导学习过程的多粒度时间序列扩散模型

应对深度强化学习中的信号延迟问题

new-arrival-in-research-11-1

论文链接:https://openreview.net/forum?id=Z8UfDs4J46

近年来,深度强化学习(DRL)及其应用迅速发展,它不仅在虚拟任务(如视频游戏和模拟机器人环境)上取得了成功,也在许多具有挑战性的现实世界任务中得到了证明,例如控制托卡马克和通过人类反馈调整大语言模型。然而,导致智能体可能无法立即观察到当前环境状态或其行动无法立即影响环境的信号延迟,在深度强化学习研究中长期存在且经常被忽视。该问题广泛存在于各种实际应用中,对基于深度强化学习解决方案的有效性产生了重大影响,因此该挑战迫切需要研究进行应对。

为了解决 DRL 中的信号延迟问题,研究员们首先通过扩展马尔可夫决策过程框架来定义延迟观测马尔可夫决策过程(DOMDP),从而将信号延迟的情况纳入考虑之中。然后,研究员们在论文中阐明了 DRL 里信号延迟存在的挑战,并展示了常规 DRL 算法和部分可观测马尔可夫决策过程(POMDP)的通用方法受到延迟的严重影响。

针对这些挑战,研究员们提出了一系列新方法,旨在提高存在延迟时 DRL 算法的性能。结合理论见解和实际算法调整,研究员们扩展了传统的 actor-critic 框架,并提出了有效的策略来克服这些挑战。充分的实验结果表明,在具有较大延迟的连续机器人控制任务中,采用该论文提出的方法后,DRL 算法取得了卓越的性能,其结果与无延迟情况相比,性能损失较小。

图1:该论文中的方法(红色虚线)可以在有信号延迟的情况下保持较好的效果,而其他常用的方法在有延迟的情况下表现显著下降(作为对比,黑色虚线是没有信号延迟情况下的表现)。

图1:该论文中的方法(红色虚线)可以在有信号延迟的情况下保持较好的效果,而其他常用的方法在有延迟的情况下表现显著下降(作为对比,黑色虚线是没有信号延迟情况下的表现)。

这项研究在解决 DRL 中一个基本挑战方面迈出了重要的一步,不仅拓宽了其在现实环境中的应用范围,也为自主系统的持续发展做出了贡献。通过开发有效应对信号延迟的方法,研究员们增强了 DRL 的实用性和可靠性,为其在非理想条件下的应用奠定了基础。

级联强化学习

new-arrival-in-research-11-3

论文链接:https://arxiv.org/abs/2401.08961

近年来,一种名为级联多臂老虎机(cascading bandits)[Kveton et al., 2015]的模型受到了广泛关注,在推荐系统、在线广告中应用广泛。在级联多臂老虎机中,智能体需要在众多选项中挑选一个选项列表推荐给用户,每个选项都有一个未知的吸引概率。智能体的目标则是不断优化推荐的选项列表,以最大化期望累积奖励(点击率)。

然而,现有的级联多臂老虎机模型忽略了用户状态(如用户历史行为)对推荐的影响,以及用户状态可能的改变。为了解决这一问题,微软亚洲研究院的研究员们提出了一种名为级联强化学习(cascading reinforcement learning)的模型。在该模型中,每个用户状态-选项的匹配对有一个未知的吸引概率、一个未知的状态转移分布和一个奖励。如图2所示,在每个时刻,智能体会先观察到当前的用户状态,然后推荐一个长度为 m 的选项列表。如果用户对某一选项感兴趣并点击,那么用户将转移到下一状态,智能体则会获得一个奖励。智能体的目标是最大化期望累积奖励,因此该模型能有效地将用户状态及其变化纳入推荐过程中。

图2:级联强化学习模型

图2:级联强化学习模型

针对该模型,研究员们首先基于动态规划设计了一个快速离线求解器 BestPerm,它能够在多项式时间内计算出最优的选项列表。然后,研究员们提出了强化学习算法 CascadingVI,该算法能够达到 O ̃(H√HSNK) 的后悔度(regret)上界,这个结果只依赖于选项的个数 𝑁, 而与选项列表的个数(约 N^m)无关。因此,该算法能同时保证采样和计算的高效性。

DyVal:首个大语言模型的动态评测协议

new-arrival-in-research-11-5

论文链接:https://arxiv.org/abs/2309.17167

项目链接:https://github.com/microsoft/promptbench

DyVal 2 论文链接:https://arxiv.org/abs/2402.14865

大语言模型(LLMs)通常都是在海量的数据上进行训练,而这就导致了潜在的测试数据污染问题:公开的测试数据,如 MMLU 等,会不可避免地被纳入训练集或有针对性地 overfit 测试集。“如何保证测试数据能够合理且正确的评估大语言模型”引起了学术界的广泛关注。

对此,研究员们提出了 DyVal(Dynamic Evaluation,动态评测协议),该协议利用有向无环图(directed acyclic graphs, DAGs)动态生成测试数据,从而降低了测试数据被模型记忆的可能性。此外,DyVal 生成的评测数据还可以作为语言模型的数据增强手段。例如,使用 DyVal 生成的数据对 Llama2-7b 模型进行微调,可有效地提升模型在众多推理数据集(如GSM8K、FOLIO等)上的表现。动态评测是大语言模型评测的一个新方向,研究员们期待越来越多的工作出现在这一领域,以帮助人们更好地理解模型的实际能力。

研究结果表明:

大语言模型在现有静态基准和 DyVal 之间的性能表现存在显著差异:例如,phi-1.5、Xwin 和 Wizard 模型在现有的基准测试中取得了优异的成绩,但是它们在研究员们的评估中表现不佳。这一现象突显了仅在静态基准测试中评测大语言模型时的潜在问题,同时也揭示了可能存在的低训练数据质量或数据污染的风险。

难以应付复杂数据集:从 D1 到 D4,模型性能显著下降,这突显了随着数据集复杂度的提升,大语言模型所遭遇的困难越来越大。例如,随着复杂度的增加,GPT-4 在算术任务上的性能下降了23%。值得注意的是,所有模型在归纳逻辑(从结论推导前提)方面的表现都普遍低于演绎逻辑(从前提推导结论),这一现象也证实了大模型推导 "A -> B" 时比 "B -> A" 时表现更为出色。此外,GPT-4 和 GPT-3.5 之间的性能差异虽然在像 D1 这样的简单任务中微不足道,但在复杂任务中却变得非常明显。这表明我们需要更复杂的多任务,以有效评估模型的能力。

图3:DyVal 示意图

图3:DyVal 示意图

KOSMOS-2:将多模态语言模型同视觉世界连接对应

new-arrival-in-research-11-7

论文链接:https://arxiv.org/abs/2306.14824

Demo 链接:https://build.nvidia.com/microsoft/microsoft-kosmos-2

KOSMOS-2 是一个多模态语言模型,具备两种新的能力——Grounding 和 Referring。Grounding 能力可以使得模型能够通过例如边界框(bounding boxes)的方式,将文本输出与视觉世界中的物体或区域相连接,进而提供更加丰富的回答,减少共指歧义,并支持更多的视觉-语言任务。Referring 则允许用户通过例如边界框的方式,选择视觉世界中的物体或区域作为模型的输入,但不需要提供详细的文本描述来指代它们,从而实现更加方便的人机交互。依托于 Grounding 和 Referring 能力,KOSMOS-2 提供了一个更灵活、更通用的视觉-语言任务人机界面。

为了解锁 KOSMOS-2 的新能力,研究员们基于大规模的图像-文本对数据构建了 GRIT(grounded image-text pairs) 数据集,将文本描述与图片中的物体或区域进行对应连接。研究员们把物体或者区域的位置坐标转变成位置标记(location tokens),并通过“超链接”的方式,将文本描述与对应的位置标记连接到一起,使模型能够理解并学习这些对应关系。

图4:KOSMOS-2 框架图

图4:KOSMOS-2 框架图

KOSMOS-2 在引入新能力的同时,也保留了多模态语言模型的的常规功能。实验结果表明,KOSMOS-2 在多模态 Grounding 和 Referring 任务上取得了优异的成绩,同时在一些基础的视觉图像任务以及自然语言理解和生成方面也表现出色。KOSMOS-2 融合了语言、多模态感知与世界建模的能力,标志着迈向人工通用智能的关键一步。

MG-TSD:基于引导学习过程的多粒度时间序列扩散模型

new-arrival-in-research-11-9

论文链接:https://arxiv.org/abs/2403.05751

项目链接:https://github.com/Hundredl/MG-TSD

时间序列预测在金融、能源规划、气候建模和生物科学等多个领域都有着重要应用。近年来,许多研究开始采用生成式模型来解决时间序列预测问题,其中,基于扩散模型的研究因其出色的概率预测性质而备受关注。然而,与基于自回归模型的确定性模型相比,扩散模型在时间序列预测任务中面临的一个挑战在于,其随机性导致的不稳定性更为显著。

为了解决扩散模型在时间序列预测中的不稳定性问题,微软亚洲研究院的研究员们提出了一种新颖的多粒度时间序列扩散(MG-TSD)模型。该模型利用数据内在的多粒度水平作为中间扩散步骤的目标,以引导扩散模型的学习过程。研究员们构建目标的方式是受到了一个观察的启发,即扩散模型的前向过程逐渐使数据分布退化到标准正态分布,这一过程与将精细数据平滑成粗粒度表示的过程相吻合,因为这两个过程都导致了细分布特征的逐渐丧失。

具体而言,研究员们引入了一个新颖的多粒度引导扩散损失函数,并提出了一种简洁的实现方法,来有效利用不同粒度水平上的粗粒度数据。研究员们设定了自监督的学习目标作为中间潜在状态的约束,并使其形成一个正则化的采样路径,从而保留了粗粒度数据内的趋势和模式。通过引入这种归纳偏差,研究员们促进了在中间步骤中生成更粗的特征,并有助于在随后的扩散步骤中恢复更细的特征。因此,这种设计降低了不稳定性,产生了高质量的预测结果。

图5:多粒度时间序列扩散(MG-TSD)模型框架,包括三个关键模块:多粒度数据生成器、时间过程模块(TPM)和用于特定粒度级别时间序列预测的引导扩散过程模块

图5:多粒度时间序列扩散(MG-TSD)模型框架,包括三个关键模块:多粒度数据生成器、时间过程模块(TPM)和用于特定粒度级别时间序列预测的引导扩散过程模块

实验结果表明,MG-TSD 模型在不同领域的真实世界的时间序列预测任务上都能够有效地进行预测,并具有优异的稳定性和鲁棒性。此外,该模型不依赖于额外的外部数据,使其在各种领域都具有广泛的适用性。

MG-TSD 模型为解决时间序列预测中的不稳定性问题提供了一个创新的解决方案,为未来的研究和应用提供了新的方向和可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/619872.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AlphaFold3—转录因子预测(实操)

写在前面 我们上一次已经介绍了如何使用AlphaFold3:最新AlphaFold 3:预测所有生物分子结构、相互作用 AlphaFold3可以做什么? 1.AlphaFold服务器可以对以下生物分子类型进行建模,评价其相互结合: 蛋白质 DNA RNA 生…

计算机网络-DHCPv6基础

前面我们学习了IPv6地址可以通过手动配置、无状态自动配置、DHCPv6配置,这里简单学习下DHCPv6的知识点。 一、DHCPv6概述 DHCPv6 (Dynamic Host Configuration Protocol for IPv6) 是一种网络协议,设计用于IPv6网络环境中自动为网络设备分配必要的配置信…

java -jar提示jar中没有主清单属性(no main manifest attribute)

目录 传送门前言排查原因问题1-》jdk17和jdk8共存导致idea的maven插件识别报错问题2-》pom.xml中mainClass下面的skip属性是罪魁祸首 其他办法(修改jar包) 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品&…

InfiniGate自研网关实现四

13.服务发现组件搭建和注册网关连接 以封装 api-gateway-core 为目的,搭建 SpringBoot Starter 组件,用于服务注册发现的相关内容处理。 这里最大的目的在于搭建起用于封装网关算力服务的 api-gateway-core 系统,提供网关服务注册发现能力。…

Mysql 多表查询,内外连接

内连接: 隐式内连接 使用sql语句直接进行多表查询 select 字段列表 from 表1 , 表2 where 条件 … ; 显式内连接 将‘,’改为 inner join 连接两个表的 on select 字段列表 from 表1 [ inner ] join 表2 on 连接条件 … ; select emp.id, emp.name, …

宝塔安装多个版本的PHP,如何设置默认的PHP版本

如何将默认的PHP版本设置为7.3.32, 创建软链接指向7.3版本,关键命令:ln -sf /www/server/php/73/bin/php /usr/bin/php 然后再查看PHP版本验证一下结果 [rootlocalhost ~]# ln -sf /www/server/php/73/bin/php /usr/bin/php [rootlocalho…

Mysql进阶-sql优化篇

sql优化 sql优化insert优化批量插入手动提交事务主键顺序插入大批量插入数据 主键优化数据组织方式页分裂页合并主键设计原则 order by 优化原则 group by优化limit优化count 优化count的几种用法 update优化 sql优化 insert优化 批量插入 Insert into tb_test values(1,Tom…

一文读懂设计模式-单例模式

单例模式(Singleton Pattern)提供了一种创建对象的最佳方式 单例模式涉及到一个单一的类,该类负责创建自己的对象,同时确保只有单个对象被创建,这个类提供了一种访问其唯一的对象的方式,可以直接访问&…

IPD推行成功的核心要素(四)IPD究竟分几期做更合适?

集成产品开发 IPD体系(Integrated Product Developm e nt)是产品创新型企业关于产品开发(从概念到产品开发、发布直至退市的全过程)的一种理念与方法。IPD体系强调以市场需求作为产品开发的驱动力,将产品开发作为一项投…

快手短剧,和爱优腾踏入同一条河流

文丨黄小艺 “我们定制短剧的重心排序分别是抖音、淘宝、快手。”MCN机构从业者周明(化名)说道,“无论是单条还是品牌冠名剧,我们在快手短剧拿到的收益都相对偏低。” 近期,商业数据派和多家机构创作者沟通后发现&am…

Windows系统安装MongoDB数据库

MongoDB是一个基于分布式文件存储的NoSQL数据库,由C语言编写的。MongoDB的数据存储基本单元是文档,它是由多个键值对有序组合的数据单元,类似于关系数据库中的数据记录。适合存储JSON形式的数据,数据格式自由,不固定。…

区块链共识机制的演进

分布式系统的基本概念 FLP不可能原理和CAP原理 FLP 不可能原理(FLP impossibility):在网络可靠,存在节点失效(即便只有一个)的最小化异步模型系统中,不存在一个可以解决一致性问题的确定性算法…

动手实践DDD领域驱动设计,DDD到底好不好用?真有那么神吗

文章目录 一、到底什么是DDD1、传统的MVC三层架构2、DDD到底解决了什么问题3、DDD四层架构4、为什么需要舍弃MVC而用DDD 二、DDD改造实战1、充血模型2、避免大实体3、Dao改造4、构建防腐层5、抽象中间件6、使用领域服务,封装跨实体业务7、使用设计模式8、改造结果9、…

自然资源-城市更新从立项到开发全流程梳理

自然资源-城市更新从立项到开发全流程梳理 一、城市更新项目分类 (一)按改造力度划分:整治、改建和拆建 按照改造力度由弱到强,城市更新项目可分为 整治类、改建类和 拆建类三种类型。不同城市命名略有不同,但实质相…

知识付费行业数字化转型:转的是什么?你知道吗!

在知识付费的浪潮中,数字化转型正悄然改变着这个行业的格局!那么,知识付费行业数字化转型到底转的是什么呢?这是一个值得我们深入探讨的问题。 1.转的是商业模式:从传统的销售模式转向多元化的盈利模式。从简单的买卖关…

Pycharm2024版,更换安装源

1、选择Python Packages 2、点击图中的小齿轮 3、点击 号 4、添加源地址 常用源如下: 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn…

MySQL·索引

目录 索引的意义 索引的理解 为何IO交互要是 Page 理解Page 其他数据结构为何不行? 聚簇索引 VS 非聚簇索引 索引操作 主键索引操作 唯一键索引操作 普通索引的创建 总结 全文索引 索引的意义 索引:提高数据库的性能,索引是物美…

挖洞不懂JS?没关系!一个BP小技巧让你快速在JS代码中找到关键信息

我们在漏洞挖掘的时候,一个很重要的方式是对网站的JavaScript代码做审计,比如 找到了一堆path,但是不知道参数,也fuzz不出来,一个可能的未授权接口就只能放弃 数据被加密了,但是不知道算法,需要…

HTML五彩缤纷的爱心

写在前面 小编准备了一个五彩缤纷的爱心,送给各位小美女们~ 在桌面创建一个.txt文本文件,把代码复制进去,将后缀.txt改为.html,然后就可以双击运行啦! HTML简介 HTML(超文本标记语言)是一种…

【HCIP学习】BGP对等体组、聚合、路由反射器、联盟、团体属性

一、大规模BGP网络所遇到的问题 BGP对等体众多,配置繁琐,维护管理难度大 BGP路由表庞大,对设备性能提出挑战 IBGP全连接,应用和管理BGP难度增加,邻居数量过多 路由变化频繁,导致路由更新频繁 二、解决大…