Big Model weekly | 第49期

点击蓝字

8bdb63c89d540e6a4656fc5e9008c805.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment

自我对弈方法在多个领域增强模型能力方面展现出了显著的成功。在基于人类反馈的强化学习(RLHF)背景下,自我对弈不仅提升了大型语言模型(LLM)的性能,还通过找到基于偏好的两玩家恒和游戏中的纳什均衡(NE),克服了传统Bradley-Terry(BT)模型假设的限制。然而,现有的方法要么只保证平均迭代收敛,导致高昂的存储和推理成本,要么收敛到一个正则化游戏的NE,未能准确反映真实的人类偏好。在本研究中,作者介绍了一种新颖的方法——磁力偏好优化(MPO),它能够实现对原始游戏NE的最后迭代收敛,有效地克服了现有方法的局限性。MPO基于磁力镜像下降(MMD)构建,达到了线性收敛速度,特别适合于微调LLMs。为了确保我们的算法在理论上是合理的,并且在实践中是可行的,我们提出了一个简单而有效的实现,将理论洞见适应到RLHF设置中。实证结果表明,MPO可以显著提高LLMs的性能,突出了自我对弈方法在对齐方面的潜力。

4786e7edee97ca5e630505417c97d593.png

09d53409b712f3fe2bc4311f09ca9568.png

a1b9474ef8d97f686a6365cd194b146d.png

3938413c183ba7102f31ef35dd7530e1.png

文章链接:

https://arxiv.org/pdf/2410.16714

02

DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding

文档结构编辑涉及根据用户的请求,在文档图像中操作局部化的文本、视觉和布局组件。过去的研究表明,在文档图像中对用户请求进行多模态定位以及识别准确的结构组件及其相关属性,仍然是这项任务的关键挑战。为了解决这些问题,本文介绍了DocEdit-v2,这是一个新颖的框架,它通过利用大型多模态模型(LMMs)来执行端到端的文档编辑。它由三个新颖组件组成——(1)Doc2Command,用于同时定位编辑区域(RoI)并消除用户编辑请求中的歧义,将其转化为编辑命令。(2)基于LLM的命令重构提示,将原本为专业软件设计的编辑命令调整为适合通用LMMs的编辑指令。(3)此外,DocEdit-v2通过像GPT-4V和Gemini这样的大型多模态模型处理这些输出,以解析文档布局,在定位的RoI上执行编辑,并生成编辑后的文档图像。在DocEdit数据集上进行的广泛实验表明,DocEdit-v2在编辑命令生成(2-33%)、RoI边界框检测(12-31%)以及整体文档编辑(1-12%)任务上显著优于强大的基线。

54f372d959244bb5a3067af2889014a4.png

39447d3aac1d01723e552314036945f3.png

0f170f5d390e5979839e55604a0e5cd2.png

1b8ab70466900c0c86f52044a0077030.png

250a76d425c74b0c6a4a06d75d292e1a.png

文章链接:

https://arxiv.org/pdf/2410.16472

03

MiniPLM: Knowledge Distillation for Pre-Training Language Models

知识蒸馏(KD)被广泛用于训练小型、高性能的学生语言模型(LMs),这些模型利用大型教师LMs。尽管在微调中有效,但在预训练期间进行KD面临着效率、灵活性和有效性的挑战。现有方法要么因为在线教师推理而产生高昂的计算成本,要么需要教师和学生LMs之间的标记匹配,或者冒着失去教师生成的训练数据的难度和多样性的风险。为了解决这些问题,本研究提出了MINIPLM,这是一个用于预训练LMs的知识蒸馏框架,通过提炼训练数据分布来融入教师的知识。为了提高效率,MINIPLM执行离线教师LM推理,允许多个学生LM进行KD而不增加训练时成本。为了提高灵活性,MINIPLM仅在训练语料库上操作,使得跨模型家族的KD成为可能。为了提高有效性,MINIPLM利用大型和小型LMs之间的差异来增强训练数据的难度和多样性,帮助学生LMs获得多样化和复杂的知识。广泛的实验表明,MINIPLM提高了学生LMs在9个广泛使用的下游任务上的性能,提高了语言建模能力,并减少了预训练计算。MINIPLM的好处扩展到大型预训练规模,这一点通过扩展曲线得到了证明。进一步的分析揭示了MINIPLM支持跨模型家族的KD,并增强了预训练数据的利用。

ea7178b93f485235de23c0a120e17d19.png

1818b3ac03d1b623d9e75460e4fce1c7.png

8b186815c304477ee0dce39b11355097.png

c10f1759d26e3199136a085134945d58.png

文章链接:

https://arxiv.org/pdf/2410.17215

04

No more hard prompts: SoftSRV prompting for synthetic data generation

本文提出了一个新颖的基于软提示的框架,SoftSRV,它利用一个冻结的预训练大型语言模型(LLM)来生成针对性的合成文本序列。给定一个来自目标分布的样本,本研究提出的框架使用数据驱动的损失最小化来训练一个参数化的“上下文”软提示。然后使用这个软提示来引导冻结的LLM生成与目标分布相似的合成序列。作者认为,SoftSRV在实际应用中比依赖人工策划的提示模板的常见硬提示方法有所改进,后者可能具有特殊性,制作起来劳动密集,并且可能需要针对每个领域进行专门化。为了强调SoftSRV的通用性,作者在没有对框架进行任何特定领域专业化的情况下,通过生成合成数据来微调一个小型Gemma模型,在三个不同的领域(编码、数学、推理)上进行了实证评估。作者发现,SoftSRV在生成数据方面显著优于硬提示基线,根据MAUVE相似性度量,生成的数据具有更好的微调性能,并且更符合目标分布。

84fb58d531adc96a6c4d76ed236ceac5.png

d0e0ea3a14d34c3b32524949d825fd55.png

22487c2f442ef365f7a0c67e4659d398.png

c87106203c19cbe3f240faa756f347ef.png

文章链接:

https://arxiv.org/pdf/2410.16534

05

Altogether: Image Captioning via Re-aligning Alt-text

本文聚焦于创建合成数据以提高图像字幕的质量。现有工作通常存在两个缺点。首先,它们从头开始为图像添加字幕,忽略了现有的alt-text元数据;其次,如果字幕生成器的训练数据(例如GPT)未知,则缺乏透明度。在本研究中,作者研究了一种基于关键思想的原则性方法—— Altogether,该方法基于编辑和重新对齐与图像相关联的现有alt-text。为了生成训练数据,我们进行了人工标注,标注者从现有的alt-text开始,并在多轮中将其重新对齐到图像内容,从而构建出包含丰富视觉概念的字幕。这与以往仅基于图像和标注者知识进行一次性描述任务的人工标注工作不同。我们在这个数据上训练了一个字幕生成器,它概括了大规模重新对齐alt-texts的过程。我们的结果表明,我们的Altogether方法能够产生更丰富的图像字幕,同时也提高了文本到图像生成和零样本图像分类任务的性能。

07632ec009a5d6d5379070e80d60b16f.png

f18b9b8afbd861fabca71f19f2b074d2.png

42f27c5dad0cdb9e8a534be6b3430eb0.png

f7ac345f7bc80bff2cdc62ccd46b0a5b.png

文章链接:

https://arxiv.org/pdf/2410.17251

06

LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging

大型预训练模型在多样化任务中展现出了令人印象深刻的零样本性能,但微调往往会导致灾难性遗忘,即在目标领域的性能提升会损害其他任务的泛化能力。为了应对这一挑战,本文引入了LiNeS(Layer-increasing Network Scaling),这是一种后训练编辑技术,旨在在提升微调任务性能的同时保持预训练的泛化能力。LiNeS根据网络中层的深度线性调整参数更新,保持浅层接近其预训练值以保留通用特征,同时允许深层保留特定任务的表示。本文进一步将这种方法扩展到多任务模型合并场景中,其中合并参数的逐层缩放减少了任务间的负面干扰。LiNeS在视觉和自然语言处理的各种基准测试中,在单任务和多任务设置中都显示出显著的性能提升。它减轻了遗忘问题,增强了分布外泛化能力,与现有的多任务模型合并基线无缝集成,提高了跨基准测试和模型尺寸的性能,并且可以通过RLHF合并与不同奖励对齐的大型语言模型(LLM)策略来提升泛化能力。重要的是,这种方法实现简单,并且与许多现有技术相辅相成。

588af07be1910eee2f25aa436adb7ab8.png

787bd1907ef88161a1b703f6e40353b4.png

d1e10098940d4e085c1ab661be0c7400.png

0a4ce4535a82a13e0f7e23d4b096528c.png

cdf066f4877fa15f237313a65a7eff88.png

文章链接:

https://arxiv.org/pdf/2410.17146

07

DENOASR: Debiasing ASRs through Selective Denoising

自动语音识别(ASR)系统经过检验,显示出对特定群体存在偏见,这种偏见受到人口统计特征、口音和说话风格等因素的影响。噪声可能会对具有特定口音、方言或说话风格的说话者产生不成比例的影响,导致有偏见的错误率。在本研究中,作者介绍了一种新颖的框架DEN OASR,这是一种选择性去噪技术,用于减少男性和女性两个性别群体之间单词错误率的差异。研究发现,两种流行的语音去噪技术,即DEMUCS和LE的结合,可以有效地减轻ASR差异,而不会损害它们的整体性能。使用两个最先进的开源ASR系统——OpenAI WHISPER和NVIDIA NEMO,在多个基准数据集——TIE、VOX-POPULI、TEDLIUM和FLEURS上的实验表明,在两个性别群体之间的平均单词错误率差距有显著的减少。对于给定的数据集,去噪是选择性地应用于语音可懂度低于某个阈值的语音样本,该阈值是使用小型验证样本估计的,从而改善了对大规模人工编写的真实转录的需求。作者的发现表明,选择性去噪可以是一种优雅的途径,以减轻当前ASR系统中的偏见。

4a503e9f8be27ff784caf7c8942e949e.png

b59249fd55c07d02d635a0f63c1075fa.png

d0989b8fde1cf32f050bff30ee325036.png

d3274247589c48f26ab3c8202bc16f01.png

文章链接:

https://arxiv.org/pdf/2410.16712

本期文章由陈研整理

往期精彩文章推荐

32561168b67999f341ea49186466df94.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 ffb992bf2afaca4378b3203067f4a0ec.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

bc5da810a2b9ecb72aec62ab45414cc0.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/937972.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何建设金融数据中心

目录 总则 概述 要求 基本原则 数据中心治理 概述 战略管控 战略规划 战略实施 延伸阅读 总则 概述 本文以描述金融数据中心的治理域内容为基础,从金融数据中心建设、运营及安全保障的角度出 发,逐一描述场地环境、网络通信、运行管理和风险管控等能力域的具体…

医学分割数据集B超图片肝脏分割数据集labelme格式271张1类别

数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):271 标注数量(json文件个数):271 标注类别数:1 标注类别名称:["liver"] 每个类别标注的框数&#xf…

Android:展锐T760平台camera PDAF调试

一、平台PDAF流程 目前展锐平台主要支持Shield PD Sensor、Dual PD Sensor 1、Shield PD Sensor Type1相位差和信心度结果直接从Sensor输出,不经过平台算法库。 Type2Sensor端抽取PD信息, 放在一块buffer输出, PDAF算法库算出相位差和信心度。 Type3Sensor端直接输出将带有…

MySQL的历史和地位

秋招之后,开始深入学习后端开发知识啦。把学到的东西分享给大家最开心啦。就从MySQL开始吧。 首先说一下MySQL的历史和地位。主要是看一下我们为什么要学习,而不是说让我们学什么我们就学什么。 地位 这张图是我从DB-Engines截取的2024年12月最新的数据…

鸿蒙项目云捐助第七讲鸿蒙App应用的首页推荐模块布局的实现

鸿蒙项目云捐助第七讲鸿蒙App应用的首页推荐模块布局的实现 最后设置首页的推荐模块,参考模板如下图所示。 一、首页热门推荐模块的实现 对于热门推荐模块,先有上面的小标题栏,这里的标题栏也有一个小图标,首先从“百度图库”中…

使用ENSP实现NAT(2)

一、NAT的类型 二、静态NAT 1.项目拓扑 2.项目实现 路由器AR1配置: 进入系统视图 sys将路由器命名为AR1 sysname AR1关闭信息中心 undo info-center enable 进入g0/0/0接口 int g0/0/0将g0/0/0接口IP地址配置为192.168.10.254/24 ip address 192.168.10.254 24进…

【1211更新】腾讯混元Hunyuan3D-1文/图生3D模型云端镜像一键运行

目录 项目介绍 显存占用 11月21 新增纹理烘焙模块Dust3R 烘焙相关参数: AutoDL云端镜像 启动说明 标准模型下载 【1212更新】腾讯混元Hunyuan3D-1文图生3D模型云端镜像一键运行 项目介绍 https://github.com/Tencent/Hunyuan3D-1 腾讯混元 3D 生成模型,支持…

PHP 应用 ImageMagick

ImageMagick是什么? ImageMagick是一款功能强大、跨平台的图像处理软件。它可以读取、转换和输出大量的图片格式,支持各种各样的图像处理操作,如调整大小、旋转、加水印、格式转换等。在PHP中使用ImageMagick,可以让我们在web应用…

OpenCV圆形标定板检测算法findGrid原理详解

OpenCV的findGrid函数检测圆形标定板的流程如下: class CirclesGridClusterFinder {CirclesGridClusterFinder(const CirclesGridClusterFinder&); public:CirclesGridClusterFinder

阿里云服务器手动搭建WordPress【官方文档注意事项】

这是官方文档 注意事项 先配LNMP,我的上一篇文章到这里发现,没有基于ubuntu的教程,所以创建服务器时选择centos在官方文档第四步“下载WordPress,并移动至网站根目录”中,首先它让cd /usr/share/nginx/html&#xff…

vue运行项目时local有显示 但是network却显示unavailable

问题描述 日常开发中 和后端本地调试时 后端需要使用你的本地去访问页面 可运行项目时会出现network显示unavailable的情况 解决方式 1.其实这只是vue脚手架对于ip地址获取的方式兼容上有一些问题 但其实是不影响ip访问本地的 你可以直接cmd内ipconfig去查看自己的ip然后…

Go项目-----Kubernetes使用

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言基本概念kubectl工具部署web服务生成镜像编写deployment 编写service启动服务 k8s部署mysql编写pvc编写pv编写service 部署redis集成部署mysql和redis 前言 这…

SpringCloud无介绍快使用,sentinel注解@SentinelResource的基本使用(二十三)

TOC 问题背景 从零开始学springcloud微服务项目 注意事项: 约定 > 配置 > 编码IDEA版本2021.1这个项目,我分了很多篇章,每篇文章一个操作步骤,目的是显得更简单明了controller调service,service调dao默认安装ngi…

紫光展锐5G融云方案,开启云终端新时代

近年来,云终端凭借便捷、高效、高性价比的优势正逐步在各行各业渗透。研究机构IDC的数据显示,2024上半年,中国云终端市场总体出货量达到166.3万台,同比增长22.4%,销售额29亿元人民币,同比增长24.9%&#xf…

基于卷积神经网络的垃圾分类系统实现(GUI应用)

1.摘要 本文主要实现了一个卷积神经网络模型进行垃圾图像分类,为了提高垃圾分类模型的准确率,使用使用Batch Normalization层、使用早期停止策略来防止过拟合等方法来优化模型,实验结果显示最终优化后的模型准确率较高90%左右。最终&#xf…

【51单片机】蜂鸣器快速上手

‌51单片机蜂鸣器是一种将电信号转换为声音信号的器件,在51单片机开发板中常用于产生按键音、报警音等提示信号‌。 ‌蜂鸣器类型‌:蜂鸣器按驱动方式可分为有源蜂鸣器和无源蜂鸣器。有源蜂鸣器内部自带振荡源,只需接上直流电压即可持续发声&…

数据库入门

基本概念 数据库:DataBase简称DB,是一个用于存储和管理数据的仓库。 就像我们每天访问的网站Bilibili,OA、ERP和CRM等内部管理系统,以及我们每天使用的腾讯新闻和Tiktok应用程序一样,我们看到的数据实际上存储在数据库…

vscode插件开发 在activity Bar 开发一个自定义bar(左侧侧边栏自定义一个功能选项)

了解vscode编辑器结构 点击了解编辑器结构视图 在编辑器的左侧创建一个新的item 如下图位置 1,vscode开发基础点击这里 2,了解到基础的vscode插件开发的步骤之后 在package.json文件的contrites下配置下图参数 实现效果如下图

Airborne使用教程

1.安装环境 前提条件:系统已安装Ruby 打开终端输入如下命令 gem install airborne 或者在Gemfile添加 gem airborne 然后运行bundle install 2.编写脚本 在项目中新建api_tests_spec.rb文件 以GET接口"https://www.thunderclient.com/welcome"为…

session 共享服务器

1.安装 kryo-3.0.3.jar asm-5.2.jar objenesis-2.6.jar reflectasm-1.11.9.jar minlog-1.3.1.jar kryo-serializers-0.45.jar msm-kryo-serializer-2.3.2.jar memcached-session-manager-tc9-2.3.2.jar spymemcached-2.12.3.jar memcached-session-manager-2.3.2.jar …