点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
01
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment
自我对弈方法在多个领域增强模型能力方面展现出了显著的成功。在基于人类反馈的强化学习(RLHF)背景下,自我对弈不仅提升了大型语言模型(LLM)的性能,还通过找到基于偏好的两玩家恒和游戏中的纳什均衡(NE),克服了传统Bradley-Terry(BT)模型假设的限制。然而,现有的方法要么只保证平均迭代收敛,导致高昂的存储和推理成本,要么收敛到一个正则化游戏的NE,未能准确反映真实的人类偏好。在本研究中,作者介绍了一种新颖的方法——磁力偏好优化(MPO),它能够实现对原始游戏NE的最后迭代收敛,有效地克服了现有方法的局限性。MPO基于磁力镜像下降(MMD)构建,达到了线性收敛速度,特别适合于微调LLMs。为了确保我们的算法在理论上是合理的,并且在实践中是可行的,我们提出了一个简单而有效的实现,将理论洞见适应到RLHF设置中。实证结果表明,MPO可以显著提高LLMs的性能,突出了自我对弈方法在对齐方面的潜力。
文章链接:
https://arxiv.org/pdf/2410.16714
02
DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding
文档结构编辑涉及根据用户的请求,在文档图像中操作局部化的文本、视觉和布局组件。过去的研究表明,在文档图像中对用户请求进行多模态定位以及识别准确的结构组件及其相关属性,仍然是这项任务的关键挑战。为了解决这些问题,本文介绍了DocEdit-v2,这是一个新颖的框架,它通过利用大型多模态模型(LMMs)来执行端到端的文档编辑。它由三个新颖组件组成——(1)Doc2Command,用于同时定位编辑区域(RoI)并消除用户编辑请求中的歧义,将其转化为编辑命令。(2)基于LLM的命令重构提示,将原本为专业软件设计的编辑命令调整为适合通用LMMs的编辑指令。(3)此外,DocEdit-v2通过像GPT-4V和Gemini这样的大型多模态模型处理这些输出,以解析文档布局,在定位的RoI上执行编辑,并生成编辑后的文档图像。在DocEdit数据集上进行的广泛实验表明,DocEdit-v2在编辑命令生成(2-33%)、RoI边界框检测(12-31%)以及整体文档编辑(1-12%)任务上显著优于强大的基线。
文章链接:
https://arxiv.org/pdf/2410.16472
03
MiniPLM: Knowledge Distillation for Pre-Training Language Models
知识蒸馏(KD)被广泛用于训练小型、高性能的学生语言模型(LMs),这些模型利用大型教师LMs。尽管在微调中有效,但在预训练期间进行KD面临着效率、灵活性和有效性的挑战。现有方法要么因为在线教师推理而产生高昂的计算成本,要么需要教师和学生LMs之间的标记匹配,或者冒着失去教师生成的训练数据的难度和多样性的风险。为了解决这些问题,本研究提出了MINIPLM,这是一个用于预训练LMs的知识蒸馏框架,通过提炼训练数据分布来融入教师的知识。为了提高效率,MINIPLM执行离线教师LM推理,允许多个学生LM进行KD而不增加训练时成本。为了提高灵活性,MINIPLM仅在训练语料库上操作,使得跨模型家族的KD成为可能。为了提高有效性,MINIPLM利用大型和小型LMs之间的差异来增强训练数据的难度和多样性,帮助学生LMs获得多样化和复杂的知识。广泛的实验表明,MINIPLM提高了学生LMs在9个广泛使用的下游任务上的性能,提高了语言建模能力,并减少了预训练计算。MINIPLM的好处扩展到大型预训练规模,这一点通过扩展曲线得到了证明。进一步的分析揭示了MINIPLM支持跨模型家族的KD,并增强了预训练数据的利用。
文章链接:
https://arxiv.org/pdf/2410.17215
04
No more hard prompts: SoftSRV prompting for synthetic data generation
本文提出了一个新颖的基于软提示的框架,SoftSRV,它利用一个冻结的预训练大型语言模型(LLM)来生成针对性的合成文本序列。给定一个来自目标分布的样本,本研究提出的框架使用数据驱动的损失最小化来训练一个参数化的“上下文”软提示。然后使用这个软提示来引导冻结的LLM生成与目标分布相似的合成序列。作者认为,SoftSRV在实际应用中比依赖人工策划的提示模板的常见硬提示方法有所改进,后者可能具有特殊性,制作起来劳动密集,并且可能需要针对每个领域进行专门化。为了强调SoftSRV的通用性,作者在没有对框架进行任何特定领域专业化的情况下,通过生成合成数据来微调一个小型Gemma模型,在三个不同的领域(编码、数学、推理)上进行了实证评估。作者发现,SoftSRV在生成数据方面显著优于硬提示基线,根据MAUVE相似性度量,生成的数据具有更好的微调性能,并且更符合目标分布。
文章链接:
https://arxiv.org/pdf/2410.16534
05
Altogether: Image Captioning via Re-aligning Alt-text
本文聚焦于创建合成数据以提高图像字幕的质量。现有工作通常存在两个缺点。首先,它们从头开始为图像添加字幕,忽略了现有的alt-text元数据;其次,如果字幕生成器的训练数据(例如GPT)未知,则缺乏透明度。在本研究中,作者研究了一种基于关键思想的原则性方法—— Altogether,该方法基于编辑和重新对齐与图像相关联的现有alt-text。为了生成训练数据,我们进行了人工标注,标注者从现有的alt-text开始,并在多轮中将其重新对齐到图像内容,从而构建出包含丰富视觉概念的字幕。这与以往仅基于图像和标注者知识进行一次性描述任务的人工标注工作不同。我们在这个数据上训练了一个字幕生成器,它概括了大规模重新对齐alt-texts的过程。我们的结果表明,我们的Altogether方法能够产生更丰富的图像字幕,同时也提高了文本到图像生成和零样本图像分类任务的性能。
文章链接:
https://arxiv.org/pdf/2410.17251
06
LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging
大型预训练模型在多样化任务中展现出了令人印象深刻的零样本性能,但微调往往会导致灾难性遗忘,即在目标领域的性能提升会损害其他任务的泛化能力。为了应对这一挑战,本文引入了LiNeS(Layer-increasing Network Scaling),这是一种后训练编辑技术,旨在在提升微调任务性能的同时保持预训练的泛化能力。LiNeS根据网络中层的深度线性调整参数更新,保持浅层接近其预训练值以保留通用特征,同时允许深层保留特定任务的表示。本文进一步将这种方法扩展到多任务模型合并场景中,其中合并参数的逐层缩放减少了任务间的负面干扰。LiNeS在视觉和自然语言处理的各种基准测试中,在单任务和多任务设置中都显示出显著的性能提升。它减轻了遗忘问题,增强了分布外泛化能力,与现有的多任务模型合并基线无缝集成,提高了跨基准测试和模型尺寸的性能,并且可以通过RLHF合并与不同奖励对齐的大型语言模型(LLM)策略来提升泛化能力。重要的是,这种方法实现简单,并且与许多现有技术相辅相成。
文章链接:
https://arxiv.org/pdf/2410.17146
07
DENOASR: Debiasing ASRs through Selective Denoising
自动语音识别(ASR)系统经过检验,显示出对特定群体存在偏见,这种偏见受到人口统计特征、口音和说话风格等因素的影响。噪声可能会对具有特定口音、方言或说话风格的说话者产生不成比例的影响,导致有偏见的错误率。在本研究中,作者介绍了一种新颖的框架DEN OASR,这是一种选择性去噪技术,用于减少男性和女性两个性别群体之间单词错误率的差异。研究发现,两种流行的语音去噪技术,即DEMUCS和LE的结合,可以有效地减轻ASR差异,而不会损害它们的整体性能。使用两个最先进的开源ASR系统——OpenAI WHISPER和NVIDIA NEMO,在多个基准数据集——TIE、VOX-POPULI、TEDLIUM和FLEURS上的实验表明,在两个性别群体之间的平均单词错误率差距有显著的减少。对于给定的数据集,去噪是选择性地应用于语音可懂度低于某个阈值的语音样本,该阈值是使用小型验证样本估计的,从而改善了对大规模人工编写的真实转录的需求。作者的发现表明,选择性去噪可以是一种优雅的途径,以减轻当前ASR系统中的偏见。
文章链接:
https://arxiv.org/pdf/2410.16712
本期文章由陈研整理
往期精彩文章推荐
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 查看更多!