合并模型带来的更好性能

研究背景与问题提出

在人工智能领域,当需要处理多个不同任务时,有多种方式来运用模型资源。其中,合并多个微调模型是一种成本效益相对较高的做法,相较于托管多个专门针对不同任务设计的模型,能节省一定成本。然而,以往的模型合并方式虽然能让模型在多个任务上获得一个相对较高的平均性能表现,但存在一个明显的弊端,就是在具体的单个任务上,其性能往往比不上那些专门针对该任务进行微调的单个模型,这限制了模型合并方法在实际应用中的效果,所以需要探索新的方法来解决这个问题。

“Localize-and-Stitch”方法的提出与原理

  • 与传统方法对比:之前在2022年关于“模型汤”的相关研究中,提出的模型合并思路是对同一个基础模型的多个微调版本的所有权重进行简单平均。而新提出的“Localize-and-Stitch”(定位与拼接)方法不同于此,它着重于选择性地保留与每个任务最相关的权重,以此来提升合并后模型在各任务上的性能。

  • 关键原理阐述

    • 不同的微调模型在执行各自任务时,可能会利用相同的权重部分去完成不同的功能,比如一个模型用某权重子集检测HTML代码,另一个却用其检测城市名称。如果只是单纯对这些对应权重取平均合并,就容易造成合并后的模型在这些涉及的任务上性能变差,出现次优性能的情况。

    • 不过,研究发现,在模型微调过程中,其实会产生很多冗余的权重集。也就是说,真正对维持一个微调模型在其特定任务上的性能起关键作用的,往往只是总参数里的一小部分(大概仅占1%左右),而且这些关键的小部分权重子集由于比较小,相互之间不太容易重叠。所以,基于这个特点,“Localize-and-Stitch”方法选择保留这些和任务紧密相关的权重,而不是像传统方法那样全部平均,以此来提高合并后模型的性能。

实验过程与操作步骤

  • 实验对象选取:研究人员选取了三个具有代表性的模型来开展实验,分别是RoBERTa-base(常用于自然语言处理任务的语言编码器)、GPT2 - XL(在语言生成等方面应用较广的模型)以及CLIP(在图像分类等视觉任务方面表现出色的模型)。

  • 针对不同模型的微调操作

    • RoBERTa-base:针对这个语言编码器创建了12个变体,并且让每个变体在GLUE(一个包含多种自然语言处理任务的基准数据集,像问答、情感分类等不同类型任务都涵盖在内)中的不同具体任务上进行微调,以此来得到不同的微调版本模型。

    • GPT2 - XL:下载了三个已经经过微调的版本,这三个版本分别是针对指令遵循、科学知识以及真实性判断这些不同任务进行过优化的,以此作为后续合并实验的基础。

    • CLIP:创建了8个变体,然后在不同的图像分类数据集上对每个变体进行微调,这些数据集涵盖了手写数字、各类汽车不同角度的照片以及像森林、牧场、水域、建筑物等不同场景的卫星图像等多样化的视觉数据,从而得到多个不同的针对视觉任务微调后的CLIP模型版本。

  • “Localize-and-Stitch”方法的具体操作流程

    • 权重分解与识别:第一步是在每个经过微调的模型中准确找出特定任务相关的权重。具体做法是把微调模型的权重拆解成两部分,一部分是原本的预训练权重,另一部分是经过微调产生的差异部分。

    • 关键差异筛选:接着,从这些差异部分里找出数量最少,但又能让模型在对应任务上性能达到最大化的那些差异权重,然后把其余没被选中的差异权重直接置零,相当于筛选出了对任务最关键的权重子集。

    • 权重合并处理:在处理好的这些权重中,如果非零的权重项(也就是前面筛选出的关键差异权重)之间不存在重叠情况,那就直接把这些差异权重添加到预训练权重中完成合并;但要是出现了极少数非零项重叠的特殊情况,那就只能像传统方法一样,对涉及重叠的微调模型的权重进行平均处理了。

实验结果呈现

  • RoBERTa-base方面:使用“Localize-and-Stitch”方法合并其微调版本后,在GLUE基准数据集上获得了75.9%的平均分数。作为对比,之前效果最好的RegMean方法只能达到73.9%的平均分数,不过需要注意的是,那些专门针对每个GLUE任务单独进行微调的模型平均能达到81.1%的分数,这说明“Localize-and-Stitch”方法虽然有进步,但还没超越单独微调模型的性能。

  • GPT2 - XL方面:用“Localize-and-Stitch”方法合并后的微调版本,在MMLU(衡量语言模型在多领域知识上的能力)、ARC(主要考察科学推理等能力)以及TruthfulQA(评估模型真实性相关表现)这几个综合评估指标上取得了36.7%的平均分数,而通过简单对对应权重取平均合并的版本只能达到34.4%的分数,同样,单独针对不同任务微调的模型平均能达到41.1%的分数。

  • CLIP方面:经过“Localize-and-Stitch”方法合并的CLIP微调版本,在八个不同的视觉任务上取得了79.9%的平均分数,使用另一种合并方法AdaMerging合并的版本能达到80.1%的分数,单独的微调模型平均则可以达到90.5%的分数。

研究局限与重要性说明

  • 局限方面:此次研究存在一个不足之处,那就是作者们并没有把“Localize-and-Stitch”方法和多任务学习进行对比。多任务学习是一种常见的、可替代模型合并的方案,它的特点是同时基于多个不同数据集的数据对模型开展训练,由于缺少和这种方法的比较,所以在那些多任务学习同样适用的实际场景中,很难全面且准确地判断“Localize-and-Stitch”方法到底具备多大的优势。

  • 重要性方面:和多任务学习相比,模型合并本身在计算资源利用方面更具效率,因为它不需要像多任务学习那样针对所有任务都去进行训练,就能一定程度上提升模型执行特定任务的能力。而新提出的“Localize-and-Stitch”方法更是进一步优化了模型合并这个过程,让合并后的模型能够获得更高的性能表现,对于推动人工智能模型在多任务处理场景下更高效应用有着积极意义。

总的来说,“Localize-and-Stitch”方法为解决模型合并中的性能问题提供了新的思路和有效途径,尽管存在一定研究局限,但对后续相关研究和实践应用有着重要的参考价值。

论文:Localize-and-Stitch: Efficient Model Merging via Sparse Task Arithmetic

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/951276.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Virgo:增强慢思考推理能力的多模态大语言模型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

本地缓存:Guava Cache

这里写目录标题 一、范例二、应用场景三、加载1、CacheLoader2、Callable3、显式插入 四、过期策略1、基于容量的过期策略2、基于时间的过期策略3、基于引用的过期策略 五、显示清除六、移除监听器六、清理什么时候发生七、刷新八、支持更新锁定能力 一、范例 LoadingCache<…

Android adb shell GPU信息

Android adb shell GPU信息 先 adb shell 进入控制台。 然后&#xff1a; dumpsys | grep GLES Android adb shell命令捕获systemtrace_android 抓trace-CSDN博客文章浏览阅读2.5k次&#xff0c;点赞2次&#xff0c;收藏8次。本文介绍了如何使用adbshell命令配合perfetto工…

ElasticSearch | Elasticsearch与Kibana页面查询语句实践

关注&#xff1a;CodingTechWork 引言 在当今大数据应用中&#xff0c;Elasticsearch&#xff08;简称 ES&#xff09;以其高效的全文检索、分布式处理能力和灵活的查询语法&#xff0c;广泛应用于各类日志分析、用户行为分析以及实时数据查询等场景。通过 ES&#xff0c;用户…

RK3588平台开发系列讲解(系统篇)Linux Kconfig的语法

文章目录 一、什么是Kconfig二、config模块三、menuconfig四、menu 和 endmenu五、choice 和 endchoice六、source七、depends on八、default九、help十、逻辑表达式沉淀、分享、成长,让自己和他人都能有所收获!😄 一、什么是Kconfig Kconfig的语法及代码结构非常简单。本博…

STM32 USB组合设备 MSC CDC

STM32 USB组合设备 MSC CDC实现 教程 教程请看大佬niu_88 手把手教你使用USB的CDCMSC复合设备&#xff08;基于stm32f407&#xff09; 大佬的教程很好&#xff0c;很详细&#xff0c;我调出来了&#xff0c;代码请见我绑定的资源 注意事项 值得注意的是&#xff1a; 1、 cu…

深入学习RabbitMQ的Direct Exchange(直连交换机)

RabbitMQ作为一种高性能的消息中间件&#xff0c;在分布式系统中扮演着重要角色。它提供了多种消息传递模式&#xff0c;其中Direct Exchange&#xff08;直连交换机&#xff09;是最基础且常用的一种。本文将深入介绍Direct Exchange的原理、应用场景、配置方法以及实践案例&a…

Node.js——path(路径操作)模块

个人简介 &#x1f440;个人主页&#xff1a; 前端杂货铺 &#x1f64b;‍♂️学习方向&#xff1a; 主攻前端方向&#xff0c;正逐渐往全干发展 &#x1f4c3;个人状态&#xff1a; 研发工程师&#xff0c;现效力于中国工业软件事业 &#x1f680;人生格言&#xff1a; 积跬步…

【Verdi实用技巧-Part2】

Verdi实用技巧-Part2 2 Verdi实用技巧-Part22.1 Dump波形常用的task2.1.1 Frequently Used Dump Tasks2.1.2 Demo 2.2 提取波形信息小工具--FSDB Utilities2.3 Debug in Source code view2.3.1 Find Scopes By Find Scope form 2.3.2 Go to line in Souce code View2.3.3 Use B…

web-前端小实验4

实现以上图片中的内容 代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>用户注册</title&…

NLP项目实战——基于Bert模型的多情感评论分类(附数据集和源码)

在当今数字化的时代&#xff0c;分析用户评论中的情感倾向对于了解产品、服务的口碑等方面有着重要意义。而基于强大的预训练语言模型如 Bert 来进行评论情感分析&#xff0c;能够取得较好的效果。 在本次项目中&#xff0c;我们将展示如何利用 Python 语言结合transformers库&…

TAS测评倍智题库 | 益丰大药房2025年中高层测评BA商业推理测评真题考什么?

您好&#xff01;您已被邀请参加360评估。您的评估与反馈将有助于被评估人更深入地了解个人情况&#xff0c;发现个人优势和潜在风险。请您秉持公正、开放的心态进行评估。请尽快完成评估&#xff0c;在此衷心感谢您的配合与支持&#xff01; ​ 相关事宜&#xff1a; 请您在…

优秀的大模型会不会做坏事?

主要围绕大型语言模型&#xff08;LLMs&#xff09;在特定情境下可能出现的欺骗行为及相关研究展开&#xff0c;具体如下&#xff1a; 研究背景与核心发现&#xff1a;研究发现即使在用户无意激励的情况下&#xff0c;LLMs 也可能说谎&#xff0c;而能使用工具的模型更易被诱导…

fiscoBcos落盘加密介绍

落盘加密 落盘加密是在机构内部进行的&#xff0c;每个机构独立管理自己硬盘数据的安全。内网中&#xff0c;每个节点的硬盘数据是被加密的。所有加密数据的访问权限&#xff0c;通过Key Manager来管理。Key Manager是部署在机构内网内&#xff0c;专门管理节点硬盘数据访问秘…

完全二叉树的删除

&#xff08;1&#xff09;删除叶子节点 找到要删除的节点 targetNode找到要删除节点的父节点parent&#xff08;父节点是否存在&#xff09;要删除的节点是父节点的左子树还是右子树如果是左子树&#xff0c;则parent.leftnull;如果是右子树则parent.rightnull。 &#xff08;…

ModuleNotFoundError: No module named ‘setuptools_rust‘ 解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

【算法】时间复杂度以及O(N^2)的排序

目录 1.常数时间的操作 2.时间复杂度 2.1.以选择排序为例 2.2.O(n^2)从何而来 2.3.冒泡排序 2.3.1.抑或运算 2.4.插入排序 3.二分法 3.1.局部最小 4.递归 4.1.递归行为时间复杂度的估计 1.常数时间的操作 一个操作如果和样本的数据量无关&#xff0c;每次都是固定时…

uni app 写的 小游戏,文字拼图?文字拼写?不知道叫啥

从下方的偏旁部首中选在1--3个组成上面文章中的文字&#xff0c;完成的文字标红 不喜勿喷 《满江红》 其中用到了两个文件 strdata.json parameters.json 这两个文件太大 放到资源中了 资源文件 <template><view class"wenzi_page_main"><view c…

【杂记】qt

1、终端下载PySide6以转换文件格式&#xff1a;pip install PySide6 -i https://pypi.tuna.tsinghua.edu.cn/simple 命令提示符下载完毕后&#xff1a;powerShell &#xff1a;cd 跳转到文件对应地址 &#xff08;1、pyside6-uic.exe test.ui -o test.py #将Ui界面文件转换成…

宁德时代2025年Verify入职测评语言理解及数字推理真题SHL题库汇总、考情分析

宁德时代社招Verify入职测评对薪酬有着重要影响&#xff0c;其规定正确率达到80%才能顺利通过测评。这体现了公司对人才专业素养与能力的严格要求&#xff0c;旨在筛选出真正符合岗位需求的优秀人才。测评内容涵盖了专业知识、技能运用、逻辑思维等多方面&#xff0c;只有综合能…