iclr 2024 reviewer 评分 5666
- 在典型的深度视觉识别模型中,它们通常只能执行它们所训练的单一任务。
- 这篇论文解决了一个极其困难的问题,即如何将具有不同初始化的、各自解决不同任务的独立模型合并成一个多任务模型,而无需任何额外训练。
- 先前的模型合并工作是将一个模型置换到另一个模型的空间中,然后将它们平均合并。
- 虽然这种方法适用于训练相同任务的模型,但它未能解决训练不同任务的模型之间的差异。
- ——>引入了“ZipIt!”,一种合并两个相同架构的任意模型的通用方法,该方法包含两个简单的策略。
- 首先,为了考虑模型间未共享的特征,论文扩展了模型合并问题,允许通过定义一个通用的“zip”操作来合并每个模型内的特征。
- 其次,论文添加了对模型部分zip直至特定层的支持,自然地创建了一个多头模型。
- 我们发现这两个改变结合在一起,相比于先前的工作,提高了20-60%,使得合并训练在不同任务上的模型而无需重新训练变得更加可行。