摘要
深度学习模型具有从大规模数据集中提取丰富知识的能力。然而,由于涉及到数据版权和隐私问题,数据共享变得越来越具有挑战性。因此,这妨碍了从现有数据向新的下游任务和概念有效转移知识。零样本学习(ZSL)方法旨在通过从基类中转移学习的语义知识来识别新类别。然而,传统的生成式ZSL方法通常需要访问基类的真实图像,并依赖手动注释的属性,这在数据限制和模型可扩展性方面存在挑战。为此,本文解决了一个具有挑战性和实践意义的问题,即无数据零样本学习(DFZSL),其中仅有基于 CLIP 预训练分类器的基类数据可用于零样本分类。具体来说,我们提出了一个用于 DFZSL 的通用框架,由三个主要组成部分组成。首先,为了恢复基础数据的虚拟特征,我们将基类图像的 CLIP 特征建模为基于预训练分类器的 von Mises-Fisher(vMF)分布样本。其次,我们利用 CLIP 的文本特征作为低成本的语义信息,并提出了一个特征语言提示调整(FLPT)方法,进一步调整虚拟图像特征和文本特征。第三,我们使用对齐良好的虚拟图像特征和相应的语义文本特征训练条件生成模型,从而实现了对新类别特征的生成,并实现更好的零样本泛化。我们的框架已在通用 ZSL 的五个常用基准数据集以及基类到新类别 ZSL 的 11 个基准数据集上进行了评估。结果表明了我们方法的优越性和有效性。我们的代码可在 https://github.com/ylong4/DFZSL 上找到。
介绍
深度学习模型的强大之处在于它们能够从大规模数据集中提取丰富的知识,包括视觉特征和语义信息。然而,跨不同公司、机构和国家之间的数据共享变得越来越具有挑战性和敏感性。与数据版权和隐私相关的担忧,特别是在健康和安全等敏感领域,给大规模数据集中的知识顺利传输到新的下游任务和概念中造成了重大障碍。这些挑战阻碍了深度学习模型的广泛利用,并限制了它们在各个领域的潜在影响。受到数据和模型隐私问题日益增长的担忧的启发,特别是在将知识转移到新概念的情境中,==本文解决了无数据零样本学习的问题,即在没有访问任何真实数据的情况下进行零样本学习。==零样本学习(ZSL)解决了利用从基类转移的语义知识来识别新类的挑战。尽管零样本学习取得了显著进展,但大多数零样本学习方法通常需要访问基类的标记图像,无论是用于对齐视觉-语义嵌入还是训练条件生成模型。==不幸的是,由于隐私或版权限制,从基类获取真实数据在现实世界的应用中往往是不切实际的。此外,现有方法严重依赖于手动注释的属性,这在可扩展性和注释难度方面存在挑战。==大规模预训练的视觉语言模型(例如 CLIP)等最近取得了显著的零样本泛化能力。这些模型通过在大量图像-标题对上进行广泛训练,而无需手动注释的属性,就实现了这种能力。然而,有效地将这些模型在弱对齐的图像-标题对上训练的知识转移到下游细粒度零样本分类任务仍然具有挑战性和不足。这主要是由于预训练模型和特定分类任务之间的类别粒度差异所致。Prompt 调整通过向输入添加可学习的提示来解决这个问题。然而,最近的 Prompt 调整方法仍然存在单边对齐的问题,并且依赖于对真实图像的访问。
为此,本文解决了一个具有挑战性和实用性的问题,被称为无数据零样本学习(DFZSL)。在这种情况下,用于零样本分类的唯一可用资源是基于 CLIP 特征的预训练基类分类器。值得注意的是,我们没有访问来自基类或新类的任何真实数据,并且不需要手动属性注释。我们的设置与绝对零样本学习密切相关。然而,他们的方法仍然依赖于手动属性注释,并且在传统和泛化 ZSL 中表现不佳。
所提出的框架由三个主要组件组成。首先,为了恢复基类数据,我们将基类图像的 CLIP 特征建模为从 von Mises-Fisher(vMF)分布中取样的样本,其中可学习的均值(μ)和适当的集中(κ)参数基于预训练分类器。这使我们能够通过从分布中采样来恢复基类数据的虚拟特征。需要注意的是,我们的方法并不恢复原始图像。相反,我们的重点是恢复高级图像特征向量,这更有效并避免了隐私和版权问题。其次,为了连接基类和新类,我们利用 CLIP 的文本编码器获取低成本的语义信息,以通用文本特征的形式,消除了对手动属性注释的需求。我们的框架是通用的,任何视觉语言基础模型都有可能使用。为了增强对下游细粒度零样本分类任务的适应能力,我们引入了一种特征语言提示调整方法。该方法旨在通过调整视觉特征和文本输入来进一步将基类的虚拟图像特征与其对应的文本特征对齐。第三,我们使用良好对齐的虚拟图像特征和相应的语义文本特征训练条件生成模型,使我们能够为新类生成标记数据。然后,通过监督学习实现零样本分类。我们的框架已在用于泛化 ZSL 的五个常用基准测试中进行了评估,以及用于基类到新类泛化的 11 个基准测试中进行了评估。结果表明了我们方法的优越性。