1.motivation
传统的无监督域自适应方法假设所有源类别都存在于目标域中。在实践中,对于这两个领域之间的类别重叠可能知之甚少。虽然有些方法使用部分或开放集类别处理目标设置,但它们假设特定设置是已知的先验设置。本文提出了一个更普遍适用的领域自适应框架,可以处理任意类别的转移,称为通过熵优化的领域自适应邻域聚类(DANCE)。DANCE结合了两个新颖的思想:首先,由于不能完全依赖源分类来判别目标的特征,因此提出了一种新的邻域聚类技术,以自监督的方式学习目标域的结构。其次,使用基于熵的特征对齐和拒绝 来将目标特征与源特征对齐,或者根据它们的熵将它们作为未知类别拒绝。实验表明,DANCE在开放集、开放部分和部分域自适应设置上优于基线。
2.introduce
本文研究了通用DA问题。假设Ls和Lt是源域和目标域中的标签集。在通用DA中,想要处理所有以下可能的“范畴位移”:闭集(Ls = Lt)、开集(LsLt)、部分集(LtLs),或者是开集和部分集的混合。现有的数据处理方法不能很好地处理通用数据处理,因为它们都被设计为只处理上述一种设置。然而,由于目标域是未标记的,可能无法提前知道会发生哪种情况。因此,意外的类别转移可能导致灾难性的错位。例如,当目标具有新颖(“未知”)类时,使用闭集方法可能会错误地将它们与源(“已知”)类对齐。潜在的问题是,现有的工作严重依赖于对类别转换的先验知识。
第二个问题是,过度依赖源监督使得难以获得目标上的判别特征。先前的方法侧重于将目标特征与源特征对齐,而不是利用特定于目标域的结构。在通用DA设置中,这意味着可能无法学习到用于区分“未知”类别和已知类别的有用特征,因为这些特征可能不存在于源中。自监督在[5]中被提出用于提取领域可泛化的特征,但其局限性在于它们没有利用目标领域的聚类结构。
本文通过引入基于熵优化的域自适应邻域聚类(DANCE)来克服这些具有挑战性的问题。概述如图1所示。DANCE不是仅仅依靠源类别的监督来学习判别表示,而是利用自监督来利用目标领域的聚类结构。这是通过“邻域聚类”技术完成的,该技术可以自监督目标中的特征学习。同时,通过批处理归一化的分布对齐和一种新的部分域对齐损失(称之为“熵分离损失”),保留和适应了有用的源特征和类边界。这种损失允许模型将每个目标示例与源匹配,或者将其作为“未知”类别