AliCG概念图
- 提出背景
- 能力强化
- 细粒度概念获取
- 长尾概念挖掘
- 分类体系进化
- 对比传统知识图谱
- 部署方法
- 如何提高信息检索的质量?
- 如何在神经网络中学习概念嵌入?
- 如何在预训练阶段利用概念图?
提出背景
论文: https://arxiv.org/pdf/2106.01686.pdf
代码: https://github.com/alibaba-research/ConceptGraph
AliCG可以被视为一种动态知识图谱。
它不仅包含了传统知识图谱中的结构化知识,还能够捕捉和反映实时数据和趋势,这是其“动态”特性的体现。
动态知识图谱强调的是实时更新和适应新信息的能力,这正是AliCG针对用户搜索日志进行细粒度概念提取并快速适应新趋势的特点。
在传统的知识图谱中,信息可能是静态的,更新周期较长,而AliCG则能够持续地从用户行为中学习,及时更新其内容,更好地服务于动态变化的用户需求和搜索习惯。
具有知识图谱的基本结构,并且具备随时间更新其信息的能力。
假设有一个医学大模型名为MediGraph,它内置了一个传统的医学知识图谱。
当一个患者描述他的症状为“关节疼痛”和“皮疹”时,MediGraph使用其知识图谱来关联这些症状可能指向的几种疾病,如“类风湿关节炎”或“狼疮”。
这些关联是基于医学专家的知识和历史数据建立的,可能不会频繁更新。
另一方面,假设有一个医学大模型名为MediConcept,它使用AliCG概念图。
当同样的患者描述他的症状时,MediConcept不仅识别出了相同的疾病关联,但还注意到最近在用户搜索日志中出现了一个新的关联趋势:许多描述有类似症状的用户都在搜索“寨卡病毒”。
尽管寨卡病毒在医学知识图谱中可能与这些症状不是强关联,但由于AliCG能够捕捉到最新的搜索趋势,MediConcept建议医生考虑这个可能性,并为患者提供相应的测试。
AliCG 其动态性和适应性的优势。
它不仅包括了传统医学知识,具有知识图谱的基本结构。
还能快速适应新兴的疾病趋势和用户行为,这在面对像寨卡病毒这样新出现的健康威胁时显得尤为重要。
这使得医学大模型能够提供更及时和相关的诊断支持,进而提升医疗服务的质量。
能力强化
细粒度概念获取
- 背景: 在阿里巴巴的语义搜索场景中,需要细粒度的概念来增加答案结果的召回率。
- 传统的概念提取方法主要关注于较粗粒度的概念,如类别或类型,这在处理用户具体意图时显得不够。
- 例子: 用户在搜索引擎中输入“烤架”,而传统的概念提取可能将其简单归类为“工具”。
- 然而,对于想要进行烧烤的用户来说,将“烤架”细化为“烧烤工具”会更有帮助。
- 解法: 启动对齐共识法 (Bootstrapping with Alignment Consensus Approach)
- 例子 (启动对齐共识法): 通过分析搜索日志,发现“烤架”经常出现在与烧烤相关的查询中。
- 系统使用少量预定义模式识别出“烤架”是一种“烧烤工具”,然后通过观察用户频繁点击的与烧烤相关的商品标题来验证这一概念。
- 之所以使用这个解法: 是因为这种方法能够从嘈杂的搜索日志中提取出细粒度的概念。
- 通过使用一小部分预定义的字符串模式来提取概念,然后利用这些概念来扩展模式池,进一步通过查询-标题对齐来验证新挖掘的概念。
这种方法控制模式的泛化和概念的一致性,通过查询-标题对的方式,提高了从嘈杂文本中提取细粒度概念的质量。
长尾概念挖掘
- 背景: 传统方法通常无法从极短或噪声很大的查询中提取长尾概念。
- 这是因为这些查询往往包含少量实例,且缺乏足够的上下文信息和共现样本。
- 例子: 在搜索引擎中,可能只有极少数查询提到“身体完整性认同障碍”,这是一个罕见的心理状况。
- 传统方法难以从这样的长尾查询中提取出“罕见精神障碍”这一概念。
- 解法: 概念化短语挖掘与自训练集成共识法 (Conceptualized Phrase Mining and Self-Training with Ensemble Consensus Approach)
- 例子 (概念化短语挖掘与自训练集成共识法): 系统首先通过无监督学习识别出具有概念化特征的短语,如从少量的实例中学习到“身体完整性认同障碍”属于一种“罕见精神障碍”。
- 然后,通过自训练和集成学习方法,在有限的训练数据下提高对长尾概念的识别能力。
- 之所以使用这个解法: 是因为这种方法可以无监督地扩展现有的短语挖掘算法,通过概念化特征来挖掘概念,同时提出一种新的低资源序列标注框架来提取这些分散的概念。
这张图说明了如何从文本中提取出现频率较低的长尾概念。
在左侧,给出了一个长尾实例,即包含“罕见精神障碍”如“aboulomania”(强迫症之一)和“body integrity identity disorder”(身体完整性认同障碍)的文本。
然后,通过短语挖掘技术识别出这些术语,这个过程展示在箭头下方的两个绿色椭圆中。
接下来的挑战是如何从文本中提取(如何提取?)并将这些术语与正确的概念相连接(如何链接?)。
右侧的橙色箭头指出了存在的两个主要问题:模式泛化不足(Poor pattern generalization)和共现样本少(Few co-occurrence samples)。
为了解决这些问题,图中展示了一个向下的箭头,指向了概念分类,其中“body integrity identity disorder”和“aboulomania”都被归类为“rare mental disorder”(罕见精神障碍)。
概念图结构:
这张图表展示了构建阿里巴巴概念图的过程。
该过程分为三个主要部分:
-
输入文本:此框显示了头实例(如动画电影列表或不同上下文中的哪吒提及)和长尾实例(如罕见精神疾病或藏历新年相关的传统活动)的示例。样本数量(哪吒为12,251个,长尾实例较少)表示数据集中的出现频率。
-
细粒度和长尾概念提取:这里展示了两条用于概念提取的路径:
- 模式匹配:用于头部概念(占数据的21%),包括一个引导过程,其中使用预定义的字符串模式来识别和提取概念,然后用这些概念来生成更多的模式和概念。
- 短语挖掘和序列标注:用于长尾概念(占数据的79%),通过短语挖掘概念,并通过序列标注技术进行进一步细化。
-
分类体系演变:图表最右侧部分演示了基于用户行为的分类体系是如何演变的。
它展示了像“哪吒”和“身体完整性认同障碍”这样的不同概念及其关联的置信度分数(例如0.6、0.9),表明了它们与其他概念或实例的联系强度。
图表还显示了隐式和显式用户行为(搜索和点击统计)如何影响概念分类体系。
分类体系进化
-
背景: 用户搜索查询中的许多实例和概念都与最近的趋势和演变事件有关。传统方法无法随时间更新分类体系。
- 例子: 搜索“哪吒”这一词汇的含义随时间变化而变化,早期可能指的是中国的一个神话人物,而近年来可能更多地指代一部流行的动画电影。
-
解法: 基于隐式和显式用户行为的概念分布估计法 (Concept Distribution Estimation Based on Implicit and Explicit User Behaviors)
- 例子 (基于隐式和显式用户行为的概念分布估计法): 通过分析时间序列数据,系统可以识别出“哪吒”概念的变化。
- 当发现用户开始大量搜索并点击与“哪吒”相关的新动画电影内容时,系统更新了“哪吒”在概念图中的分类,将其与新的文化产品联系起来,而不仅仅是历史或神话人物。
-
之所以使用这个解法: 是因为这种方法通过概念对齐,并利用用户的搜索和点击行为来估计隐式和显式的概念分布,以动态构建一个四层的概念-实例分类体系。
与以往的方法不同,这种方法利用用户行为来估计给定实例的概念置信分数,通过统计用户的搜索和点击行为来估算概念置信度,并结合隐式和显式用户行为的数据,构建一个动态演变的分类体系。
这三个子问题及其解决方案共同构成了阿里巴巴概念图(AliCG)的核心框架,使其能够在正常和长尾设置中提取并动态更新概念分类,支持细粒度的语义搜索和其他文本相关应用。
这张图展示了如何根据用户行为数据来演变分类体系。
左侧展示了用户搜索统计数据,如每日对“Chinese animation film”(中国动画电影)和“mythological character”(神话人物)的搜索量。
通过对实例和概念的对齐(Alignment),聚类(Clustering),以及用户点击统计数据(User Click Statistics),可以观察到用户对不同概念的兴趣。
右侧展示了如何利用这些数据进行分类体系演变。
使用专家规则(Expert Rules)和概率推断(Probabilistic Inference)来估计不同概念的分布,这些分布可以通过用户的隐式和显式行为来进行调整和更新。
用于语义搜索的阿里巴巴概念图(AliCG)的数据层级。
这张图表展示了AliCG用于语义搜索的数据层级结构,突出了如何将用户查询和文档内容与不同层级的概念相匹配:
-
查询示例:“产后吃榴莲安全吗?”这显示了用户的输入。
-
查询的概念:从查询中提取的概念,如“产后是产后恢复期”和“吃榴莲是吃热带水果”。
-
概念层级匹配:展示了如何将查询中提取的概念与AliCG中的不同层级匹配。例如,“饮食”是二级概念,而“吃热带水果”是三级概念。
-
文档的概念: 从相关文档中提取的概念,这些文档应该与查询相关,例如“产后恢复期”和“吃热带水果”。
-
AliCG层级结构: 概念图展示了不同概念和实例之间的关系。例如,“健康”是一个顶级概念,它进一步分支出更具体的概念,如“疾病”、“生理学”,以及更细致的实例,如“产后恢复期”。
这两张图表共同展示了阿里巴巴开发的概念图的复杂和动态性质,用以提高语义搜索能力。它们展示了从广泛类别到具体实例的多层次概念分类,以及用户行为如何影响这个分类体系的演变,以保持搜索结果的相关性和准确性。
对比传统知识图谱
与传统知识图谱相比,AliCG能够以特定的方式增强医学大模型的能力:
-
实时更新与动态适应:
- 知识图谱:虽然包含广泛的医学知识,但更新可能较慢,难以及时反映最新的医学研究成果或疫情信息。
- AliCG:能够动态更新,快速捕捉和反映最新的医学研究发现、疾病爆发或用户搜索趋势,使医学大模型能够实时适应最新的医学知识和公共卫生情况。
-
细粒度概念与深层次理解:
- 知识图谱:通常关注于广泛的概念和实体及其关系,可能在某些特定领域的深度和细节上不够丰富。
- AliCG:专注于从搜索日志等实时数据源提取细粒度概念,提供更深层次的医学知识理解,使医学大模型能够更精准地处理特定医学领域的查询和任务。
-
个性化和上下文敏感性:
- 知识图谱:在处理医学查询时可能不足够考虑用户的个性化需求和上下文信息。
- AliCG:通过分析用户的搜索行为和上下文,能够提供更加个性化的信息和建议,使医学大模型能够更好地满足用户的个性化医疗信息需求。
-
长尾概念的识别与挖掘:
- 知识图谱:可能在覆盖长尾概念和罕见病例方面存在局限性。
- AliCG:特别擅长于识别和挖掘长尾概念,包括罕见疾病和少见症状,这对于提高医学大模型在处理特殊病例时的准确性和适应性非常重要。
-
跨领域知识的融合:
- 知识图谱:可能主要集中于特定领域的知识。
- AliCG:能够跨领域融合知识,例如将公共卫生数据、社交媒体趋势和医学研究成果结合起来,为医学大模型提供更全面的知识背景。
总结来说,AliCG通过其动态更新、细粒度概念挖掘、个性化适应、长尾知识处理和跨领域知识融合的特点,为医学大模型带来了超越传统知识图谱的增强能力,特别是在应对快速变化的医学信息和满足个性化医疗需求方面。
部署方法
如何提高信息检索的质量?
- 解决方案: 文本重写。
- 对于每个文本实例,提取其中传达的概念,并通过将实例与文本连接起来重新编写文本。
- 这种方法易于应用于其他分类或序列标记任务。
- 背景: 信息检索需要高质量的文本理解,以提高搜索的相关性和准确性。
假设有一个在线医疗咨询平台,它使用医学大模型来帮助用户快速找到他们的健康问题相关的信息,或者提供关于疾病诊断的初步意见。
文本重写:用户输入的查询是“我最近总是感到很累,有时候会头晕。”
平台利用AliCG提取出“疲劳”和“头晕”这两个概念,并重写查询为“疲劳 头晕”,然后在医学数据库中检索这两个概念。
这种重写使得搜索结果更加准确,能够针对性地返回与“疲劳”和“头晕”相关的医学文章和建议,而不是仅仅基于原始文本的字面匹配。
如何在神经网络中学习概念嵌入?
- 解决方案: 概念嵌入。
- 利用概念注意力和自注意力的双塔神经网络学习概念嵌入,然后将概念嵌入与文本嵌入串联起来用于子任务。
- 背景: 在深度学习模型中,理解和利用概念间的关系对于提升模型性能是非常重要的。
概念嵌入:平台开发了一个用于疾病诊断建议的深度学习模型。
这个模型通过概念嵌入学习“疲劳”和“头晕”这些症状与特定疾病(如贫血、低血压)之间的联系。
当医生或研究者查询特定症状与疾病的关系时,模型能够提供基于概念关系学习得到的深度见解。
如何在预训练阶段利用概念图?
- 解决方案: 概念化预训练。
- 预训练非常强大,可以在此阶段利用概念图显式地注入知识,使用实例和概念遮蔽策略,结合辅助概念预测损失,来整合概念知识。
- 背景: 预训练阶段为模型注入知识可以大幅度提高其对实际应用的理解和性能。
概念化预训练:在模型预训练阶段,平台利用AliCG中的概念和关系来设计预训练任务,例如,模型需要预测遮蔽的概念是“疲劳”还是“头晕”,或者预测与“疲劳”相关的疾病。
这种预训练方法帮助模型更好地理解医学概念之间的联系,提高了其在实际应用中的性能,如更准确地回答用户的健康问题。
AliCG的部署方法通过文本重写、概念嵌入和概念化预训练,提升了信息检索质量、神经网络的概念学习能力以及模型的预训练效果,这些方法分别针对信息检索中的文本理解、深度学习模型的概念理解能力和预训练阶段的知识注入问题,提供了有效的解决方案。
在阿里巴巴的业务场景中,包括阿里巴巴UC浏览器在内的多种应用已经部署了AliCG,它日常可以提取约2万个概念,并为超过3亿的日活跃用户提供服务。
通过多种评估,包括精细的概念获取、长尾概念挖掘和分类体系的演变评估,以及大规模在线A/B测试,证明了AliCG显著提升了语义搜索的性能。