【医学大模型 动态知识图谱】AliCG概念图 = 知识图谱 + 实时更新、细粒度概念挖掘、个性化适应

AliCG概念图

    • 提出背景
    • 能力强化
      • 细粒度概念获取
      • 长尾概念挖掘
      • 分类体系进化
      • 对比传统知识图谱
    • 部署方法
      • 如何提高信息检索的质量?
      • 如何在神经网络中学习概念嵌入?
      • 如何在预训练阶段利用概念图?

 


提出背景

论文: https://arxiv.org/pdf/2106.01686.pdf

代码: https://github.com/alibaba-research/ConceptGraph

 

AliCG可以被视为一种动态知识图谱。

它不仅包含了传统知识图谱中的结构化知识,还能够捕捉和反映实时数据和趋势,这是其“动态”特性的体现。

动态知识图谱强调的是实时更新和适应新信息的能力,这正是AliCG针对用户搜索日志进行细粒度概念提取并快速适应新趋势的特点。

在传统的知识图谱中,信息可能是静态的,更新周期较长,而AliCG则能够持续地从用户行为中学习,及时更新其内容,更好地服务于动态变化的用户需求和搜索习惯。

具有知识图谱的基本结构,并且具备随时间更新其信息的能力。

假设有一个医学大模型名为MediGraph,它内置了一个传统的医学知识图谱。

当一个患者描述他的症状为“关节疼痛”和“皮疹”时,MediGraph使用其知识图谱来关联这些症状可能指向的几种疾病,如“类风湿关节炎”或“狼疮”。

这些关联是基于医学专家的知识和历史数据建立的,可能不会频繁更新。

另一方面,假设有一个医学大模型名为MediConcept,它使用AliCG概念图。

当同样的患者描述他的症状时,MediConcept不仅识别出了相同的疾病关联,但还注意到最近在用户搜索日志中出现了一个新的关联趋势:许多描述有类似症状的用户都在搜索“寨卡病毒”。

尽管寨卡病毒在医学知识图谱中可能与这些症状不是强关联,但由于AliCG能够捕捉到最新的搜索趋势,MediConcept建议医生考虑这个可能性,并为患者提供相应的测试。

AliCG 其动态性和适应性的优势。

它不仅包括了传统医学知识,具有知识图谱的基本结构。

还能快速适应新兴的疾病趋势和用户行为,这在面对像寨卡病毒这样新出现的健康威胁时显得尤为重要。

这使得医学大模型能够提供更及时和相关的诊断支持,进而提升医疗服务的质量。

 


能力强化

细粒度概念获取

  • 背景: 在阿里巴巴的语义搜索场景中,需要细粒度的概念来增加答案结果的召回率。
  • 传统的概念提取方法主要关注于较粗粒度的概念,如类别或类型,这在处理用户具体意图时显得不够。
    • 例子: 用户在搜索引擎中输入“烤架”,而传统的概念提取可能将其简单归类为“工具”。
    • 然而,对于想要进行烧烤的用户来说,将“烤架”细化为“烧烤工具”会更有帮助。
  • 解法: 启动对齐共识法 (Bootstrapping with Alignment Consensus Approach)
    • 例子 (启动对齐共识法): 通过分析搜索日志,发现“烤架”经常出现在与烧烤相关的查询中。
    • 系统使用少量预定义模式识别出“烤架”是一种“烧烤工具”,然后通过观察用户频繁点击的与烧烤相关的商品标题来验证这一概念。
  • 之所以使用这个解法: 是因为这种方法能够从嘈杂的搜索日志中提取出细粒度的概念。
  • 通过使用一小部分预定义的字符串模式来提取概念,然后利用这些概念来扩展模式池,进一步通过查询-标题对齐来验证新挖掘的概念。

这种方法控制模式的泛化和概念的一致性,通过查询-标题对的方式,提高了从嘈杂文本中提取细粒度概念的质量。

 

长尾概念挖掘

  • 背景: 传统方法通常无法从极短或噪声很大的查询中提取长尾概念。
  • 这是因为这些查询往往包含少量实例,且缺乏足够的上下文信息和共现样本。
    • 例子: 在搜索引擎中,可能只有极少数查询提到“身体完整性认同障碍”,这是一个罕见的心理状况。
    • 传统方法难以从这样的长尾查询中提取出“罕见精神障碍”这一概念。
  • 解法: 概念化短语挖掘与自训练集成共识法 (Conceptualized Phrase Mining and Self-Training with Ensemble Consensus Approach)
    • 例子 (概念化短语挖掘与自训练集成共识法): 系统首先通过无监督学习识别出具有概念化特征的短语,如从少量的实例中学习到“身体完整性认同障碍”属于一种“罕见精神障碍”。
    • 然后,通过自训练和集成学习方法,在有限的训练数据下提高对长尾概念的识别能力。
  • 之所以使用这个解法: 是因为这种方法可以无监督地扩展现有的短语挖掘算法,通过概念化特征来挖掘概念,同时提出一种新的低资源序列标注框架来提取这些分散的概念。

 

在这里插入图片描述
这张图说明了如何从文本中提取出现频率较低的长尾概念。

在左侧,给出了一个长尾实例,即包含“罕见精神障碍”如“aboulomania”(强迫症之一)和“body integrity identity disorder”(身体完整性认同障碍)的文本。

然后,通过短语挖掘技术识别出这些术语,这个过程展示在箭头下方的两个绿色椭圆中。

接下来的挑战是如何从文本中提取(如何提取?)并将这些术语与正确的概念相连接(如何链接?)。

右侧的橙色箭头指出了存在的两个主要问题:模式泛化不足(Poor pattern generalization)和共现样本少(Few co-occurrence samples)。

为了解决这些问题,图中展示了一个向下的箭头,指向了概念分类,其中“body integrity identity disorder”和“aboulomania”都被归类为“rare mental disorder”(罕见精神障碍)。

 

概念图结构:
在这里插入图片描述
这张图表展示了构建阿里巴巴概念图的过程。

该过程分为三个主要部分:

  1. 输入文本:此框显示了头实例(如动画电影列表或不同上下文中的哪吒提及)和长尾实例(如罕见精神疾病或藏历新年相关的传统活动)的示例。样本数量(哪吒为12,251个,长尾实例较少)表示数据集中的出现频率。

  2. 细粒度和长尾概念提取:这里展示了两条用于概念提取的路径:

    • 模式匹配:用于头部概念(占数据的21%),包括一个引导过程,其中使用预定义的字符串模式来识别和提取概念,然后用这些概念来生成更多的模式和概念。
    • 短语挖掘和序列标注:用于长尾概念(占数据的79%),通过短语挖掘概念,并通过序列标注技术进行进一步细化。
  3. 分类体系演变:图表最右侧部分演示了基于用户行为的分类体系是如何演变的。

    它展示了像“哪吒”和“身体完整性认同障碍”这样的不同概念及其关联的置信度分数(例如0.6、0.9),表明了它们与其他概念或实例的联系强度。

    图表还显示了隐式和显式用户行为(搜索和点击统计)如何影响概念分类体系。
     

分类体系进化

  • 背景: 用户搜索查询中的许多实例和概念都与最近的趋势和演变事件有关。传统方法无法随时间更新分类体系。

    • 例子: 搜索“哪吒”这一词汇的含义随时间变化而变化,早期可能指的是中国的一个神话人物,而近年来可能更多地指代一部流行的动画电影。
  • 解法: 基于隐式和显式用户行为的概念分布估计法 (Concept Distribution Estimation Based on Implicit and Explicit User Behaviors)

    • 例子 (基于隐式和显式用户行为的概念分布估计法): 通过分析时间序列数据,系统可以识别出“哪吒”概念的变化。
    • 当发现用户开始大量搜索并点击与“哪吒”相关的新动画电影内容时,系统更新了“哪吒”在概念图中的分类,将其与新的文化产品联系起来,而不仅仅是历史或神话人物。
  • 之所以使用这个解法: 是因为这种方法通过概念对齐,并利用用户的搜索和点击行为来估计隐式和显式的概念分布,以动态构建一个四层的概念-实例分类体系。

    与以往的方法不同,这种方法利用用户行为来估计给定实例的概念置信分数,通过统计用户的搜索和点击行为来估算概念置信度,并结合隐式和显式用户行为的数据,构建一个动态演变的分类体系。

这三个子问题及其解决方案共同构成了阿里巴巴概念图(AliCG)的核心框架,使其能够在正常和长尾设置中提取并动态更新概念分类,支持细粒度的语义搜索和其他文本相关应用。

在这里插入图片描述

这张图展示了如何根据用户行为数据来演变分类体系。

左侧展示了用户搜索统计数据,如每日对“Chinese animation film”(中国动画电影)和“mythological character”(神话人物)的搜索量。

通过对实例和概念的对齐(Alignment),聚类(Clustering),以及用户点击统计数据(User Click Statistics),可以观察到用户对不同概念的兴趣。

右侧展示了如何利用这些数据进行分类体系演变。

使用专家规则(Expert Rules)和概率推断(Probabilistic Inference)来估计不同概念的分布,这些分布可以通过用户的隐式和显式行为来进行调整和更新。
 

用于语义搜索的阿里巴巴概念图(AliCG)的数据层级。

在这里插入图片描述
这张图表展示了AliCG用于语义搜索的数据层级结构,突出了如何将用户查询和文档内容与不同层级的概念相匹配:

  1. 查询示例:“产后吃榴莲安全吗?”这显示了用户的输入。

  2. 查询的概念:从查询中提取的概念,如“产后是产后恢复期”和“吃榴莲是吃热带水果”。

  3. 概念层级匹配:展示了如何将查询中提取的概念与AliCG中的不同层级匹配。例如,“饮食”是二级概念,而“吃热带水果”是三级概念。

  4. 文档的概念: 从相关文档中提取的概念,这些文档应该与查询相关,例如“产后恢复期”和“吃热带水果”。

  5. AliCG层级结构: 概念图展示了不同概念和实例之间的关系。例如,“健康”是一个顶级概念,它进一步分支出更具体的概念,如“疾病”、“生理学”,以及更细致的实例,如“产后恢复期”。

这两张图表共同展示了阿里巴巴开发的概念图的复杂和动态性质,用以提高语义搜索能力。它们展示了从广泛类别到具体实例的多层次概念分类,以及用户行为如何影响这个分类体系的演变,以保持搜索结果的相关性和准确性。

 

对比传统知识图谱

与传统知识图谱相比,AliCG能够以特定的方式增强医学大模型的能力:

  1. 实时更新与动态适应

    • 知识图谱:虽然包含广泛的医学知识,但更新可能较慢,难以及时反映最新的医学研究成果或疫情信息。
    • AliCG:能够动态更新,快速捕捉和反映最新的医学研究发现、疾病爆发或用户搜索趋势,使医学大模型能够实时适应最新的医学知识和公共卫生情况。
  2. 细粒度概念与深层次理解

    • 知识图谱:通常关注于广泛的概念和实体及其关系,可能在某些特定领域的深度和细节上不够丰富。
    • AliCG:专注于从搜索日志等实时数据源提取细粒度概念,提供更深层次的医学知识理解,使医学大模型能够更精准地处理特定医学领域的查询和任务。
  3. 个性化和上下文敏感性

    • 知识图谱:在处理医学查询时可能不足够考虑用户的个性化需求和上下文信息。
    • AliCG:通过分析用户的搜索行为和上下文,能够提供更加个性化的信息和建议,使医学大模型能够更好地满足用户的个性化医疗信息需求。
  4. 长尾概念的识别与挖掘

    • 知识图谱:可能在覆盖长尾概念和罕见病例方面存在局限性。
    • AliCG:特别擅长于识别和挖掘长尾概念,包括罕见疾病和少见症状,这对于提高医学大模型在处理特殊病例时的准确性和适应性非常重要。
  5. 跨领域知识的融合

    • 知识图谱:可能主要集中于特定领域的知识。
    • AliCG:能够跨领域融合知识,例如将公共卫生数据、社交媒体趋势和医学研究成果结合起来,为医学大模型提供更全面的知识背景。

总结来说,AliCG通过其动态更新、细粒度概念挖掘、个性化适应、长尾知识处理和跨领域知识融合的特点,为医学大模型带来了超越传统知识图谱的增强能力,特别是在应对快速变化的医学信息和满足个性化医疗需求方面。

 

部署方法

如何提高信息检索的质量?

  • 解决方案: 文本重写
  • 对于每个文本实例,提取其中传达的概念,并通过将实例与文本连接起来重新编写文本。
  • 这种方法易于应用于其他分类或序列标记任务。
  • 背景: 信息检索需要高质量的文本理解,以提高搜索的相关性和准确性。

假设有一个在线医疗咨询平台,它使用医学大模型来帮助用户快速找到他们的健康问题相关的信息,或者提供关于疾病诊断的初步意见。

文本重写:用户输入的查询是“我最近总是感到很累,有时候会头晕。”

平台利用AliCG提取出“疲劳”和“头晕”这两个概念,并重写查询为“疲劳 头晕”,然后在医学数据库中检索这两个概念。

这种重写使得搜索结果更加准确,能够针对性地返回与“疲劳”和“头晕”相关的医学文章和建议,而不是仅仅基于原始文本的字面匹配。

 

如何在神经网络中学习概念嵌入?

  • 解决方案: 概念嵌入
  • 利用概念注意力和自注意力的双塔神经网络学习概念嵌入,然后将概念嵌入与文本嵌入串联起来用于子任务。
  • 背景: 在深度学习模型中,理解和利用概念间的关系对于提升模型性能是非常重要的。

概念嵌入:平台开发了一个用于疾病诊断建议的深度学习模型。

这个模型通过概念嵌入学习“疲劳”和“头晕”这些症状与特定疾病(如贫血、低血压)之间的联系。

当医生或研究者查询特定症状与疾病的关系时,模型能够提供基于概念关系学习得到的深度见解。

如何在预训练阶段利用概念图?

  • 解决方案: 概念化预训练
  • 预训练非常强大,可以在此阶段利用概念图显式地注入知识,使用实例和概念遮蔽策略,结合辅助概念预测损失,来整合概念知识。
  • 背景: 预训练阶段为模型注入知识可以大幅度提高其对实际应用的理解和性能。

概念化预训练:在模型预训练阶段,平台利用AliCG中的概念和关系来设计预训练任务,例如,模型需要预测遮蔽的概念是“疲劳”还是“头晕”,或者预测与“疲劳”相关的疾病。

这种预训练方法帮助模型更好地理解医学概念之间的联系,提高了其在实际应用中的性能,如更准确地回答用户的健康问题。

 

AliCG的部署方法通过文本重写、概念嵌入和概念化预训练,提升了信息检索质量、神经网络的概念学习能力以及模型的预训练效果,这些方法分别针对信息检索中的文本理解、深度学习模型的概念理解能力和预训练阶段的知识注入问题,提供了有效的解决方案。

在阿里巴巴的业务场景中,包括阿里巴巴UC浏览器在内的多种应用已经部署了AliCG,它日常可以提取约2万个概念,并为超过3亿的日活跃用户提供服务。

通过多种评估,包括精细的概念获取、长尾概念挖掘和分类体系的演变评估,以及大规模在线A/B测试,证明了AliCG显著提升了语义搜索的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/385290.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

论文解读:MobileOne: An Improved One millisecond Mobile Backbone

论文创新点汇总:人工智能论文通用创新点(持续更新中...)-CSDN博客 论文总结 关于如何提升模型速度,当今学术界的研究往往聚焦于如何将FLOPs或者参数量的降低,而作者认为应该是减少分支数和选择高效的网络结构。 概述 MobileOne(≈MobileN…

《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_2

《剑指Offer》笔记&题解&思路&技巧&优化_Part_2 😍😍😍 相知🙌🙌🙌 相识🍓🍓🍓广度优先搜索BFS🍓🍓🍓深度优先搜索DF…

九、java 继承

文章目录 java 继承3.1 根父类Object3.2 方法重写3.3 继承案例:图形类继承体系3.4 继承的细节3.4.1 构造方法3.4.2 重名与静态绑定3.4.3 重载和重写3.4.4 父子类型转换3.4.5 继承访问权限protected3.4.6 可见性重写3.4.7 防止继承final 3.5 继承是把双刃剑3.5.1 继承…

70.SpringMVC怎么和AJAX相互调用的?

70.SpringMVC怎么和AJAX相互调用的&#xff1f; &#xff08;1&#xff09;加入Jackson.jar&#xff08;2&#xff09;在配置文件中配置json的消息转换器.(jackson不需要该配置HttpMessageConverter&#xff09; <!‐‐它就帮我们配置了默认json映射‐‐> <mvc:anno…

Netty应用——实例-群聊系统(十六)

编写一个Netty群聊系统&#xff0c;实现服务器端和客户端之间的数据简单通讯 (非阻塞)实现多人群聊服务器端:可以监测用户上线&#xff0c;离线&#xff0c;并实现消息转发功能客户端:通过channel可以无阳塞发送消息给其它所有用户&#xff0c;同时可以接受其它用户发送的消息(…

哈夫曼树的学习以及实践

哈夫曼树 哈夫曼树的基本了解哈夫曼树的基本概念创建霍夫曼树的思路编码构建的思路代码实现创建HuffmanTree结点初始化HuffmanTree创建霍夫曼树霍夫曼树编码 哈夫曼树的基本了解 给定 n 个 权值 作为 n 个 叶子节点&#xff0c;构造一颗二叉树&#xff0c;若该树的 带权路径长…

C语言第二十三弹---指针(七)

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】 指针 1、sizeof和strlen的对比 1.1、sizeof 1.2、strlen 1.3、sizeof 和 strlen的对比 2、数组和指针笔试题解析 2.1、⼀维数组 2.2、二维数组 总结 1、si…

C语言每日一题(56)平衡二叉树

力扣网 110 平衡二叉树 题目描述 给定一个二叉树&#xff0c;判断它是否是高度平衡的二叉树。 本题中&#xff0c;一棵高度平衡二叉树定义为&#xff1a; 一个二叉树每个节点 的左右两个子树的高度差的绝对值不超过 1 。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,…

牛客错题整理——C语言(实时更新)

1.以下程序的运行结果是&#xff08;&#xff09; #include <stdio.h> int main() { int sum, pad,pAd; sum pad 5; pAd sum, pAd, pad; printf("%d\n",pAd); }答案为7 由于赋值运算符的优先级高于逗号表达式&#xff0c;因此pAd sum, pAd, pad;等价于(…

Linux系统之部署File Browser文件管理系统

Linux系统之部署File Browser文件管理系统 一、File Browser介绍1.1 File Browser简介1.2 File Browser功能1.3 File Browser使用场景 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本 四、安装File Browser4…

Linux_线程

线程与进程 多级页表 线程控制 线程互斥 线程同步 生产者消费者模型 常见概念 下面选取32位系统举例。 一.线程与进程 上图是曾经我们认为进程所占用的资源的集合。 1.1 线程概念 线程是一个执行分支&#xff0c;执行粒度比进程细&#xff0c;调度成本比进程低线程是cpu…

SpringCloud-Eureka服务注册中心测试实践

5. Eureka服务注册中心 5.1 什么是Eureka Netflix在涉及Eureka时&#xff0c;遵循的就是API原则.Eureka是Netflix的有个子模块&#xff0c;也是核心模块之一。Eureka是基于REST的服务&#xff0c;用于定位服务&#xff0c;以实现云端中间件层服务发现和故障转移&#xff0c;服…

fast.ai 深度学习笔记(六)

深度学习 2&#xff1a;第 2 部分第 12 课 原文&#xff1a;medium.com/hiromi_suenaga/deep-learning-2-part-2-lesson-12-215dfbf04a94 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 来自 fast.ai 课程的个人笔记。随着我继续复习课程以“真正”理解它&#xff0c;…

Java 基于微信小程序的私家车位共享系统

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

LC 987. 二叉树的垂序遍历

987. 二叉树的垂序遍历 难度 : 困难 题目大意&#xff1a; 给你二叉树的根结点 root &#xff0c;请你设计算法计算二叉树的 垂序遍历 序列。 对位于 (row, col) 的每个结点而言&#xff0c;其左右子结点分别位于 (row 1, col - 1) 和 (row 1, col 1) 。树的根结点位于 …

爬虫2—用爬虫爬取壁纸(想爬多少张爬多少张)

先看效果图&#xff1a; 我这个是爬了三页的壁纸60张。 上代码了。 import requests import re import os from bs4 import BeautifulSoupcount0 img_path "./壁纸图片/"#指定保存地址 if not os.path.exists(img_path):os.mkdir(img_path) headers{ "User-Ag…

【STL】string的模拟实现

string类的模拟实现 一、接口函数总览二、默认成员函数1、构造函数2、拷贝构造函数&#xff08;1&#xff09;写法一&#xff1a;传统写法&#xff08;2&#xff09;写法二&#xff1a;现代写法 3、赋值运算符重载函数&#xff08;1&#xff09;写法一&#xff1a;传统写法&…

【开源】JAVA+Vue.js实现天然气工程运维系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统角色分类2.2 核心功能2.2.1 流程 12.2.2 流程 22.3 各角色功能2.3.1 系统管理员功能2.3.2 用户服务部功能2.3.3 分公司&#xff08;施工单位&#xff09;功能2.3.3.1 技术员角色功能2.3.3.2 材料员角色功能 2.3.4 安…

东风联手华为打造首款SUV,车长超5米,配纯电和增程双动力系统

在上个月&#xff08;2024年1月份&#xff09;&#xff0c;东风汽车和华为达成了战略合作计划&#xff0c;两家品牌将联手打造全新的汽车品牌——奕派汽车&#xff0c;而目前我们从相关渠道获悉&#xff0c;其首款SUV车型已经获得了实拍亮相&#xff0c;而新车的内部代号为S59&…

MySQL篇----第十四篇

系列文章目录 文章目录 系列文章目录前言一、MySQL 数据库作发布系统的存储,一天五万条以上的增量,预计运维三年,怎么优化?二、锁的优化策略三、索引的底层实现原理和优化四、什么情况下设置了索引但无法使用前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽…