【医学知识图谱 自动补全 关系抽取】生成模型 + 医学知识图谱 = 发现三元组隐藏的关系实体对

生成模型 + 医学知识图谱 = 发现三元组新关系实体对

    • 提出背景
    • 问题:如何自动发现并生成医疗领域中未被标注的实体关系三元组?
    • CRVAE模型

 


提出背景

论文:https://dl.acm.org/doi/pdf/10.1145/3219819.3220010

 

以条件关系变分自编码器(CRVAE)模型为基础,解决关系医疗实体对发现问题,并生成新的、有意义的医疗实体对。

尽管有些疾病与症状之间的关系已经被广泛记录,但仍然存在许多未被探索或记录的潜在关系。

问题1:医疗实体,如症状,可能以多种方式表达。

  • “鼻塞”可以表述为“鼻子堵了”、“鼻塞”或“鼻腔阻塞”。

问题2:尽管数据库中记录了一些疾病与症状的关系,但还有许多未被发现或记录的关系。

  • 发现隐藏的关系,如模型可能生成一个新的实体对<季节性过敏, 鼻塞>。

问题3:特定医疗关系的实体对发现

  • 假设我们有一个巨大的医疗信息库,里面记录了很多关于疾病和症状之间的关系。
  • 例如,“流感会引起发热”或“过敏会引起皮肤痒”。
  • 但是,这个信息库并不完整,还有很多我们不知道的疾病和症状之间的关系。
  • 怎么在不需要人工去一一验证每种可能的疾病和症状组合的情况下,自动发现新的医疗关系(疾病和症状之间的关系)。

 

总问题:如何在不依赖大量未标注数据和复杂数据预处理的情况下,自动发现这些新的、有意义的疾病与症状之间的关系?

  • 问题1的解法:深度学习与贝叶斯推断:CRVAE结合了深度学习和贝叶斯推断的优点,通过无需手动特征工程的强大学习能力,捕捉医疗实体对的共性。
  • 问题2的解法:基于密度的采样策略:CRVAE采用基于密度的采样策略,通过解码采样的潜在变量来生成新的医疗实体对。
  • 问题3的解法:条件推断能力:CRVAE的条件推断能力使其能够更有效地为特定的医疗关系发现结构化医疗知识。

问题:如何自动发现并生成医疗领域中未被标注的实体关系三元组?

  1. 子问题1:无监督表示学习的效率问题

    • 背景:传统的自编码器(AE)广泛用于无监督表示学习,但在具体生成任务上的应用受限。
    • 子解法1:变分自编码器(VAE):采用VAE模型,通过建立输入数据与潜在变量间的概率分布关系,实现更具表现力的生成。
    • 通过VAE,我们学习到“糖尿病”这样的疾病实体和“频繁尿意”这样的症状实体的潜在表示,捕捉到它们之间的统计关联性。
  2. 子问题2:生成特定类型数据的能力不足

    • 背景:VAE能生成多种类型的数据,但难以生成属于特定类型的输出。
    • 子解法2:条件变分自编码器(CVAE):引入CVAE,通过在模型中添加条件变量,实现生成特定类型数据的目标。
    • 我们希望模型不仅能学习到疾病和症状之间的一般关系,还能生成具体的、未被标注的“引起”关系实体对。
    • CVAE允许我们在生成过程中引入条件,如特定的“引起”关系,从而专注于生成表示该关系的疾病与症状实体对。
  3. 子问题3:特定医疗关系实体对的精准生成

    • 背景:需要一种方法,能够精确生成表示特定医疗关系的实体对,如疾病和症状之间的“引起”关系。
    • 子解法3:条件关系变分自编码器(CRVAE):开发CRVAE模型,不仅考虑了实体的初始表示,还引入了关系指示器作为输入,通过编码器、解码器和生成器三个模块的协同工作,有效地生成特定医疗关系的实体对。
    • 我们需要一种机制,能够准确生成如“长时间坐姿”(疾病实体)与“下背痛”(症状实体)之间的“引起”关系,这种关系在数据集中可能尚未存在。
    • 通过CRVAE,模型学习现有的实体对和它们的关系,如“糖尿病”和“频繁尿意”的“引起”关系。然后,模型能够生成新的、合理的实体对,比如预测“长时间坐姿”可能会“引起”“下背痛”。
  • 为什么使用VAE:VAE通过建立数据的潜在概率分布模型,为生成可观测数据提供了理论基础,相较于传统AE,具有更强的表现力和生成能力。

  • 为什么引入CVAE:在VAE的基础上引入条件变量(如类标签),CVAE能够生成符合特定条件的数据,这在需要控制生成数据类型时尤为重要。

  • 为什么开发CRVAE:针对医疗实体关系发现的特定需求,CRVAE通过整合实体表示和关系指示器,实现了对特定医疗关系实体对的精准生成。这种方法不仅能够从现有数据中学习实体对之间的关系,还能够生成训练数据中未出现的新实体对,极大地扩展了医疗知识库。

这种分层次的解决方案结构,从基础的自编码器到针对具体应用场景的CRVAE模型,展示了如何通过深入分析问题的特征和背景,逐步提出并实施有效的解决策略。

在CRVAE模型训练完成后,我们向模型提供一个条件,即“引起”关系的标识。

模型接着在学习到的潜在空间中探索,并生成新的疾病与症状实体对,如生成了一个未在训练数据中直接观察到的实体对:“缺乏维生素D”(疾病实体)和“骨痛”(症状实体)之间的“引起”关系。

这个新生成的实体对为医疗研究和临床实践提供了可能的新见解,有助于扩展现有的医疗知识库。

CRVAE模型

  1. 学习阶段
    在CRVAE模型的学习阶段,模型执行以下步骤:

    a. 输入数据获取:
    模型接收医疗实体对,例如“糖尿病”和“视力模糊”作为输入。
    这些实体对通过自然语言在医疗文本中被表述,可能包含不同的表达方式和同义词。

    b. 实体表示学习:
    CRVAE模型使用预训练的词嵌入(word embeddings)来转换文本输入到数值向量,这些向量捕捉了实体的丰富语义信息。

    c. 编码器操作:
    编码器网络部分接着将这些数值向量转换为潜在变量(latent variables),这个过程通过一系列的非线性变换层实现。
    这些潜在变量旨在捕捉疾病与症状之间的核心关系特征。

    d. 特征提取:
    在编码过程中,CRVAE模型学习到的是不仅与具体实体有关,还与它们之间的医疗关系相关的潜在特征。
    例如,它可以学习到“糖尿病”和“视力模糊”之间的“引起”关系。

图示:
在这里插入图片描述

这张图展示了条件关系变分自编码器(CRVAE)在训练过程中的结构和工作流程。

图中描述了CRVAE模型的两个主要部分:编码器(Encoder)和解码器(Decoder),以及它们之间的潜在变量(Latent Variables)。

  1. 模型输入

    • 输入数据(在白色方框中),分别为头实体 ( e_h ) 和尾实体 ( e_t ),它们代表医疗实体对,如疾病和症状。
  2. 编码器(绿色部分)

    • 实体通过预训练的嵌入(embeddings)转换为数值向量 ( embed_h ) 和 ( embed_t )。
    • 这些嵌入通过一系列转换 ( trans ) 进一步处理,以增强与医疗关系相关的信息。
    • 处理后的向量 ( trans_{ht} ) 被送入潜在变量层,生成均值 ( \mu ) 和方差 ( \sigma^2 ),这些变量结合了关系指示器 ( r )。
  3. 潜在变量(紫色部分)

    • 均值 ( \mu ) 和方差 ( \sigma^2 ) 用于定义实体对的潜在空间分布,这是生成新的实体对的基础。
  4. 解码器(蓝色部分)

    • 潜在变量 ( z ),从潜在空间分布中采样得到,结合关系指示器 ( r ),通过解码器网络重构实体对。
    • 解码过程中,潜在变量重新转化为增强后的转换 ( trans’ ),进而重构为实体嵌入 ( embed’_h ) 和 ( embed’_t )。
    • 这些重构的嵌入是原始输入实体对的近似表示,目标是最小化输入实体和重构实体之间的差异。
    • 这样,模型就能学习如何有效地表示和重建医疗实体对。
  5. 重建过程

    • 在重建过程中,( trans’_h ) 和 ( trans’_t ) 被解码器网络处理,并尝试恢复成最初的实体嵌入 ( embed_h ) 和 ( embed_t )。
    • 这一过程涉及到多层非线性变换,旨在复原实体对的原始数据表示。
  6. 模型输出

    • 解码器的输出 ( embed’_h ) 和 ( embed’_t ) 是头实体和尾实体的预测嵌入,它们反映了模型对原始输入的理解和重构能力。

这个过程使CRVAE能够学习如何从训练数据中捕捉到医疗实体对之间的复杂关系,并将这种理解用于生成新的、潜在的医疗实体对,这可能有助于发现之前未知的医疗关系。

模型的这种生成能力特别适用于数据稀疏的领域,比如医疗实体关系发现,其中许多潜在的关系可能尚未被发现或记录在现有的医疗数据库中。
 


  1. 生成阶段
    学习阶段完成后,CRVAE模型进入生成阶段,执行以下步骤:

    a. 潜在空间采样:
    模型在潜在空间中进行采样。
    在这个空间中,每一点都代表了一种可能的医疗实体对关系。
    这个采样过程是基于学习到的潜在变量的分布进行的。

    b. 解码器
    操作:解码器网络部分接收潜在空间中的采样点,并将它们转换回医疗实体对的数值向量。
    这一步骤是逆编码过程,目的是重建或生成新的实体对。

    c. 实体对生成:
    通过解码过程,模型生成新的实体对,这些实体对尚未在医疗数据库中记录。
    由于潜在空间的采样点可能对应于从未观察到的实体组合,因此这个过程能够产生新颖的医疗实体对。

    d. 输出解释:
    生成的数值向量通过与预训练词嵌入的逆操作转换回自然语言实体。
    这允许模型提出新的、有医学意义的疾病与症状关系,如可能由“糖尿病”引起的新症状“心脏疼痛”。

    e. 后处理和验证:
    生成的实体对可能需要通过医疗专家进行验证,以确认它们的医学意义和新颖性。
    这一步骤不是CRVAE模型自动执行的,通常是后续的一个步骤。

图示:
在这里插入图片描述

这张图是关于条件关系变分自编码器(CRVAE)中的生成器(Generator)模块的插图。

图解说明了生成器如何从潜在空间生成有意义的、新颖的医疗实体对。

  1. 密度基采样(Density-based Sampling)

    • 这一步骤表示生成器如何在潜在空间中选择样本点。
    • 密度基采样意味着从潜在空间中的高密度区域(即更可能的或常见的实体对区域)选择样本点。
  2. 潜在空间与实体关系指示器(r)

    • 采样点(记为 z ^ \hat{z} z^ 结合了实体关系指示器(r),这里的 r 代表了医疗实体对之间的特定关系(例如“引起”)。
  3. 生成器网络

    • 接下来,采样点和关系指示器一起通过生成器网络。
    • 这个网络的结构设计用于将潜在空间的点转换为可识别的医疗实体对。
  4. 生成医疗实体对

    • z ^ \hat{z} z^ 通过网络处理后,得到两个输出: e ^ h \hat{e}_h e^h e ^ t \hat{e}_t e^t,这两个输出代表了生成的头实体(如疾病)和尾实体(如症状)。
  5. 结果

    • 最终结果是一对医疗实体,如 e ^ h \hat{e}_h e^h 可能代表一个特定的疾病,而 e ^ t \hat{e}_t e^t 代表该疾病可能引起的症状。

通过这个两阶段的过程,CRVAE模型利用从现有医疗实体对学习到的信息,能够生成新的、有医学价值的实体对。

它提供了一种在没有大规模标注数据的情况下自动扩展医疗知识库的有效方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/385581.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【51单片机】定时器(江科大)

7.1定时器 1.定时器介绍: 51单片机的定时器属于单片机的内部资源,其电路的连接和运转均在单片机内部完成 2. 定时器作用: (1)用于计时系统,可实现软件计时,或者使程序每隔一固定时间完成一项操作 (2)替代长时间的Delay,提高CPU的运行效率和处理速度 定时器在单片机内部就像一个…

模型 “焦糖布丁”理论

系列文章 主要是 分享 思维模型&#xff0c;涉及各个领域&#xff0c;重在提升认知。关注需求本质。 1 “焦糖布丁”理论的应用 1.1 “焦糖布丁”理论-海底捞的创新 海底捞以其优质的服务而闻名&#xff0c;它的成功之处在于深刻理解了消费者的需求和任务&#xff0c;并提供了…

【运维测试】测试理论+工具总结笔记第1篇:测试理论的主要内容(已分享,附代码)

本系列文章md笔记&#xff08;已分享&#xff09;主要讨论测试理论测试工具相关知识。Python测试理论的主要内容&#xff0c;掌握软件测试的基本流程&#xff0c;知道软件测试的V和W模型的优缺点&#xff0c;掌握测试用例设计的要素&#xff0c;掌握等价类划分法、边界值法、因…

React18原理: 时间分片技术选择

渲染1w个节点的不同方式 1 &#xff09;案例1&#xff1a;一次渲染1w个节点 <div idroot><div><script type"text/javascript">function randomHexColor() {return "#" ("0000" (Math.random() * 0x1000000 << 0).toS…

【51单片机】蜂鸣器(江科大)

11.1蜂鸣器 1.蜂鸣器介绍 蜂鸣器是一种将电信号转换为声音信号的器件,常用来产生设备的按键音、报警音等提示信号 蜂鸣器按驱动方式可分为有源蜂鸣器和无源蜂鸣器 有源蜂鸣器:内部自带振荡源,将正负极接上直流电压即可持续发声,频率固定 无源蜂鸣器:内部不带振荡源,需…

【MATLAB】小波神经网络回归预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 小波神经网络回归预测算法是一种利用小波变换和人工神经网络相结合的方法&#xff0c;用于解决回归预测问题。下面将详细介绍该算法的原理与方法&#xff1a; 小波变换&#xff1a; 小波变…

Codeforces Round 924 (Div. 2)

Codeforces Round 924 (Div. 2) Codeforces Round 924 (Div. 2) A. Rectangle Cutting 题意&#xff1a;给出a*b的矩形&#xff0c;沿着其中一个边恰好一分为二后可以组成一个新的矩形 思路&#xff1a;判断其中一个边是否可以被2整除以及二分后是否等于另一个边即可 AC cod…

C++进阶(十六)特殊类设计

&#x1f4d8;北尘_&#xff1a;个人主页 &#x1f30e;个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上&#xff0c;不忘来时的初心 文章目录 一、请设计一个类&#xff0c;不能被拷贝二、请设计一个类&#xff0c;只能在堆上创建对象三、…

腾讯云幻兽帕鲁服务器配置怎么选择合适?

腾讯云幻兽帕鲁服务器配置怎么选&#xff1f;根据玩家数量选择CPU内存配置&#xff0c;4到8人选择4核16G、10到20人玩家选择8核32G、2到4人选择4核8G、32人选择16核64G配置&#xff0c;腾讯云百科txybk.com来详细说下腾讯云幻兽帕鲁专用服务器CPU内存带宽配置选择方法&#xff…

8868体育助力西甲最新积分榜 皇马4球大胜稳坐榜一

西甲联赛第24轮的四场比赛于2月10日全面收官。其中&#xff0c;皇马在主场迎战吉罗纳队&#xff0c;以4-0的大比分击败对手&#xff0c;将领先优势扩大到5分&#xff0c;稳坐西甲榜首&#xff0c;掌握了争冠的主动权。 威尼修斯的世界波为皇马打开胜利之门&#xff0c;第6分钟就…

侧信道攻击是什么

侧信道攻击是什么? 侧信道攻击是一种利用系统的物理实现或实现的特定属性来获取信息的攻击方式。这些攻击利用了系统在执行特定操作时产生的信息泄漏&#xff0c;而不是直接攻击系统的计算或加密算法。侧信道攻击通常利用系统的功耗、电磁辐射、时间延迟等物理特性进行攻击&a…

Python实现MACD指标计算:股票技术分析的利器系列(1)

Python实现MACD指标计算&#xff1a;股票技术分析的利器系列&#xff08;1&#xff09; 介绍核心代码&#xff1a;EMA核心代码&#xff1a;MACD200 次交易日的收盘价格完整代码最终运行代码的效果展示DIFDEAMACD 介绍 先看看官方介绍&#xff1a; MACD (平滑异同平均线&#x…

Linux——进程间通信:管道

我们在开发过程中&#xff0c;可能会碰到两个或多个进程需要协同进行&#xff0c;这两个进 程之间有着一定的关系&#xff0c;这个进程可能会需要另一个进程的某些消息来达 到自己的目的&#xff0c;或者是一个进程控制着另一个进程&#xff0c;又或者是需要某种资 源的共享。但…

BFS与DFS初级练习(排列数字,n-皇后,走迷宫)

BFS与DFS初步了解 DFS&#xff08;深度优先搜索&#xff09;和BFS&#xff08;广度优先搜索&#xff09;是两种常用的图遍历算法。 DFS是一种递归的搜索算法&#xff0c;它从起始节点开始&#xff0c;沿着路径依次访问与当前节点相邻的未访问节点&#xff0c;直到无法继续访问…

【易学】周易入门 ③ ( 玄学五术 - 山医命相卜 | 天命无常 唯有德者居之 | 预测学模型 | 五行学说 | 五行相生 | 五行相克 )

文章目录 一、玄学五术 - 山医命相卜二、天命无常 唯有德者居之三、预测学模型四、五行学说1、五行相生2、五行相克 一、玄学五术 - 山医命相卜 玄学五术 : 山 : 修行 " 肉体 " 和 " 精神 " , 以寻求 身心超脱 ; 肉体修行 - 拳法 : 太极拳 , 五禽戏 , 易筋…

那些 C语言指针 你不知道的小秘密 (完结篇)

本篇会加入个人的所谓‘鱼式疯言’ ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 我会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人能…

BUUCTF LKWA

1.访问页面。 2.选择 Variables variable 关卡 3.获得flag http://357dab81-78b8-4d74-976a-4a69dd894542.node5.buuoj.cn:81/variables/variable.php?funcpassthru&inputcat%2Fflagflag{0020ced6-8166-4fa5-87a7-7d93ee687c3e}

键盘重映射禁用 CtrlAltDel 键的利弊

目录 前言 一、Scancode Map 的规范 二、禁用 CtrlAltDel 的方法及其缺陷 三、编程实现和测试 3.1 C 实现的简易修改工具 3.2 C# 实现的窗口工具 四、总结 本文属于原创文章&#xff0c;转载请注明出处&#xff1a; https://blog.csdn.net/qq_59075481/article/details…

PySQLRecon:一款功能强大的MSSQL安全测试工具

关于PySQLRecon PySQLRecon是一款功能强大的MSSQL安全测试工具&#xff0c;该工具基于SQLRecon实现其功能&#xff0c;可以帮助广大红队研究人员针对MSSQL执行攻击性安全测试。 环境配置 由于该工具基于Python 3开发&#xff0c;因此我们首先需要在本地设备上安装并配置好Pyt…

鸿蒙小案例-你画我猜

鸿蒙小案例-你画我猜 1.准备组件(组件布局) 2.实现跟随鼠标画笔画出图案功能 3.实现复制上面的画笔的图案功能 4.其他小功能1.组件的准备 画布的组件官方给的API是Canvas&#xff0c;需要传递一个参数CanvasRenderingContext2D 直接搜索API 使用官方案例 private settings: …