文献速递:帕金森的疾病分享--多模态机器学习预测帕金森病

文献速递:帕金森的疾病分享–多模态机器学习预测帕金森病

Title

题目

Multi-modality machine learning predicting Parkinson’s disease

多模态机器学习预测帕金森病

01

文献速递介绍

对于渐进性神经退行性疾病,早期和准确的诊断是有效开发和使用新干预措施的关键。这种早期检测范式旨在在患者认识到症状和体征之前,当疾病过程最容易接受干预时,识别、分析并防止或管理疾病。

这里我们描述的工作通过数据驱动的方式使用成本效益高的方法促进准确和早期诊断。这份报告还描述了在促进生产规模分析多模态基因组和临床数据的背景下,应用一个开源自动机器学习(ML),GenoML,的情况。

国家人类基因组研究所发布的最新战略愿景声明,到2030年,表观遗传学和转录组学的特征将常规地纳入到基因型对表型影响的预测模型中。生物医学研究人员目前正处于两项科学进展的交汇点,这将促进早期检测和远程识别潜在高风险个体:首先,大量临床、人口统计和遗传/基因组数据集的可用性;其次,机器学习(ML)流程自动化和人工智能的进展,以最大化利用这些大量的、容易获得的数据的价值。

首次就诊时的正确临床诊断,只有80%在病理学上确认为帕金森病(PD)。以前的生物标志物研究,特别是在神经退行性疾病中,主要关注广为人知的统计方法和线性模型,使用单一指标或少数几个指标进行预测。在过去几年中,多项研究使用ML探索了不同的模态,如CSF生物标志物、成像、RNA或包括与运动相关的指标,甚至可穿戴传感器数据。虽然这些努力在分类上表现良好,但我们寻求基于相对低成本且容易获得的数据构建模型。

Results

结果

We have shown that integrating multiple modalities improved model performance in predicting PD diagnosis in a mixed population of cases and controls. For a summary of basic clinical and demographic features, please refer to Table 1 and for a summary of the analysis, please refer to Fig. 1. Additional information in regards to cohorts and interpretation for ML metrics and models are included in Supplementary Notes 2, 3. Our multi-modality model showed a higher area under the curve (AUC;89.72%) than just the clinico-demographic data available prior to neurological assessment (87.52%), the genetics-only model from genome sequencing data and polygenic risk score (PRS; 70.66%), or the transcriptomics-only model from genome-wide whole blood RNA sequencing data (79.73%) in withheld PPMI samples(see Table 2 and Fig. 2 for summaries). This model’s performance improved after tuning, described below and in Table 3, where the mean AUC metric in the untuned model in PPMI is 80.75 with a standard deviation of 8.84 (range = 69.44–88.51) and the mean AUC at tuning in PPMI is 82.17 with a standard deviation of 8.96 (range = 70.93–90.17). Similar improvements can be seen when this model is validated in the PDBP dataset (AUC from the combined modality model at 83.84% before tuning) detailed in Table 4 and Fig. 3. Additionally, the multimodal model also had the lowest false positive and false negative rates compared to other models, only focusing on a single modality, in both the withheld test set in PPMI and in the PDBP validation set. Thus, moving from single to multiple data modalities yielded better results in not only AUC but across all performance metrics

结合多种模态的预测超越了基于单一模态的预测

我们已经展示了,将多种模态整合在一起可以提高模型在混合病例和对照组人群中预测PD诊断的性能。关于基本临床和人口统计特征的摘要,请参见表1,关于分析的摘要,请参见图1。关于队列和解释ML指标及模型的附加信息包含在补充说明2、3中。我们的多模态模型显示出的曲线下面积(AUC;89.72%)高于仅有的临床-人口统计数据(在神经学评估之前可获得的数据;87.52%)、仅基因组测序数据和多基因风险评分(PRS;70.66%)的遗传学模型,或仅来自全基因组全血RNA测序数据的转录组学模型(79.73%)在保留的PPMI样本中(见表2和图2以获取摘要)。在调整后,此模型的性能得到改善,如下所述及表3中,未调整模型在PPMI的平均AUC指标为80.75,标准差为8.84(范围=69.44–88.51),而在PPMI调整后的平均AUC为82.17,标准差为8.96(范围=70.93–90.17)。当这个模型在PDBP数据集中得到验证时,可以看到类似的改进(调整前结合模态模型的AUC为83.84%),详细内容见表4和图3。此外,与其他仅关注单一模态的模型相比,多模态模型在保留的PPMI测试集和PDBP验证集中都具有最低的假阳性和假阴性率。因此,从单一数据模态转向多种数据模态不仅在AUC上,而且在所有性能指标上都取得了更好的结果。

Fig

图片

Fig. 1 Workflow and Data Summary. Scientific notation in the workflow diagram denotes minimum p values from reference GWAS or differential expression studies as a pre-screen for feature inclusion. Blue indicates subsets of genetics data (also denoted as “G”), green indicates subsets of transcriptomics data (also denoted as *omics or “O”), yellow indicates clinico-demographic data (also denoted as C + D),and purple indicates combined data modalities. PD Parkinson’s disease, AMP-PD accelerating medicines partnership in Parkinson’s disease, PPMI Parkinson’s progression marker initiative, PDBP Parkinson’s disease biomarker program, WGS whole-genome sequencing, GWAS genome-wide association study, QC quality control, MAF minor allele frequency, PRS polygenic risk score.

图1 工作流程和数据摘要。工作流程图中的科学记号表示来自参考GWAS或差异表达研究的最小p值,作为特征包含的预筛选。蓝色表示遗传数据子集(也标记为“G”),绿色表示转录组数据子集(也标记为*组学或“O”),黄色表示临床-人口统计数据(也标记为C + D),紫色表示结合了数据模态。PD帕金森病,AMP-PD加速医药合作伙伴关系帕金森病项目,PPMI帕金森病进展标志物计划,PDBP帕金森病生物标志物计划,WGS全基因组测序,GWAS全基因组关联研究,QC质量控制,MAF小等位基因频率,PRS多基因风险评分。

图片

Fig. 2Receiver operating characteristic curves and case probability density plots in withheld training samples at default thresholds comparing performance metrics in different data modalities from the PPMI dataset. P values mentioned indicate the threshold of

significance used per datatype, except for the inclusion of all clinico-demographic features. a PPMI combined *omics dataset (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information); b PPMI genetics-only dataset (p value threshold = 1E-5); c PPMI clinico-demographics only dataset; d PPMI transcriptomics-only dataset (p value threshold = 1E-2). Note that x-axis limits may vary as some models produce less extreme probability distributions than others inherently based on fit to the input data and the algorithm used, further detailed images are included in Supplementary Fig. 5. PPMI Parkinson’s progression marker initiative, ROC receiver operating characteristic curve.

图2 在默认阈值下,比较PPMI数据集中不同数据模态的性能指标,保留训练样本中的接收器操作特征曲线和案例概率密度图。提到的P值表示每种数据类型使用的显著性阈值,除了包含所有临床-人口统计特征外。a PPMI综合*组学数据集(遗传学P值阈值=1E-5,转录组学P值阈值=1E-2,以及临床-人口统计信息);b PPMI仅遗传学数据集(P值阈值=1E-5);c PPMI仅临床-人口统计数据集;d PPMI仅转录组学数据集(P值阈值=1E-2)。请注意,x轴的限制可能会有所不同,因为一些模型基于对输入数据的适应度和使用的算法,天生就会产生比其他模型更不极端的概率分布,更详细的图像包含在补充图5中。PPMI帕金森病进展标志物计划,ROC接收器操作特征曲线。

图片

Fig. 3Receiver operating characteristic and case probability density plots in the external dataset (PDBP) at validation for the trained and then tuned models at default thresholds. Probabilities are predicted case status (r1), so controls (status of 0) skews towards more samples on the left, and positive PD cases (status of 1) skews more samples on the right. a Testing in PDBP the combined *omics model (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information) developed in PPMI prior to tuning the hyperparameters of the model; b Testing in PDBP the combined *omics model (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information) developed in PPMI after tuning the hyperparameters of the model. PPMI Parkinson’s progression marker initiative, PDBP Parkinson’s disease biomarker program, ROC receiver operating characteristic curve.

图3在外部数据集(PDBP)上对训练并调整后的模型进行验证时的接收器操作特征和案例概率密度图,使用默认阈值。概率预测的是案例状态(r1),因此对照组(状态为0)的样本偏向左侧,阳性PD案例(状态为1)的样本偏向右侧。a 在PDBP测试结合组学模型(遗传学P值阈值=1E-5,转录组学P值阈值=1E-2,以及临床-人口统计信息),该模型在PPMI中开发,在调整模型的超参数之前;b 在PDBP测试结合组学模型(遗传学P值阈值=1E-5,转录组学P值阈值=1E-2,以及临床-人口统计信息),该模型在PPMI中开发,调整模型的超参数之后。PPMI帕金森病进展标志物计划,PDBP帕金森病生物标志物项目,ROC接收器操作特征曲线。

图片

Fig. 4Feature importance plots for top 5% of features in data. The plot on the left has lower values indicated by the color blue, while higher values are indicated in red compared to the baseline risk estimate. Plot on the right indicates directionality, with features predicting for cases indicated in red, while features better-predicting controls are indicated in blue. SHAP Shapley values, UPSIT University of Pennsylvania smell identification test, PRS polygenic risk score.

图4数据中前5%特征的特征重要性图。左侧的图中,较低的值用蓝色表示,而较高的值与基线风险估计相比用红色表示。右侧的图表明方向性,预测案例的特征用红色表示,而更好地预测对照组的特征用蓝色表示。SHAP沙普利值,UPSIT宾夕法尼亚大学嗅觉识别测试,PRS多基因风险评分。

Table

图片

Table 1.Descriptive statistics of studies included from AMP PD.

表1.包含自AMP PD的研究的描述性统计。

图片

Table 2.Performance metric summaries comparing training in withheld samples in PPMI.

表2.比较在PPMI中保留样本训练的性能指标摘要。

图片

Table 3.Performance metric summaries comparing at tuned cross-validation in withheld samples in PPMI.

表3.比较在PPMI中保留样本的调整后交叉验证的性能指标摘要。

图片

Table 4.Performance metric summaries comparing combined tuned and untuned model performance on PDBP validation dataset.

表4.比较在PDBP验证数据集上结合调整和未调整模型性能的性能指标摘要。

图片

Table 5.Optimizing the AUC threshold in withheld training samples and in the validation data.

表5.在保留的训练样本和验证数据中优化AUC阈值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/422447.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Thumbnailator简介和示例

背景 对于javaweb服务端开发人员,图片资源的管理总是绕不开的一环。很多网站上都会提供上传图片这个功能,而现代数码设备拍摄出来的都是高清图片,分辨率很高,占用的空间也很大。物理存储的问题还算容易解决,但是网络带…

maven的私服

什么是maven的私服就是把自己写的工具类共享给别人这样大家都能用到你写的工具类不用重复写提示效率 maven的上传与下载示意图 1.什么是发行版本?发行版本指定的是功能稳定可以共大家使用的版本 2.什么是快照版本?快照版本指定的是指正在开发的版本 3…

[⑥5G NR]: 无线接口协议,信道映射学习

5G系统整体包括核心网、接入网以及终端部分,接入网与终端间通过无线空口协议栈进行连接。无线接口可分为三个协议层:物理层(L1)、数据链路层(L2)和网络层(L3)。 L1:物理…

【数据结构】:单链表之头插法和尾插法(动图+图解)

头插法和尾插法 一、头插法💤思考一:头插法的核心是什么❓❗❗ 重点一:以带头结点方式实现头插法❗❗ 重点二:以不带头结点方式实现头插法 二、尾插法💤思考二:尾插法的核心是什么❓❗❗ 重点三&#xff1a…

PostgreSQL中int类型达到上限的一些处理方案

使用int类型作为表的主键在pg中是很常见的情况,但是pg中int类型的范围在-2147483648到2147483647,最大只有21亿,这个在一些大表中很容易就会达到上限。一旦达到上限,那么表中便没办法在插入数据了,这个将会是很严重的问…

k8s分布式图床(k8s,metricsapi,vue3+ts)

image-manage 图像管理应用 图像管理应用提供了一个方便管理图片的平台,支持单机和Kubernetes集群部署。请确保您至少拥有一个MySQL数据库和一个Redis数据库,以及一个至少为Kubernetes 1.29版本的集群(如果选择集群部署)。 文档…

Linux开发工具vim

目录 1. vim的基本概念2. vim的基本操作3. vim正常模式命令集1. 插入模式2. 从插入模式切换为命令模式3. 移动光标4. 删除文字5.复制6. 替换7. 撤销上一次操作8. 更改9. 跳至指定的行 4. vim末行模式命令集1. 列出行号2. 跳到文件中的某一行5. 查找字符6. 保存文件7. 离开vim 1…

Java多线程导出Excel示例

在之前的Java多线程导入Excel示例中演示了如何通过多线程的方式导入Excel,下面我们再来看下怎么通过多线程的方式导出Excel 还是直接上代码 首先是Controller import com.sakura.base.service.ExcelService; import org.springframework.beans.factory.annotation.…

【数据分享】2000~2023年MOD15A2H 061 光合有效辐射分数FPAR数据集

​各位同学们好,今天和大伙儿分享的是2000~2023年MOD15A2H 061 光合有效辐射分数FPAR数据集。如果大家有下载处理数据等方面的问题,可以评论或私信。 Myneni, R., Y. Knyazikhin, T. Park. MODIS/Terra Leaf Area Index/FPAR 8-Day L4 Global 500m SIN G…

网络工程师笔记6

ICMP协议 Internet控制报文协议ICMP(InternetControlMessage Protocol)是网络层的一个重要协议。ICMP协议用来在网络设备间传递各种差错和控制信息,它对于收集各种网络信息、诊断和排除各种网络故障具有至关重要的作用。使用基于ICMP的应用时,需要对ICMP…

live555源码学习(1)

1 基础组件 live项目主要包含了四个基础库、程序入口类(mediaServer)和测试程序(testProgs)。四个基础库是UsageEnvironment、BasicUsageEnvironment、groupsock和liveMedia UsageEnvironment 抽象了两个类UsageEnvironment和T…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的钢材表面缺陷检测系统(Python+PySide6界面+训练代码)

摘要:开发钢材表面缺陷检测系统对于保障制造质量和提高生产效率具有关键作用。本篇博客详细介绍了如何运用深度学习构建一个钢材表面缺陷检测系统,并提供了完整的实现代码。该系统基于强大的YOLOv8算法,并对比了YOLOv7、YOLOv6、YOLOv5&#…

Grid-Based Continuous Normal Representation for Anomaly Detection 论文阅读

Grid-Based Continuous Normal Representation for Anomaly Detection 论文阅读 摘要简介方法3.1 Normal Representation3.2 Feature Refinement3.3 Training and Inference 4 实验结果5 总结 文章信息: 原文链接:https://arxiv.org/abs/2402.18293 源码…

应用层DDoS防护:理解、必要性与实现策略

一、应用层简介 应用层,也称作第七层,是OSI(开放系统互联)模型中的最高层。在这一层,数据以特定的应用程序协议格式进行传输,如HTTP、FTP、SMTP等。应用层的主要职责是为用户提供网络服务,如文…

Android Gradle开发与应用 (四) : Gradle构建与生命周期

1. 前言 前几篇文章,我们对Gradle中的基本知识,包括Gradle项目结构、Gradle Wrapper、GradleUserHome、Groovy基础语法、Groovy语法概念、Groovy闭包等知识点,这篇文章我们接着来介绍Gradle构建过程中的知识点。 2. Project : Gradle中构建…

python61-Python的循环之for-in循环遍历列表和元组

在使用 for-in 循环遍历列表和元组时,列表或元组有几个元素,for-in 循环的循环体就执行几次,针对每个元素执行一次,循环计数器会依次被赋值为元素的值,如下代码使用 for-in 循环遍历元组。 # !/usr/bin/env python# -…

C# Socket通信从入门到精通(21)——TCP发送文件与接收文件 C#代码实现

1、前言 我们在开发上位机软件的过程中经常需要发送文件,本文就是介绍如何利用tcp客户端发送文件、tcp服务器端接收文件,而且本文介绍的方法可以自动发送一个文件夹下的所有子目录以及所有文件,经验来自于实际项目,具备非常有价值的参考意义! 2、发送文件以及C#代码 被发…

基于React俄罗斯方块h5小游戏源码响应式支持PC+手机

俄罗斯方块是一款广受欢迎的经典游戏,许多编程语言都热衷于实现它。在JavaScript中,也有许多版本。 我的目标是使用React框架来实现这个游戏。 地 址 : runruncode.com/vue/19701.html 游戏的架构采用了React和Redux,为了提高性…

php源码 单色bmp图片取模工具 按任意方式取模 生成字节数组 自由编辑点阵

http://2.wjsou.com/BMP/index.html 想试试chatGPT4生成,还是要手工改 php 写一个网页界面上可以选择一张bmp图片,界面上就显示这张bmp图片, 点生成取模按钮,在图片下方会显示这张bmp图片的取模数据。 取模规则是按界面设置的&a…

Pegasus智能家居套件样例开发--软定时器

样例简介 此样例将演示如何在Pegasus Wi-Fi IoT智能家居套件上使用cmsis 2.0 接口进行定时器开发。 工程版本 系统版本/API版本:OpenHarmony 3.0 releaseIDE版本:DevEco Device Tool Release 3.0.0.401 快速上手 准备硬件环境 预装windows系统的PC…