2.17分一区文献精读:机器学习:乳腺癌预后预测的统计和机器学习模型的开发及内外部验证:队列研究-摘要

#精医求精,文献阅读

大家好,我是蔡老师,一个立志学会所有医学大数据分析模型的女子

今天我们从文献阅读开始

这篇文章的影响因子为17分,全文名称为《Development and internal-external validation of statistical and machine learning models for breast cancer prognostication:cohort study》

(机器学习:乳腺癌预后预测的统计和机器学习模型的开发及内外部验证:队列研究)

breast cancer prognostication:乳腺癌预后

cohort study:群组研究

OK这个标题的借鉴可以是Development machine learning models for breast cancer prognostication:cohort study

好我们从摘要开始

原文:ABSTRACT

解读:摘要

仿写:ABSTRACT

原文:OBJECTIVE

解读:

To develop a clinically useful model that estimatesthe 10 year risk of breast cancer related mortality inwomen(self-reported female sex) with breast cancerof any stage, comparing results from regression andmachine learning approaches.

DESIGN

Population based cohort study.

SETTING

QResearch primary care database in England, withindividual level linkage to the national cancer registry,Hospital Episodes Statistics, and national mortalityregisters.

PARTICIPANTS

141765 women aged 20 years and older with adiagnosis ofinvasive breast cancer between 1 january2000 and 31 December 2020.

MAIN OUTCOME MEASURES

Four model building strategies comprising tworegression (Cox proportional hazards and competingrisks regression) and two machine learning (XGBoostand an artificial neural network) approaches.Internal-external cross validation was used for model evaluation. Random effects meta-analysis that pooledestimates of discrimination and calibration metrics,calibration plots, and decision curve analysis wereused to assess model performance, transportabilityand clinical utility.

RESULTS

During a median 4.16 years (interquartile range1.76-8.26) of follow-up, 21 688 breast cancer relateddeaths and 11 454 deaths from other causes occurredRestricting to 10 years maximum follow-up frombreast cancer diagnosis, 20367 breast cancer relateddeaths occurred during a total of 688 564.81 personyears.The crude breast cancer mortality rate was295.79 per 10000 person years (95% confdenceinterval 291.75 to 299.88).Predictors varied for eachregression model, but both Cox and competing risksmodels included age at diagnosis, body mass index,smoking status, route to diagnosis, hormone receptostatus, cancer stage, and grade of breast cancer. TheCox model's random effects meta-analysis pooledestimate for Harrell's Cindex was the highest ofanymodel at 0.858 (95% confidence interval 0.853 to0.864,and 95% prediction interal 0.843 to 0.873)It appeared acceptably calibrated on calibrationplots.The competing risks regression model hadgood discrimination: pooled Harrel's Cindex 0.849(0.839 to 0.859,and 0.821 to 0.876,and evidenceofsystematic miscalibration on summary metrics wasacking.The machine learning models had acceptablediscrimination overall (Harrell's C index: XGBoost0.821(0.813 to 0.828, and 0.805 to 0.837); neuralnetwork0.847 (0.835 to 0.858, and 0.816 to 0.878))but had more complex patterns of miscalibrationand more variable regional and stage specificperformance.Decision curve analysis suggested thatthe Cox and competing risks regression models testedmay have higher clinical utility than the two machineearning approaches.

CONCLUSION

In women with breast cancer of any stage, using thepredictors available in this dataset, regression basedmethods had better and more consistent performancecompared with machine learning approaches and maybe worthy offurther evaluation for potential clinicaluse, such as for stratified follow-up.

ABSTRACT

OBJECTIVE

To develop a clinically useful model that estimatesthe 10 year risk of breast cancer related mortality in women(self-reported female sex) with breast cancerof any stage, comparing results from regression and machine learning approaches.

开发一个临床有用的模型,估计任何阶段患乳腺癌的女性(自我报告的女性)乳腺癌相关死亡率的10年风险,比较回归和机器学习方法的结果。

单词:

mortality:n. 死亡数,死亡率;必死性,必死的命运

self-reported female sex:自己报告为女性

with breast cancerof any stage:患有任何阶段的乳腺癌

comparing results from XXX and XXXX:比较来自XXX和XXXX的结果

approaches:方法

Approaches和Methods在含义和用法上存在明显的区别。

定义与含义:

Approaches:通常指达到某个目标的方法或方式,但更侧重于思考和分析的过程。它强调的是某个问题或任务解决的思路和方法,比较抽象。例如,一个创新的教学法(a creative approach to teaching)就是一个解决问题的新思路或新方法。

Methods:指一种固定的、有系统的做事方式或行动步骤,常常强调实际操作和执行的过程。它通常涉及具体的方法、步骤和策略。例如,科学研究方法(the scientific method of research)就是一种有系统、有步骤的研究方法。

用法上的区别:

Approaches:更常用于描述解决问题或实现目标的整体策略或思路,包括思考问题的角度、分析问题的框架等。它可能包含多种不同的方法和步骤,但更侧重于整体的方向和思路。

Methods:更常用于描述具体的、可操作的步骤或方法,这些步骤或方法通常是为了实现某个具体目标或完成某个具体任务而设计的。它更强调实际操作和执行的过程,以及每一步骤的具体内容和要求。

示例:

如果说“我们采用了一种新的教学方法来提高学生的参与度”,这里的“教学方法”就是一个具体的、可操作的步骤或方法,属于Methods的范畴。

如果说“我们尝试了一种新的教学思路来激发学生的学习兴趣”,这里的“教学思路”就是一个整体的策略或方向,属于Approaches的范畴。

综上所述,Approaches和Methods在定义、含义和用法上都有所不同。Approaches更侧重于解决问题的思路和方法,而Methods更侧重于具体的操作步骤和策略。在实际应用中,可以根据需要选择合适的词汇来描述不同的方法和过程。

DESIGN  研究设计

Population based cohort study.基于人群的队列研究。

SETTING 环境

QResearch primary care database in England, with individual level linkage to the national cancer registry,Hospital Episodes Statistics, and national mortality registers.

英国的质量研究初级保健数据库,与国家癌症登记、医院事件统计和国家死亡率登记有个人层面的联系。

QResearch primary care database 

With individual level:个体水平内

linkage to:链接到

the national cancer registry:国家癌症登记处

Hospital Episodes Statistics:医院事件统计

national mortality registers:国家死亡率登记册

PARTICIPANTS 参加者

141765 women aged 20 years and older with a diagnosis of invasive breast cancer between 1 january 2000 and 31 December 2020.

2000年1月1日至2020年12月31日,20岁及以上女性141765例。

Diagnosis:诊断;判断

invasive breast cancer :[医]乳腺浸润性癌

--------------------------------2024.7.1之前

MAIN OUTCOME MEASURES

Four model building strategies comprising two regression (Cox proportional hazards and competingrisks regression) and two machine learning (XGBoostand an artificial neural network) approaches.Internal-external cross validation was used for model evaluation. Random effects meta-analysis that pooled estimates of discrimination and calibration metrics,calibration plots, and decision curve analysis wereused to assess model performance, transportabilityand clinical utility.

MAIN OUTCOME MEASURES:主要结果指标

第一句:

Four model building strategies comprising two regression (Cox proportional hazards and competingrisks regression) and two machine learning (XGBoostand an artificial neural network) approaches.

四种模型构建策略包括两种回归(Cox比例风险和竞争风险回归)和两种机器学习(XGBoostand an人工神经网络)方法。

第二句:

Internal-external cross validation was used for model evaluation. 模型评价采用内外交叉验证的方法。

Internal-external cross validation:内外交叉验证

model evaluation:模型评价

Internal-external cross validation(内部-外部交叉验证)并非一个标准的术语,但在理解其含义时,我们可以将其拆分为两部分:内部验证(Internal Validation)和外部验证(External Validation),并结合交叉验证(Cross-Validation)的概念来进行解释。

内部验证(Internal Validation)

内部验证是建模后首先要进行的一项模型验证工作,它主要在训练数据集上应用各种方法来评估模型的性能,主要是对模型的区分度进行评价。内部验证的目的是评估模型在当前数据集上的表现,并可以在一定程度上检测是否存在过拟合,以判断其未来在新数据上的泛化能力。然而,内部验证终究是在训练集上进行的操作,因此无法真正评估模型在新数据上的泛化能力。

外部验证(External Validation)

外部验证通常指的是在模型训练完成后,使用一个独立的、未参与过模型训练的数据集(称为测试集或验证集)来评估模型的性能。这种验证方式能够更准确地反映模型在真实世界中的表现,因为它评估的是模型在未见过的数据上的性能。

交叉验证(Cross-Validation)

交叉验证是一种常用的模型验证方法,它通过将数据集划分为多个子集(通常是训练集和验证集,或更多个子集),并使用不同的子集组合来训练和验证模型。交叉验证的主要目的是通过多次训练和验证来评估模型的性能,并减少过拟合的风险。常见的交叉验证方法包括简单交叉验证、S折交叉验证(S-fold cross validation)和留一交叉验证(Leave-one-out cross-validation)。

Internal-external cross validation 的可能含义

由于Internal-external cross validation不是一个标准的术语,我们可以推测其可能指的是一种结合了内部验证和外部验证的交叉验证策略。在这种策略中,模型首先在训练数据集上进行内部验证以评估其性能,然后使用独立的测试数据集进行外部验证以进一步确认模型的泛化能力。

总之,Internal-external cross validation可能是一种结合了内部验证和外部验证的交叉验证策略,旨在更全面地评估模型的性能和泛化能力。

第三句:

Random effects meta-analysis that pooled estimates of discrimination and calibration metrics,calibration plots, and decision curve analysis were used to assess model performance, transportability and clinical utility.

随机效应元分析合并了鉴别和校准指标的估计、校准图和决策曲线分析,用于评估模型性能、运输能力和临床效用。

Random effects meta-analysis :随机效应元分析(这个需要具体读懂文献)

calibration plots:校准图

decision curve:决策曲线

model performance:模型性能

transportability:可移植性

clinical utility:临床效用

-----------2024.7.1

RESULTS  结果

During a median 4.16 years (interquartile range1.76-8.26) of follow-up, 21 688 breast cancer related deaths and 11454 deaths from other causes occurred.

在中位4.16年(四分位数range1.76-8.26)的随访中,有21 688例因乳腺癌相关死亡,11454例因其他原因死亡。

interquartile range:四分位差

 Restricting to 10 years maximum follow-up frombreast cancer diagnosis, 20367 breast cancer related deaths occurred during a total of 688 564.81 person years.

乳腺癌诊断最多随访10年,20367例乳腺癌相关死亡,共计688 564.81人年。

during a total of 688 564.81 person years:期间共计688 564.81人年

"During a total of 688,564.81 person years" 这个短语通常出现在流行病学、公共卫生或医学研究领域中,用于描述观察或研究期间所累积的“人年”总数。这里的“人年”是一个统计单位,用来衡量在某个特定研究或观察期间内,一群人的总暴露时间。

具体来说,如果研究涉及了100人,并且这些人都被观察了1年,那么总的人年数就是100人年。但如果其中一些人被观察了更长的时间,比如有一个人被观察了2年,那么总的人年数就会增加。在这个例子中,“688,564.81人年”意味着在研究或观察期间,所有参与者的总暴露时间加起来相当于688,564.81个人的完整年份。

The crude breast cancer mortality rate was 295.79 per 10000 person years (95% confdence interval 291.75 to 299.88).粗乳腺癌死亡率为295.79/10000人年(95%可信区间为291.75至299.88)。

Predictors varied for each regression model, but both Cox and competing risks models included age at diagnosis, body mass index,smoking status, route to diagnosis(诊断途径), hormone receptor status(激素受体状态), cancer stage(癌症分期), and grade of breast cancer(乳腺癌的分级).

每种回归模型的预测因子各不相同,但Cox和竞争风险模型都包括诊断时的年龄、体重指数、吸烟状况、诊断途径、激素受体状态、癌症分期和乳腺癌分级。

The Cox model's random effects meta-analysis(随机效应元分析) pooled estimate for Harrell's Cindex was the highest of anymodel at 0.858 (95% confidence interval 0.853 to 0.864,and 95% prediction interal 0.843 to 0.873).

Cox模型的随机效应荟萃分析(随机效应元分析)对哈勒尔Cindex的汇总估计是所有模型中最高的,为0.858(95%置信区间为0.853至0.864,95%的预测区间为0.843至0.873)。

random effects meta-analysis:随机效应元分析

Random effects meta-analysis(随机效应模型Meta分析)是Meta分析中的一种统计方法,用于综合和比较来自多个独立研究的结果,以获取一个更加全面和准确的总体效应估计。这种方法在处理存在异质性的研究数据时尤为重要,因为它能够考虑到不同研究之间可能存在的变异性。

定义与原理

  • 定义:Random effects meta-analysis是一种统计模型,它假设各个研究来自不同的总体,每个研究都有其独特的总体效应,且这些总体效应之间存在随机变异。因此,在分析过程中,需要考虑到这种随机变异对结果的影响。
  • 原理:该模型不仅考虑了研究内的抽样误差(即每个研究内部由于随机抽样而产生的误差),还考虑了研究间的变异(即不同研究之间由于研究方法、样本特征、环境条件等因素而产生的差异)。通过计算这种变异,随机效应模型能够得出一个更加稳健和保守的总体效应估计。

与固定效应模型的区别

  • 固定效应模型(Fixed effects model):假设所有研究都来自同一总体,各研究之间的差异仅由抽样误差引起,不同研究之间的变异性很小。因此,在固定效应模型中,每个研究的效应量被赋予相同的权重。
  • 随机效应模型:则更加灵活,它允许各研究来自不同的总体,每个研究都有其独特的总体效应。因此,在随机效应模型中,每个研究的效应量会根据其样本量、变异程度等因素被赋予不同的权重。

应用场景

当不同研究之间存在明显的异质性时,使用随机效应模型进行Meta分析更为合适。这种方法能够更全面地反映不同研究之间的差异,并得出一个更加稳健和保守的总体效应估计。在临床医学、心理学、教育学等领域中,随机效应模型Meta分析被广泛应用于综合多个研究结果,为决策提供科学依据。

优点与局限性

  • 优点:能够考虑到研究间的变异,得出更加稳健和保守的总体效应估计;适用于存在异质性的研究数据。
  • 局限性:由于考虑了研究间的变异,随机效应模型可能会降低统计效力,使得一些微小的差异难以被检测出来;同时,该模型对数据的要求较高,需要足够的研究数量和样本量来支持其分析。

综上所述,Random effects meta-analysis是一种重要的统计方法,在综合和比较多个独立研究结果方面具有重要作用。然而,在使用该方法时需要注意其适用条件和局限性,并结合实际情况进行合理解释和应用。

It appeared acceptably calibrated on calibrationplots.它在校准图上似乎是可以接受的校准。

The competing risks regression model had good discrimination: pooled Harrel's Cindex 0.849 (0.839 to 0.859,and 0.821 to 0.876,and evidence of systematic miscalibration on summary metrics was acking.

竞争风险回归模型具有良好的区分性:合并Harrel‘s Cindex 0.849(0.839-0.859,0.821-0.876,汇总指标的系统错误校准证据被支持。

The machine learning models had acceptable discrimination overall (Harrell's C index: XGBoost 0.821(0.813 to 0.828, and 0.805 to 0.837);

机器学习模型总体上具有可接受的辨别能力(哈勒尔的C指数: XGBoost 0.821(0.813~0.828,0.805~0.837);

neural network 0.847 (0.835 to 0.858, and 0.816 to 0.878))but had more complex patterns of miscalibration and more variable regional and stage specific performance.

神经网络0.847(0.835到0.858,和0.816到0.878)),但有更复杂的错误校准模式和更可变的区域和阶段特定表现。

Decision curve analysis suggested that the Cox and competing risks regression models tested may have higher clinical utility than the two machine learning approaches.决策曲线分析表明,Cox和竞争风险回归模型可能比两种机器学习方法具有更高的临床效用。

CONCLUSION 结论

In women with breast cancer of any stage, using the predictors available in this dataset, regression basedmethods had better and more consistent performancecompared with machine learning approaches and maybe worthy offurther evaluation for potential clinicaluse, such as for stratified follow-up.

在任何阶段的乳腺癌女性中,使用本数据集中可用的预测因子,回归基础方法与机器学习方法有更好和更一致的性能,可能值得对潜在的临床应用进行更全面的评估,如分层随访。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/788202.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何让 3D 数字孪生场景闪闪发光

今日图扑软件功能分享:我们将探讨 HT 系统如何通过分组管理灯光、裁切体和流光,以提高场景光影效果的精准度和整体可控性。 HT 中的灯光、裁切体、流光是会影响它所在区域一定范围内的其他节点的表现,如 场景中有个 A 灯光,默认情…

C++入门基础(2)

目录 一、引用: 1、定义: 2、特性: 3、引用的使用: 4、const引用:控制权限 const引用定义: const引用可以接收3种对象: 1、正常对象: 2、临时对象: 3、const对象: 总结&…

leetcode--层数最深叶子节点的和

leetcode地址:层数最深叶子节点的和 给你一棵二叉树的根节点 root ,请你返回 层数最深的叶子节点的和 。 示例 1: 输入:root [1,2,3,4,5,null,6,7,null,null,null,null,8] 输出:15 示例 2: 输入&#xff…

SpringSecurity中文文档(Servlet Method Security)

Method Security 除了在请求级别进行建模授权之外&#xff0c;Spring Security 还支持在方法级别进行建模。 您可以在应用程序中激活它&#xff0c;方法是使用EnableMethodSecurity 注释任何Configuration 类&#xff0c;或者将 < method-security > 添加到任何 XML 配…

c++ learn third day

1.津津的储蓄计划 参考&#xff1a;http://t.csdnimg.cn/XI1HV 记得最后加上num&#xff01;&#xff01;&#xff01; #include<stdio.h> int main() {int arr[13]{0};int num0,i0,j;double sum0;for(j1;j<12;j){scanf("%d",&arr[j]);}for(i1;i<…

【UML用户指南】-32-对体系结构建模-部署图

目录 1、对嵌入式系统建模 2、对客户/服务器系统建模 3、对全分布式系统建模 部署图展示运行时进行处理的结点和在结点上生存的制品的配置。 部署图用来对系统的静态部署视图建模。 在UML中&#xff0c;可以 1&#xff09;利用类图和制品图来思考软件的结构&#xff0c; …

亚信安全新一代终端安全TrustOne2024年重磅升级

以极简新主义为核心&#xff0c;亚信安全新一代终端安全TrustOne自2023年发布以来&#xff0c;带动了数字化终端安全的革新。60%&#xff0c;安装部署及管理效率的提升&#xff1b;50%&#xff0c;安全管理资源的节省&#xff1b;100%&#xff0c;信创非信创场景的全覆盖。Trus…

leetcode hot100

哈希 49.字母异位词分组 HashMap的含义比较晕&#xff0c;可以重做 双指针 11.盛最多水的容器 双指针的起始位置和移动条件没转过来&#xff0c;可以重做 15.三数之和 不太熟练&#xff0c;可以再做一遍 42.接雨水 还可以用dp和单调栈做 双指针法&#xff1a; 首先需要注意…

Linux-多线程

线程的概念 在一个程序里的一个执行路线就叫做线程&#xff08;thread&#xff09;。更准确的定义是&#xff1a;线程是“一个进程内部的控制序列”一切进程至少都有一个执行线程线程在进程内部运行&#xff0c;本质是在进程地址空间内运行在Linux系统中&#xff0c;在CPU眼中…

人话学Python-基础篇-字符串

一&#xff1a;字符串的定义 在Python中使用引号来定义。不论是单引号还是双引号。 str1 Hello World str2 "Hello World" 二&#xff1a;字符串的访问 如果我们要取出字符串中单独的字符&#xff0c;需要使用方括号来表示取得的位置。如果要取出字符串的子串&…

代理详解之静态代理、动态代理、SpringAOP实现

1、代理介绍 代理是指一个对象A通过持有另一个对象B&#xff0c;可以具有B同样的行为的模式。为了对外开放协议&#xff0c;B往往实现了一个接口&#xff0c;A也会去实现接口。但是B是“真正”实现类&#xff0c;A则比较“虚”&#xff0c;他借用了B的方法去实现接口的方法。A…

救生拉网的使用方法及注意事项_鼎跃安全

水域救援在夏季尤为重要&#xff0c;随着气温的升高&#xff0c;人们更倾向于参与水上活动&#xff0c;如游泳、划船、垂钓等&#xff0c;这些活动虽然带来了乐趣和清凉&#xff0c;但同时也增加了水域安全事故的风险。救生拉网作为水域安全的重要工具之一&#xff0c;其重要性…

ProFuzzBench入门教学——使用(Ubuntu22.04)

ProFuzzBench是网络协议状态模糊测试的基准测试。它包括一套用于流行协议&#xff08;例如 TLS、SSH、SMTP、FTP、SIP&#xff09;的代表性开源网络服务器&#xff0c;以及用于自动执行实验的工具。详细参考&#xff1a;阅读笔记——《ProFuzzBench: A Benchmark for Stateful …

Thinking--在应用中添加动态水印,且不可删除

Thinking系列&#xff0c;旨在利用10分钟的时间传达一种可落地的编程思想。 水印是一种用于保护版权和识别内容的技术&#xff0c;通常用于图像、视频或文档中。它可以是文本、图像或两者的组合&#xff0c;通常半透明或以某种方式嵌入到内容中&#xff0c;使其不易被移除或篡改…

非营利组织的数据治理之路

在非营利组织的日常运营中&#xff0c;数据不仅是记录过去活动的工具&#xff0c;更是指导未来决策、衡量项目成效、增强公众信任以及优化资源配置的关键要素。 然而&#xff0c;随着数据量的不断增长和复杂性的提升&#xff0c;非营利组织在享受数据带来的便利的同时&#xf…

文件操作和IO流

前言&#x1f440;~ 上一章我们介绍了多线程进阶的相关内容&#xff0c;今天来介绍使用java代码对文件的一些操作 文件&#xff08;file&#xff09; 文件路径&#xff08;Path&#xff09; 文件类型 文件操作 文件系统操作&#xff08;File类&#xff09; 文件内容的读…

一、openGauss详细安装教程

一、openGauss详细安装教程 一、安装环境二、下载三、安装1.创建omm用户2.授权omm安装目录3.安装4.验证是否安装成功5.配置gc_ctl命令 四、配置远程访问1.配置pg_hba.conf2.配置postgresql.conf3.重启 五、创建用户及数据库 一、安装环境 Centos7.9 x86openGauss 5.0.1 企业版…

我的FPGA

1.安装quartus 2.更新usb blaster驱动 3.新建工程 1.随便找一个文件夹&#xff0c;里面新建demo文件夹&#xff0c;表示一个个工程 在demo文件夹里面&#xff0c;新建src&#xff08;源码&#xff09;&#xff0c;prj&#xff08;项目&#xff09;&#xff0c;doc&#xff…

RedHat Linux8 修改root管理员账户密码命令

RedHat Linux8 修改root管理员账户密码命令&#xff1a; sudo passwd root RedHat重置root管理员密码&#xff1a; 1. 查看Linux系统版本信息 cat /etc/redhat-release2. 重置密码 2.1 进入内核编辑界面 重启Linux系统并出现引导界面&#xff0c;按下键盘上的e键进入内…

数据结构双向循环链表

主程序 #include "fun.h" int main(int argc, const char *argv[]) { double_p Hcreate_head(); insert_head(H,10); insert_head(H,20); insert_head(H,30); insert_head(H,40); insert_tail(H,50); show_link(H); del_tail(H); …