机器学习在癌症分子亚型分类中的应用

学习笔记:机器学习在癌症分子亚型分类中的应用——Cancer Cell 研究解析


在这里插入图片描述

1. 文章基本信息

  • 标题:Classification of non-TCGA cancer samples to TCGA molecular subtypes using machine learning
  • 发表期刊:Cancer Cell
  • 发表时间:2025 年,第 53 卷,第 2 期
  • 研究目标
    • 开发机器学习分类器,用于将非 TCGA 样本映射到TCGA 定义的分子亚型
    • 支持多组学数据整合(mRNA、DNA 甲基化、CNV、突变、miRNA),提高分类准确度。
    • 提供标准化工具(Docker 容器化),使研究和临床应用更便捷。

2. 文章的主要行文思路

(1) 引言(Introduction)

  • 介绍癌症传统分类方法(基于组织学和解剖学分类)的局限性。
  • 介绍 TCGA 数据集在癌症亚型研究中的重要性。
  • 说明当前分子亚型分类方法在非 TCGA 样本上的应用挑战。
  • 提出研究目标:使用机器学习方法开发分类器,将非 TCGA 样本归类到 TCGA 定义的亚型

(2) 方法(Methods)

  • 数据来源:使用 TCGA 的多组学数据,包括 mRNA、DNA 甲基化、CNV、miRNA、突变数据。
  • 机器学习方法
    • 使用五种 ML 方法(AKLIMATE、CloudForest、SKGrid、JADBio、subSCOPE)。
    • 训练 8,791 个 TCGA 样本,涵盖 26 种癌症队列和 106 个分子亚型。
    • 使用交叉验证评估模型性能,最终选出 737 个最优分类器。
  • 外部验证
    • 采用 METABRIC 和 AURORA 乳腺癌数据集,测试模型的泛化能力。

在这里插入图片描述

(3) 结果(Results)

  • 分类模型构建与性能评估

    • 统计不同数据类型对分类的贡献。
    • 发现 mRNA 在大多数癌症亚型分类中起主导作用。
      在这里插入图片描述
  • 外部数据集验证

    • 评估不同 ML 方法在不同测序平台(RNA-seq vs. 微阵列)上的稳健性。
  • 模型泛化能力

    • 发现 70 个样本足以预测分类器的最终性能。
    • 研究不同癌症亚型对单一数据类型的依赖程度。

(4) 讨论(Discussion)

  • TCGA 亚型分类的临床应用潜力
    • 预测新样本时,可提供标准化的癌症分子亚型信息。
    • 未来可用于开发简化的癌症检测面板。

在这里插入图片描述

  • 研究局限性
    • TCGA 数据可能未涵盖所有癌症亚型。
    • 不同测序平台可能影响模型泛化能力。

(5) 结论(Conclusion)

  • 研究提供了一个通用的分类框架,可用于非 TCGA 样本的 TCGA 亚型分类
  • 公开 737 个高性能分类器,可用于癌症检测和精准医学研究

3. 文章的主要贡献

(1) 机器学习驱动的癌症分型

  • 使用 5 种机器学习方法 训练 TCGA 数据:
    • AKLIMATE
    • CloudForest
    • SKGrid
    • JADBio
    • subSCOPE
  • 训练 412,585 个分类模型,最终筛选出 737 个最优模型
  • 提供 Docker 版本,保证可复现性和易用性

(2) 多组学数据整合

  • 研究分析了不同数据类型的贡献
    • mRNA 对大多数癌症亚型分类最关键。
    • DNA 甲基化 在 LGG、GBM 等脑肿瘤分类中尤为重要。
    • 突变数据(Mutations) 适用于黑色素瘤(SKCM)。
    • 整合多种组学数据可提高分类准确度

(3) 临床应用价值

  • 提供 TCGA 亚型分类,提高癌症精准医学能力
    • 不同 TCGA 亚型的患者具有不同的预后和治疗策略
    • 例如:CMS1 结直肠癌(高 MSI-H)对 PD-1 免疫治疗敏感,而 CMS4 免疫排斥明显。
  • 帮助医生和研究人员在新数据集中分类样本,指导精准治疗。

(4) 公开可用的工具

  • 提供 Docker 容器,简化安装和使用
  • GitHub 代码公开,提高可复现性

https://github.com/NCICCGPO/gdan-tmp-models


3. 作者的主要单位

单位机构类型研究重点是否与临床相关
Oregon Health & Science University (OHSU)医学中心癌症基因组学、精准医学✅ 高度相关
University of California, San Francisco (UCSF)医学中心肿瘤学、精准医学✅ 高度相关
Dana-Farber Cancer Institute (DFCI)癌症中心肿瘤学、临床研究✅ 高度相关
MD Anderson Cancer Center (UTMDACC)癌症医院癌症治疗、精准医学✅ 高度相关
National Cancer Institute (NCI)政府研究机构癌症基因组、精准医学✅ 高度相关
The Broad Institute (MIT & Harvard)研究机构癌症基因组、药物开发✅ 高度相关
University of California, Santa Cruz (UCSC)大学计算生物学、生物信息学❌ 主要是计算研究
King Abdullah University of Science and Technology (KAUST)大学计算机科学、机器学习❌ 主要是算法,不直接涉及临床

📌 结论

  • 该研究团队涵盖了癌症精准医学、基因组学、计算生物学、机器学习等多个领域,保证了该研究的高临床相关性和计算分析的前沿性

4. 如何使用 Docker 进行数据处理

(1) 安装 Docker

首先,确保服务器已安装 Docker:

docker --version  # 确认安装

如果未安装,可以运行以下命令安装:

sudo apt update
sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker

(2) 克隆 GitHub 仓库

git clone https://github.com/NCICCGPO/gdan-tmp-models.git
cd gdan-tmp-models

(3) 拉取 Docker 镜像

docker pull nciccpo/gdan-tmp-aklimate:latest
docker pull nciccpo/gdan-tmp-cloudforest:latest
docker pull nciccpo/gdan-tmp-skgrid:latest
docker pull nciccpo/gdan-tmp-jadbio:latest
docker pull nciccpo/gdan-tmp-subscope:latest

(4) 准备输入数据

mkdir -p ~/gdan-input
mkdir -p ~/gdan-config

将**RNA-seq 表达数据(FPKM/TPM)**放入 ~/gdan-input/ 目录,并创建 YAML 配置文件 ~/gdan-config/config.yml

model: aklimate
input_data:
  mRNA: /data/mRNA_expression.csv
output:
  results: /data/prediction_results.csv

(5) 运行 Docker 进行 TCGA 亚型预测

docker run --rm --cpus=64 \
    -v ~/gdan-input:/data \
    -v ~/gdan-config:/config \
    nciccpo/gdan-tmp-aklimate:latest /config/config.yml

📌 参数解释

  • --cpus=64:使用 64 核 CPU(可根据服务器性能调整)。
  • -v ~/gdan-input:/data:映射输入数据目录到 /data
  • -v ~/gdan-config:/config:映射 YAML 配置文件目录到 /config

(6) 查看预测结果

ls ~/gdan-input
cat ~/gdan-input/prediction_results.txt

或者:

import pandas as pd
df = pd.read_csv("~/gdan-input/prediction_results.csv")
print(df.head())

5. 结果解读

示例结果:

Sample_ID    Predicted_TCGA_Subtype    Confidence_Score
Sample_001   BRCA_LuminalA             0.95
Sample_002   LGG_IDH_Mutant             0.87
Sample_003   SKCM_BRAF_Mutant           0.92

📌 解读

  • Predicted_TCGA_Subtype:模型预测的 TCGA 亚型
  • Confidence_Score(0-1):置信度,越高表示分类越可靠
  • 如果置信度低(如 <0.7),说明该样本可能更偏向其他亚型或需要额外数据支持(如 DNA 甲基化)。

6. 结论

该研究基于 TCGA 数据,提供了精准的癌症亚型分类工具
支持 RNA-seq(mRNA)数据,适用于临床研究和精准医学
使用 Docker 容器化,保证可复现性,提供 737 个高性能分类器
有助于个性化治疗,如免疫治疗和靶向治疗策略的选择

📌 下一步

  • 尝试用自己的 RNA-seq 数据跑一次分析
  • 如果分类结果置信度较低,可考虑添加 DNA 甲基化或突变数据
  • 如有问题,可以查看 Docker 日志:
    docker logs <CONTAINER_ID>
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/966082.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是AIOps?

AIOps&#xff08;人工智能运维&#xff0c;Artificial Intelligence for IT Operations&#xff09;是通过使用人工智能&#xff08;AI&#xff09;技术来增强 IT 运维&#xff08;IT Operations&#xff09;的智能化、自动化和效率的概念。它结合了机器学习、数据分析、自动化…

使用deepseek快速创作ppt

目录 1.在DeekSeek生成PPT脚本2.打开Kimi3.最终效果 DeepSeek作为目前最强大模型&#xff0c;其推理能力炸裂&#xff0c;但是DeepSeek官方没有提供生成PPT功能&#xff0c;如果让DeepSeek做PPT呢&#xff1f; 有个途径&#xff1a;在DeepSeek让其深度思考做出PPT脚本&#xf…

DeepSeek 引领的 AI 范式转变与存储架构的演进

近一段时间&#xff0c;生成式 AI 技术经历了飞速的进步&#xff0c;尤其是在强推理模型&#xff08;Reasoning-LLM&#xff09;的推动下&#xff0c;AI 从大模型训练到推理应用的范式发生了剧变。以 DeepSeek 等前沿 AI 模型为例&#xff0c;如今的 AI 技术发展已不局限于依赖…

vscode 设置在编辑器的标签页超出可视范围时自动换行(workbench.editor.wrapTabs)

“workbench.editor.wrapTabs”: true 是 VS Code&#xff08;Visual Studio Code&#xff09; 的一个设置项&#xff0c;它的作用是 在编辑器的标签页超出可视范围时自动换行&#xff0c;而不是显示滚动条。 需要修改settings.json 参考&#xff1a;settings.json 默认值&a…

高端入门:Ollama 本地高效部署DeepSeek模型深度搜索解决方案

目录 一、Ollama 介绍 二、Ollama下载 2.1 官网下载 2.2 GitHub下载 三、模型库 四、Ollmal 使用 4.1 模型运行&#xff08;下载&#xff09; 4.2 模型提问 五、Ollama 常用命令 相关推荐 一、Ollama 介绍 Ollama是一个专为在本地机器上便捷部署和运行大型语言模型&…

前端组件标准化专家Prompt指令的最佳实践

前端组件标准化专家Prompt 提示词可作为项目自定义提示词使用&#xff0c;本次提示词偏向前端开发的使用&#xff0c;如有需要可适当修改关键词和示例 推荐使用 Cursor 中作为自定义指令使用Cline 插件中作为自定义指令使用在力所能及的范围内使用最好的模型&#xff0c;可以…

介绍10个比较优秀好用的Qt相关的开源库

记录下比较好用的一些开源库 1. Qt中的日志库“log4qt” log4qt 是一个基于 Apache Log4j 设计理念的 Qt 日志记录库&#xff0c;它为 Qt 应用程序提供了强大而灵活的日志记录功能。Log4j 是 Java 领域广泛使用的日志框架&#xff0c;log4qt 借鉴了其优秀的设计思想&#xff…

如何打造一个更友好的网站结构?

在SEO优化中&#xff0c;网站的结构往往被忽略&#xff0c;但它其实是决定谷歌爬虫抓取效率的关键因素之一。一个清晰、逻辑合理的网站结构&#xff0c;不仅能让用户更方便地找到他们需要的信息&#xff0c;还能提升搜索引擎的抓取效率 理想的网站结构应该像一棵树&#xff0c;…

态、势、感、知中的信息

“态、势中的信息”与“感、知中的信息”分别对应客观系统状态与主观认知过程的信息类型&#xff0c;其差异体现在信息的来源、性质、处理方式及作用目标上。以下通过对比框架和具体案例解析两者的区别&#xff1a; 态势中的信息中的态信息指系统在某一时刻的客观存在状态&…

文本生图的提示词prompt和参数如何设置(基于Animagine XL V3.1)

昨天搞了半天 Animagine XL V3.1&#xff0c;发现市面上很多教程只是授之以鱼&#xff0c;并没有授之以渔的。也是&#xff0c;拿来赚钱不好吗&#xff0c;闲鱼上部署一个 Deepseek 都能要两百块。这里我还是想写篇文章介绍一下&#xff0c;虽不全面&#xff0c;但是尽量告诉你…

基于docker搭建Kafka集群,使用内部自带的Zookeeper方式搭建

前提条件 按照【kafka3.8.0升级文档成功搭建kafka服务】 环境&#xff1a;192.168.2.91 192.168.2.93 并以192.168.2.91环境kafka自带的zookeeper作为协调器。 使用基于KRaft方式进行kafka集群搭建教程 搭建kafka-ui可视化工具 1、创建kafka集群节点192.168.2.91 &#xff…

GitPuk快速安装配置教程(入门级)

GitPuk是一款国产开源免费的代码管理工具&#xff0c;工具简洁易用&#xff0c;开源免费&#xff0c;本文将讲解如何快速安装和配置GitPuk&#xff0c;以快速入门上手。 1、安装 支持 Windows、Mac、Linux、docker 等操作系统。 1.1 Linux安装&#xfeff; 以下以Centos7安装…

奖励模型中的尺度扩展定律和奖励劫持

奖励模型中的尺度扩展定律和奖励劫持 FesianXu 20250131 at Wechat Search Team 前言 最近在考古一些LLM的经典老论文&#xff0c;其中有一篇是OpenAI于ICML 2023年发表的文章&#xff0c;讨论了在奖励模型&#xff08;Reward Model&#xff09;中的尺度扩展规律&#xff08;S…

ASP.NET Core中Filter与Middleware的区别

中间件是ASP.NET Core这个基础提供的功能&#xff0c;而Filter是ASP.NET Core MVC中提供的功能。ASP.NET Core MVC是由MVC中间件提供的框架&#xff0c;而Filter属于MVC中间件提供的功能。 区别 中间件可以处理所有的请求&#xff0c;而Filter只能处理对控制器的请求&#x…

力扣240 搜索二维矩阵 ll

编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性&#xff1a; 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10,13,14,17,…

Redis03 - 高可用

Redis高可用 文章目录 Redis高可用一&#xff1a;主从复制 & 读写分离1&#xff1a;主从复制的作用2&#xff1a;主从复制原理2.1&#xff1a;全量复制2.2&#xff1a;增量复制&#xff08;环形缓冲区&#xff09; 3&#xff1a;主从复制实际演示3.1&#xff1a;基本流程准…

JAVA安全—FastJson反序列化利用链跟踪autoType绕过

前言 FastJson这个漏洞我们之前讲过了,今天主要是对它的链条进行分析一下,明白链条的构造原理。 Java安全—log4j日志&FastJson序列化&JNDI注入_log4j漏洞-CSDN博客 漏洞版本 1.2.24及以下没有对序列化的类做校验,导致漏洞产生 1.2.25-1.2.41增加了黑名单限制,…

vmware ubuntu 扩展硬盘系统文件大小

首先&#xff0c;在VMware中添加扩展硬盘大小&#xff1a; 通过lsblk指令&#xff0c;可以看到添加的未分配硬盘大小情况&#xff1a; NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTS fd0 2:0 1 4K 0 disk loop0 7:0 0 4K 1 loop /snap/bare/5 loop1…

DeepSeek R1 Distill Llama 70B(免费版)API使用详解

DeepSeek R1 Distill Llama 70B&#xff08;免费版&#xff09;API使用详解 在人工智能领域&#xff0c;随着技术的不断进步&#xff0c;各种新的模型和应用如雨后春笋般涌现。今天&#xff0c;我们要为大家介绍的是OpenRouter平台上提供的DeepSeek R1 Distill Llama 70B&…

阿里云 | DeepSeek人工智能大模型安装部署

ModelScope是阿里云人工智能大模型开源社区 ModelScope网络链接地址 https://www.modelscope.cn DeepSeek模型库网络链接地址 https://www.modelscope.cn/organization/deepseek-ai 如上所示&#xff0c;在阿里云人工智能大模型开源社区ModelScope中&#xff0c;使用阿里云…