scDrug:从scRNA-seq到药物反应预测

scRNA-seq技术允许在转录组水平上对数千个细胞进行测量。scRNA-seq正在成为研究肿瘤微环境中细胞成分及其相互作用的重要工具。scRNA-seq也被用于揭示肿瘤微环境模式与临床结果之间的关联,并在复杂组织中剖析药物治疗的细胞特异性效应。scRNA-seq的最新进展推动了疾病和治疗靶点生物标志物的发现。虽然已经提出了利用scRNA-seq数据的基因表达来预测药物反应的方法,但还需要一个从scRNA-seq分析到药物发现的集成工具。scDrug作为一个完整pipeline,包括生成scRNA-seq聚类和预测药物治疗方法。scDrug管道由三个主要模块组成:用于鉴定肿瘤细胞亚群的scRNA-seq分析、细胞亚群的功能注释和药物反应预测。

来自:scDrug: From single-cell RNA-seq to drug response prediction
项目:https://github.com/ailabstw/scDrug

目录

  • 背景概述
  • 数据和方法
    • scRNA-seq数据预处理
    • 自动分辨率聚类
    • 差异基因分析,细胞注释,功能富集
    • 生存分析
    • 药物反应预测
      • 药物反应训练数据
      • GEP作为特征
      • 预测模型的框架
      • 模型训练和验证
  • 肝细胞癌病例分析

背景概述

scRNA-seq被用于分析高分辨率细胞组成,从而发现肿瘤异质性,并为定制化生物学任务提供了前所未有的机会。恶性肿瘤细胞表达特征的细节为药物治疗提供了靶点依据。药物重利用是基于已批准或正在研究的药物,开发针对不同疾病的治疗策略。为了连接药物发现和scRNA-seq分析两个领域,开发了scDrug。

scDrug可以从scRNA-seq分析到药物反应预测。在scDrug中,首先构建了scRNA-seq分析管道,用于对scRNA-seq数据进行全面分析。实现了在Python环境下对肿瘤细胞进行亚群聚类。

接下来,整合了两种不同的方法来预测针对癌细胞亚群的药物治疗,使用包括LINCS, GDSC和PRISM在内的公共数据集来全面表征癌细胞系的分子特征。具体来说,一种方法预测药物对特定肿瘤簇的敏感性,另一种方法预测药物对肿瘤簇的综合作用。scDrug提供预测结果,供领域专家对所选药物进行评价。实验结果表明,scDrug可以成功捕获细胞对药物治疗的反应。总之,scDrug允许研究人员探索肿瘤细胞的异质性,并找到有效治疗的候选药物。

数据和方法

scRNA-seq数据预处理

第一步是scRNA-seq数据分析,包括Scanpy的数据预处理、MAGIC对输入进行插补、Harmony进行批次校正、Louvain进行聚类、Scanpy差异表达基因DEG鉴定、GSEAPY功能富集注释,scMatch细胞类型注释。

在数据预处理中,过滤掉表达少于200个基因的细胞和表达少于3个细胞的基因,将线粒体基因占比的细胞保持在30%以下。剩余的数据进行归一化到每细胞10000个总数,再进行自然对数变换,高变基因搜索,缩放到单位方差和零均值。一旦需要数据输入,scDrug还集成了MAGIC来输入缺失值。接下来,应用主成分分析(PCA),并根据需要使用Harmony消除批次效应。然后,计算前20个主成分的邻居图,并使用Louvain算法将细胞聚类成组。

自动分辨率聚类

为了确定聚类的分辨率,用户可以选择手动或自动分配。在自动模式下,对间隔为0.2的[0.4,1.4]区间内的分辨率值计算了chooseR中描述的基于次抽样的鲁棒性评分。对于给定的分辨率,使用定义为1.0的距离矩阵减去5次聚类的共聚类频率来计算平均轮廓分数,每次聚类在数据集的80%的随机子集上执行,不进行替换。将得分最高的分辨率作为最优聚类分辨率。

差异基因分析,细胞注释,功能富集

聚类后,scDrug使用默认参数的scanpy函数rank_genes_groups对每个聚类的基因进行排序,以识别DEGs。然后,scDrug用GSEAPY进行功能富集。此外,使用human GO_Biological_Process_2021库对log2倍变化大于2且p值和调整后的p值均低于0.01的DEG执行enrichment。对于细胞类型注释,使用所有基因表达,并计算其细胞的平均表达量作为每个簇的基因表达谱(GEP,gene expression profile)。接下来,应用scMatch,根据参考数据集的GEP对簇进行注释。

基于scRNA-seq数据分析的输出,包括一个AnnData对象,一个基因表达谱GEP,批校正、聚类和细胞类型注释结果的UMAPs,以及DEGs和GSEA文件。

生存分析

为了预测每个聚类对患者生存的影响,首先选择每个簇的前20个差异表达基因作为簇的特异性基因签名。然后,从TCGA数据库中下载不同癌症患者的bluk RNA profiles和相应的临床信息。为了评估每个患者的肿瘤簇活性,为每个患者构建了一个expression table,每个列代表一个簇的基因特征。对于每一簇及其所选的20个基因中的某一个,如果该患者的该基因表达高于所有患者的中位数表达,则赋值为1;否则,该值设置为0。按列求和(以下称为“activity score”)表示患者中每个簇的激活水平。对于每一簇,如果患者的活动得分在最高或最低四分位数,则将其分为“高表达”簇和“低表达”簇。最后,用Kaplan-Meier曲线和log-rank分析的p值比较两组的生存率(图S1)。下面示例中以A类型细胞为例,对比了A簇激活高低的两组患者,然后结合临床信息得到生存曲线。这里的生存分析是为了找到疾病相关的簇。
figs1

  • 图S1:从 TCGA 中评估了 scRNA-seq 数据识别的每种细胞类型特异性特征的表达水平。 对于每个簇(细胞类型),将患者分为两组,一组为高表达,另一组为低表达。最后,用 Kaplan-Meier 曲线和 log rank p 值分析比较了这两组的生存情况。

药物反应预测

在scDrug管道中,使用第一步生成的AnnData对象,并应用CaDRReS-Sc(Predicting heterogeneity in clone-specific therapeutic vulnerabilities using single-cell transcriptomic signatures)进行药物反应预测。CaDRReS-Sc是一个基于scRNA-seq数据的强大的癌症药物反应预测的机器学习框架,它估计细胞簇的halfmaximal inhibitory concentration(IC50)。基于CaDRReSSc框架,提供了两种预训练的预测模型GDSC和PRISM,用于预测细胞簇的药物反应。

这两个模型是使用GDSC和PRISM数据集的基因表达和药物反应数据,通过无样本偏差的目标函数进行训练的。通过计算实际药物反应值和预测药物反应值的Spearman相关系数来评估预测性能。按照升序排列,scDrug剔除了drug-wise系数低于第一个四分位数系数的药物。


“IC50”(半数最大抑制浓度):表示在一定浓度下,化合物能够抑制蛋白质活性的程度


药物反应训练数据

对于GDSC模型,scDrug使用了226种药物在1074种癌细胞系中的反应数据(测量的IC50),数据来源于CaDRReS-Sc的GDSC数据集,GDSC数据集作为训练数据集。对于PRISM模型,scDrug使用PRISM Repurposing数据集(19Q4版本)作为训练数据,该数据集包含1448种药物对480种细胞系的反应。PRISM数据集以剂量-反应曲线下的面积(AUC)提供药物反应(不是来自IC50)。

GEP作为特征

对于GDSC模型,我们使用GDSC数据库中CaDRReS-Sc提供的1018个癌细胞系的基因表达数据,选择所有细胞系中共有的17419个基因作为特征基因进行模型训练。对于PRISM模型,从DepMap Portal(https://depmap.org/portal/)下载CCLE(Cancer Cell Line Encyclopedia)表达数据(21Q3版本),包含1,379个细胞系和19,177个基因。选择表达与PRISM AUC相关且绝对Pearson相关系数至少为0.2的8087个基因作为特征基因。scDrug计算了每个特征基因在细胞系间平均表达量的log2表达倍数变化。

预测模型的框架

为了预测细胞簇的IC50,scDrug计算了相对于AnnData的平均基因表达值的log2倍变化,并预测了每个细胞的IC50值。然后,平均IC50预测值确定每个簇的IC50。或者利用簇和其他簇之间的log2倍变化,直接预测簇的IC50。

模型从转录组学和药物反应中学习了潜在的药物-基因组学关系。CaDRReS-Sc中提出的模型定义为: s ^ i u = μ + b i Q + b u P + q i ⋅ p u = μ + b i Q + b u P + q i ( x u W P ) T \widehat{s}_{iu}=\mu+b_{i}^{Q}+b_{u}^{P}+q_{i}\cdot p_{u}=\mu+b_{i}^{Q}+b_{u}^{P}+q_{i}(x_u W_{P})^{T} s iu=μ+biQ+buP+qipu=μ+biQ+buP+qi(xuWP)T其中, s i u s_{iu} siu是药物 i i i对细胞系 u u u的观测药物反应(IC50), s ^ i u \widehat{s}_{iu} s iu表示预测的药物反应, μ \mu μ为总体平均药物反应, b i Q b_{i}^{Q} biQ b u P b_{u}^{P} buP分别是药物 i i i和细胞系 u u u的偏置项, q i , p u ∈ R f q_{i},p_{u}\in R^{f} qi,puRf表示药物 i i i和细胞系 u u u在latent space下的f-dim表征。 W P ∈ R d × f W_{P}\in R^{d\times f} WPRd×f是将基因表达水平 x u ∈ R d x_u\in R^{d} xuRd投影到latent space的变换矩阵, d d d为基因数。也有简化的: s ^ i u = b i Q + q i ⋅ p u \widehat{s}_{iu}=b_{i}^{Q}+q_{i}\cdot p_{u} s iu=biQ+qipu,目标函数定义为: L ( θ ) = 1 2 K [ ∑ i ∑ u ( s i u − s ^ i u ) 2 + λ ∑ d ∣ ∣ w d ∣ ∣ 2 + λ ∑ i ∣ ∣ q i ∣ ∣ 2 ] L(\theta)=\frac{1}{2K}[\sum_{i}\sum_{u}(s_{iu}-\widehat{s}_{iu})^{2}+\lambda\sum_{d}||w_{d}||^{2}+\lambda\sum_{i}||q_{i}||^{2}] L(θ)=2K1[iu(sius iu)2+λd∣∣wd2+λi∣∣qi2]其中, K K K是drug-cell pairs的总数, λ \lambda λ是L2正则化系数, w d w_d wd W P W_{P} WP中的向量。模型预测流程见图S2。
figs2

  • 图S2:该图显示了训练 PRISM 药物反应模型并将其用于下游应用。对于训练任务,目标是最小化预测药物反应值和真实药物反应值(IC50)之间的损失。 对于应用任务,使用训练表达谱计算特征并用于预测药物反应。CCLE:Cancer Cell Line Encyclopedia。

模型训练和验证

PRISM和GDSC模型分别使用140维和10维潜在空间进行训练,学习率为0.01,最大epoch设置为100,000。为了评估unseen细胞系的性能,scDrug将24个细胞系作为验证集,并计算它们的中位数绝对误差,以及实际和预测药物反应之间的Pearson相关系数。


基于CaDRReS-Sc预测药物反应是一种候选药物预测方式,还有另一种是基于Premnas计算框架,结合LINCS L1000实现联合药物治疗的方案。两者分别有以下思想指导:

  • 基于CaDRReS-Sc预测药物反应:学习药物与细胞系的IC50数据,所以在搜索候选药物时,是根据IC50来筛选的。
  • Premnas:基于LINCS L1000学习扰动,扰动结果体现在施加药物扰动后,各个细胞系中细胞数量的变化,肿瘤细胞系的数量变少,说明该扰动是有利的。

总体而言,scDrug搜索药物是基于生存分析确定癌细胞系,基于药物和细胞系的统计数据来学习的,没有涉及到具体基因,蛋白层面,不能与现在的CPI模型相结合


肝细胞癌病例分析

fig3

  • 图3:scDrug工作流程。scDrug的第一部分分析scRNA-seq以生成细胞簇(蓝色)。scDrug的第二部分执行细胞类型和功能注释(黄色)。scDrug的第三部分运行生存分析,以帮助识别恶性肿瘤细胞簇(绿色),最后用两种不同的方法预测候选药物(红色)。

fig4

  • 图4:肝细胞癌病例分析。
  • A 肝细胞癌的scrna序列来自Sharma,2020;
  • B Harmony批次校正后patientID分配的UMAP;
  • C UMAP用于细胞聚类
  • D scDrug自动计算分辨率;
  • E 来自C的潜在肿瘤细胞亚聚类
  • F 细胞簇gene ontology annotation的基因集富集分析
  • G 用于生存分析的KM曲线示例
  • H 热图显示PRISM数据库中通过CaDRReS-Sc预测抑制细胞生长的潜在药物。每个单元格代表肿瘤细胞簇对药物的预测敏感性评分值
  • I 根据Premnas预测,LINCS L1000数据库中六种药物的最佳联合治疗方案的热图,以杀死最多数量的细胞簇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/141743.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

postswigger 靶场(CSRF)攻略-- 3.令牌验证

靶场地址: https://portswigger.net/web-security/csrf 令牌(token) 验证取决于令牌(token) 的存在 题目中已告知易受攻击的是电子邮件的更改功能,而目标是利用 csrf 漏洞更改受害者的电子邮件地址,最后给出了登录凭据:wiener:pet…

SaaS 电商设计 (三) 如何做大促压测

一.背景&目标 1.1 常见的压测场景 电商大促:一众各大厂的促销活动场景,如:淘宝率先推出的天猫双11,而后京东拉出的京东 618 .还是后续陆陆续续的一些年货节, 3.8 女神节等等.都属于一些常规的电商大促 票务抢购:常见的如承载咱们 80,90 青春回忆的 Jay 的演唱会,还有普罗…

LLM 大模型向量数据库技术架构浅析

▼最近直播超级多,预约保你有收获 近期直播:《LLM 大模型向量数据库技术架构剖析和应用案例实战》 —1— AI 智能时代,开发者需要一个真正的向量数据库吗? 答案很简单,这取决于开发者的应用场景。举个例子,…

内网穿透的应用-如何使用CFImagehost搭建简洁易用的私人图床并公网访问

文章目录 1.前言2. CFImagehost网站搭建2.1 CFImagehost下载和安装2.2 CFImagehost网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar临时数据隧道3.2 Cpolar稳定隧道(云端设置)3.3.Cpolar稳定隧道(本地设置) 4.公网访问测…

pdf增强插件 Enfocus PitStop Pro 2022 mac中文版功能介绍

Enfocus PitStop Pro mac是一款 Acrobat 插件,主要用于 PDF 预检和编辑。这个软件可以帮助用户检查和修复 PDF 文件中的错误,例如字体问题、颜色设置、图像分辨率等。同时,Enfocus PitStop Pro 还提供了丰富的编辑工具,可以让用户…

响应式工作范文作文学习参考资料网站模板源码

模板信息: 模板编号:29083 模板编码:UTF8 模板分类:博客、文章、资讯、其他 适合行业:工作范文类企业 模板介绍: 本模板自带eyoucms内核,无需再下载eyou系统,原创设计、手工书写DIVC…

docker小技能

文章目录 I 预备知识Docker组成命名空间 (进程隔离)II 常用命令2.1 案例:流水线docker 部署2.2 删除没有使用的镜像2.3 shell 不打印错误输出2.4 阿里云流水线/jenkins忽略shell步骤中的报错https://www.runoob.com/docker/docker-architecture.html I 预备知识 Docker组成…

【vue】0到1的常规vue3项目起步

创建项目并整理目录 npm init vuelatestjsconfig.json配置别名路径 配置别名路径可以在写代码时联想提示路径 {"compilerOptions" : {"baseUrl" : "./","paths" : {"/*":["src/*"]}} }elementPlus引入 1. 安装e…

openGauss学习笔记-122 openGauss 数据库管理-设置密态等值查询-密态支持函数/存储过程

文章目录 openGauss学习笔记-122 openGauss 数据库管理-设置密态等值查询-密态支持函数/存储过程122.1 创建并执行涉及加密列的函数/存储过程 openGauss学习笔记-122 openGauss 数据库管理-设置密态等值查询-密态支持函数/存储过程 密态支持函数/存储过程当前版本只支持sql和P…

【工程实践】Docker使用记录

前言 服务上线经常需要将服务搬到指定的服务器上,经常需要用到docker,记录工作中使用过dcoker指令。 1.写Dockerfile 1.1 全新镜像 FROM nvidia/cuda:11.7.1-devel-ubuntu22.04ENV WORKDIR/data/Qwen-14B-Chat WORKDIR $WORKDIR ADD . $WORKDIR/RUN ap…

【数组方法reduce】reduce细讲以及模拟重写其他数组扩展方法

学习关键语句: Array.reduce Array.prototype.reduce reduce方法 重写 reduce 方法 1. 写在前面 很多同学 ( 指我自己 ) 在学习其他数组扩展方法时都没那么困难 , 但是到了 reduce 方法时就会显得蠢蠢的 , 所以今天就赶紧将这个方法讲个明白 其实所有的数组扩展方法本质上都…

数据结构 顺序表和链表

1.线性表 线性表(linear list)是n个具有相同特性的数据元素的有限序列 线性表是一种在实际中广泛使用的数据结构,常见的线性表:顺序表、链表、栈、队列、字符串.. 线性表在逻辑上是线性结构,也就说是连续的一条直线…

2023年【汽车驾驶员(高级)】证考试及汽车驾驶员(高级)实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 汽车驾驶员(高级)证考试考前必练!安全生产模拟考试一点通每个月更新汽车驾驶员(高级)实操考试视频题目及答案!多做几遍,其实通过汽车…

【备忘】在Nginx服务器安装SSL证书

您可以在Nginx或Tengine服务器上安装SSL证书,实现通过HTTPS安全访问Web服务器。本文介绍如何为Nginx或Tengine服务器安装SSL证书。 重要 本文以CentOS 8.0 64位操作系统、Nginx 1.14.2为例介绍。不同版本的操作系统或Web服务器,部署操作可能有所差异&a…

2020年12月 Scratch(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

一、单选题(共25题,每题2分,共50分) 第1题 下面哪个区域是“舞台区”? A:A B:B C:C D:D 答案:B 第2题 下面哪段程序可以随机切换三个背景? A: B: C: D:

私域电商:构建商业新模式的必要性

随着互联网的快速发展,传统的电子商务模式已经无法满足企业对于个性化、精准化服务的需求。在这样的背景下,私域电商应运而生,为企业提供了新的商业机会和增长点。本文将探讨私域电商的必要性及其构建商业新模式的影响。 一、私域电商的概念 …

Python 邮件发送(163为例)

代码 import smtplib import socket from email.mime.text import MIMEText from email.header import Headerdef send_mail():# 设置发件人、收件人、主题、内容from_address 18847097110163.comto_address 963268595qq.comsubject test emailbody hahahhahaha# SMTP邮件…

若依框架下载文件

若依下载的逻辑是指定文件存储的路径,在ruoyi-admin模块下的application.yml中配置路径结尾必须要加/或者\结尾。 他使用的是虚拟路径映射,所以文件名必须是配置路径下真实的文件名。 若依采用的是流的方式,前端必须要用bolb的方式去接收&am…

八大技术架构-演进之路

单机架构 1、简介 应用服务和数据库服务共用一台服务器 2、出现原因 出现在互联网早期,访问量比较小,单机足以满足需求 3、架构工作原理 单机架构通过应用(划分了多个模块)和数据库在单个服务器上协作完成业务运行&#xff0…

双十一网络电视盒子哪个品牌好?内行分享权威电视盒子排行榜

双十一大促正如火如荼进行中,因为我从事的工作和电视盒子有关,身边的朋友们在选购电视盒子时不知道从何下手就会问我的意见,本期将盘点业内公认的电视盒子排行榜,给双十一想买电视盒子的朋友们做个参考。 排行一:泰捷W…