文章目录
- 7 Deep representation learning in single cell genomics
- 7.1 scanpy
- 7.2 DCA
- 7.3 scGen: predicting single-cell perturbation effects
- 7.4 Human cell atlas
来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课是三个部分,这篇是第二部分。
本部分是邀请Fabian Theis来介绍单细胞组学领域相关的工作。作为这个领域的开拓者之一,其主要的工作的介绍基本涵盖了这方面的分析流程。
7 Deep representation learning in single cell genomics
7.1 scanpy
单细胞转录组分析主要步骤
- raw data 测序数据初步处理,生成技术矩阵‘
- 预处理
- quality control:去除低质量的细胞或基因,例如那些表达过低或过高的基因
- Data correction:去除批次效应
- normalization:基因表达水平标准化
- feature selection:选择最能代表细胞异质性的genes,用于后续分析
- 可视化
- clustering
- 识别不同的细胞群体,
- 使用标记基因来识别和注释这些群体
- 下游分析
- trajectory inference:轨迹推断 分析单细胞沿着发展或分化路径的动态变化
- Differential expression:差异表达分析,找不同细胞群体中的基因表达分析,来识别特性细胞类型/状态
- compositional analysis:组成分析,研究细胞群体间的组成变化,例如在健康和疾病状态之间
现在越来越主流的方法是使用神经网络,来学习到潜在空间(降维但保留了主要信息),然后针对这部分数据再进行分析
7.2 DCA
除了能进行潜在空间的提取,自编码器的网络结构还可以进行**“去噪”,比如这里展示的深度计数自编码器(deep count autoencoder)**
-
最新受到关注的一些方法
- 单细胞变分自编码器(scVAE)、scVI、VASC、SAUCIE、MAGAN以及GAN的一些变体
-
DCA的主要改进
- 压缩表达谱来减少噪声。
- 使用**适应性零膨胀负二项分布(ZINB)**损失函数替代传统的均方误差(MSE)损失函数。
-
performance
- 可以看到在人为添加dropout之后,使用传统的MSE算是训练不出来,而DCA去噪的效果比较好
- 清晰的聚类结果,为后续的下游分析提供了很大的便利
7.3 scGen: predicting single-cell perturbation effects
cv领域很多技术都十分的成熟了,但是往往没办法直接用在基因组学上,因为很多东西不匹配,所以如何去进行技术的迁移,开发更适合基因组学方面的算法是非常关键的问题
-
Style Transfer
-
Domain Adaptation
-
它们是由生成神经网络,特别是 GANs实现的
-
cv
- 将一个人的某些特征,移到另一个人上面
-
genomics
- 提出问题:我们能否预测一个细胞类型在给定其他细胞类型中观察到的效应下的扰动效果?
- 这是转化医学和药物开发中的一个常见问题
- 比如预测出某些药物对细胞的效果
预测单细胞扰动效应的工具,输入未受扰动和已受扰动的细胞基因表达数据。
编码压缩到潜在空间之后,使用向量计算,来模拟扰动的效应(潜在空间中的向量差)
学习估计扰动效应:
- 使用从潜在空间中学习到的信息来估计特定扰动的效应。这个扰动效应可以被视为从未受扰动状态到受扰动状态的转换向量。
解码过程:
- 将潜在空间中的表示解码回原始的基因表达空间,生成预测的受扰动细胞的基因表达模式。
应用扰动效应:
- 将估计的扰动效应应用到新的或外部样本的细胞上,预测这些细胞如何响应同样的扰动。
目标是实现样本外预测
这里展示了模型的性能
左边是说明了一下使用的细胞类型,以及实验组和对照组
框框里的表示没参与训练的数据,用于测试评估模型好
右边小提琴图展示了基因表达水平的分布,第一条是对照组,第二条是预测,第三条是真实
包括下面的散点图,也可以看出预测的结果非常准确,R² = 0.97
这里展示的是他们对不同的细胞类型都开展了验证实验,分别包括小提琴图和热图
热图里这里展示了细胞类型特定标记基因以及IFN-β标记基因的表达变化
应用和局限性:
- scGen潜在应用
- 跨研究集成和预测、批次效应去除和跨物种效应预测。
- 局限性
- 模型的刚性和在潜在空间中的经验线性,以及它目前只对单一扰动进行建模的能力。
尽管在简化的数学表示(潜在空间)中,细胞状态的变化似乎是直接和简单的,但这些变化在实际的生物学上下文中的反映是复杂和特定于细胞类型的。
这是因为解码过程考虑了生物学的非线性特性,使得模型能够捕捉到由相同扰动造成的不同细胞类型的不同效果
7.4 Human cell atlas
参考细胞图谱(cell atlases)的使用,
细胞图谱是一种工具,用于分类和定位来自不同组织的细胞类型,通常基于它们的基因表达模式。这些图谱可以帮助研究人员理解特定组织或病理条件下的细胞组成。
制作的一些挑战:
- 个人数据映射到参考图谱上,同时不是去变异性
- 如何处理和集成不同位置的参考数据集
- 高效性和用户界面易用
- 学习映射的可访问性
这个模型主要是利用迁移学习进行查询-参考数据整合
使用(条件)cVAE模型来进行训练,用公共数据集进行预训练,然后再使用查询数据进行微调
后续内容请查看[slides](