【Single Cell Genomics】Part2 Deep representation learning (form theislab)

文章目录

  • 7 Deep representation learning in single cell genomics
    • 7.1 scanpy
    • 7.2 DCA
    • 7.3 scGen: predicting single-cell perturbation effects
    • 7.4 Human cell atlas

来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:Single Cell Genomics - Lecture 10 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课是三个部分,这篇是第二部分。
本部分是邀请Fabian Theis来介绍单细胞组学领域相关的工作。作为这个领域的开拓者之一,其主要的工作的介绍基本涵盖了这方面的分析流程。

7 Deep representation learning in single cell genomics

7.1 scanpy

单细胞转录组分析主要步骤

  1. raw data 测序数据初步处理,生成技术矩阵‘
  2. 预处理
    1. quality control:去除低质量的细胞或基因,例如那些表达过低或过高的基因
    2. Data correction:去除批次效应
    3. normalization:基因表达水平标准化
    4. feature selection:选择最能代表细胞异质性的genes,用于后续分析
    5. 可视化
  3. clustering
    1. 识别不同的细胞群体,
    2. 使用标记基因来识别和注释这些群体
  4. 下游分析
    1. trajectory inference:轨迹推断 分析单细胞沿着发展或分化路径的动态变化
    2. Differential expression:差异表达分析,找不同细胞群体中的基因表达分析,来识别特性细胞类型/状态
    3. compositional analysis:组成分析,研究细胞群体间的组成变化,例如在健康和疾病状态之间

现在越来越主流的方法是使用神经网络,来学习到潜在空间(降维但保留了主要信息),然后针对这部分数据再进行分析

7.2 DCA

除了能进行潜在空间的提取,自编码器的网络结构还可以进行**“去噪”,比如这里展示的深度计数自编码器(deep count autoencoder)**

  • 最新受到关注的一些方法

    • 单细胞变分自编码器(scVAE)、scVI、VASC、SAUCIE、MAGAN以及GAN的一些变体
  • DCA的主要改进

    • 压缩表达谱来减少噪声。
    • 使用**适应性零膨胀负二项分布(ZINB)**损失函数替代传统的均方误差(MSE)损失函数。
  • performance

    • 可以看到在人为添加dropout之后,使用传统的MSE算是训练不出来,而DCA去噪的效果比较好
    • 清晰的聚类结果,为后续的下游分析提供了很大的便利

7.3 scGen: predicting single-cell perturbation effects

cv领域很多技术都十分的成熟了,但是往往没办法直接用在基因组学上,因为很多东西不匹配,所以如何去进行技术的迁移,开发更适合基因组学方面的算法是非常关键的问题

  • Style Transfer

  • Domain Adaptation

  • 它们是由生成神经网络,特别是 GANs实现的

  • cv

    • 将一个人的某些特征,移到另一个人上面
  • genomics

    • 提出问题:我们能否预测一个细胞类型在给定其他细胞类型中观察到的效应下的扰动效果?
    • 这是转化医学和药物开发中的一个常见问题
    • 比如预测出某些药物对细胞的效果

预测单细胞扰动效应的工具,输入未受扰动和已受扰动的细胞基因表达数据。

编码压缩到潜在空间之后,使用向量计算,来模拟扰动的效应(潜在空间中的向量差)

学习估计扰动效应

  • 使用从潜在空间中学习到的信息来估计特定扰动的效应。这个扰动效应可以被视为从未受扰动状态到受扰动状态的转换向量。

解码过程

  • 将潜在空间中的表示解码回原始的基因表达空间,生成预测的受扰动细胞的基因表达模式。

应用扰动效应

  • 将估计的扰动效应应用到新的或外部样本的细胞上,预测这些细胞如何响应同样的扰动。

目标是实现样本外预测

这里展示了模型的性能

左边是说明了一下使用的细胞类型,以及实验组和对照组

框框里的表示没参与训练的数据,用于测试评估模型好

右边小提琴图展示了基因表达水平的分布,第一条是对照组,第二条是预测,第三条是真实

包括下面的散点图,也可以看出预测的结果非常准确,R² = 0.97

这里展示的是他们对不同的细胞类型都开展了验证实验,分别包括小提琴图和热图

热图里这里展示了细胞类型特定标记基因以及IFN-β标记基因的表达变化

应用和局限性

  • scGen潜在应用
    • 跨研究集成和预测、批次效应去除和跨物种效应预测。
  • 局限性
    • 模型的刚性和在潜在空间中的经验线性,以及它目前只对单一扰动进行建模的能力。

尽管在简化的数学表示(潜在空间)中,细胞状态的变化似乎是直接和简单的,但这些变化在实际的生物学上下文中的反映是复杂和特定于细胞类型的。

这是因为解码过程考虑了生物学的非线性特性,使得模型能够捕捉到由相同扰动造成的不同细胞类型的不同效果

7.4 Human cell atlas

参考细胞图谱(cell atlases)的使用,

细胞图谱是一种工具,用于分类和定位来自不同组织的细胞类型,通常基于它们的基因表达模式。这些图谱可以帮助研究人员理解特定组织或病理条件下的细胞组成。

制作的一些挑战:

  1. 个人数据映射到参考图谱上,同时不是去变异性
  2. 如何处理和集成不同位置的参考数据集
  3. 高效性和用户界面易用
  4. 学习映射的可访问性

这个模型主要是利用迁移学习进行查询-参考数据整合

使用(条件)cVAE模型来进行训练,用公共数据集进行预训练,然后再使用查询数据进行微调

后续内容请查看[slides](

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/347908.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

关于达梦认证DCA DCP,TIDB认证PCTA PCTP考试那点事儿

文章最后有彩蛋,一定要看到最后... 一、正确的道路上遇到正确的你 伴随中国数据库领域的快速技术进步,国内数据库生态蓬勃发展,并不断涌现出极具创新力的产品,推动了数据库应用的遍地开花。截至2024年1月,墨天轮数据社…

SWMM模型INP解析

.INP文件解析 [OPTIONS]:SWMM软件运行前需要设置的参数 [RAINGAGES]雨水节点,核心设置雨水时间序列,可为INP内部数据也可为外部txt数据,TIMESERIES对应【TIMESERIES】模块,TS_1为时间序列名称 [TIMESERIES]&#xff0…

红黑树底层实现

什么是红黑树 红黑树,是一种二叉搜索树,但在每个结点上增加一个存储位表示结点的颜色,可以是Red(红)或Black(黑),它是一种比AVL树在使用上更优秀的树,通过对任何一条从根…

微信小程序开发position等于static、relative、absolute、fixed、stricky时元素显示详细介绍

No Position 不设置position时显示,以红色元素做测试: Static 元素根据界面正常流进行定位。top、right、bottom、left 和 z-index 属性不起作用。这是默认值。 红色元素设置position: static,显示如下: Relative 元素根据界面正常流进行定位。以元素当前位置为基准,根…

g2o--ba代码解析

概要 g2o是常用的图优化理论c库,其自带了很多example讲解如何使用该库文件,本文分析其中ba的示例代码。 所谓的图优化,就是把一个常规的优化问题,以图(Graph)的形式来表述。 在图中,以顶点表…

单片机介绍

本文为博主 日月同辉,与我共生,csdn原创首发。希望看完后能对你有所帮助,不足之处请指正!一起交流学习,共同进步! > 发布人:日月同辉,与我共生_单片机-CSDN博客 > 欢迎你为独创博主日月同…

Spring Boot 模块工程(通过 Maven Archetype)建立

前言 看到我身边的朋友反馈说,IDEA 新建项目时,如果通过 Spring Initializr 来创建 Spring Boot , 已经无法选择 Java 8 版本,通过上小节的教程,不知道该如何创建 Spring Boot 模块工程。如下图所示: 一.IDEA 搭建 …

记录一下uniapp 集成腾讯im特别卡(已解决)

uniapp的项目运行在微信小程序 , 安卓 , ios手机三端 , 之前这个项目集成过im,不过版本太老了,0.x的版本, 现在需要添加客服功能,所以就升级了 由于是二开 , 也为了方便 , 沿用之前的webview嵌套腾讯IM的方案 , 选用uniapp集成ui ,升级之后所有安卓用户反馈点击进去特别卡,几…

【深度学习】CodeFormer训练过程,如何训练人脸修复模型CodeFormer

文章目录 BasicSR介绍环境数据阶段 I - VQGAN阶段 II - CodeFormer (w0)阶段 III - CodeFormer (w1) 代码地址:https://github.com/sczhou/CodeFormer/releases/tag/v0.1.0 论文的一些简略介绍: https://qq742971636.blog.csdn.net/article/details/134…

Mysql索引相关学习笔记:B+ Tree、索引分类、索引优化、索引失效场景及其他常见面试题

前言 索引是Mysql中常用到的一个功能,可以大大加快查询速度,同时面试中也是经常碰到。本文是学习Mysql索引的归纳总结。 索引采用的数据结构——B 树 本部分主要是参考自小林Coding B树的由来 二分查找可以每次缩减一半,从而提高查找效率…

【mongoDB】数据库的创建和删除

目录 1. 查看所有数据库 2.创建数据库 3.查看当前连接的数据库 4.删除数据库 1. 查看所有数据库 show dbs 2.创建数据库 use 数据库名 例如创建一个名为 aaa 的数据库 3.查看当前连接的数据库 db 4.删除数据库 use 数据库名 db.dropDataBase() 比如删除数据库 aaa

1.25号c++

1.引用 引用就是给变量起别名 格式: 数据类型 &引用名 同类型的变量名 (& 引用符号) eg: int a 10; int &b a; //b引用a,或者给a变量取个别名叫b int *p; //指针可以先定义 后指向 p &a; //int &a…

【MySQL】如何通过DDL去创建和修改员工信息表

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-fmKISDBsFq74ab2Z {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

docker(第二部分)

来自尚硅谷杨哥 少一点胡思乱想,心中无女人,编码自然神,忘掉心上人,抬手灭红尘。人间清醒,赚钱第一。好好学习,天天向上。听懂六六六。 7.Dokcer容器数据卷 1,)坑:容器卷记得加入 …

shared_ptr 与 unique_ptr 的转换 笔记

推荐B站文章: 6.shared_ptr与unique_ptr_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV18B4y187uL?p6&vd_sourcea934d7fc6f47698a29dac90a922ba5a3我的往期文章: 独占指针:unique_ptr 与 函数调用-CSDN博客https://blog.csdn.n…

银行数据仓库体系实践(5)--数据转换

数据转换作业主要是指在数据仓库内的结构化数据批量加工,对于非结构化数据以及在线查询接口、数据流的开发主要是遵循代码开发规范以及各中间件的开发规范,如使用java来开发遵守java开发规范,使用Kafka需要遵循Kafka的使用和设计规范。同时做…

对话泛能网程路:能源产业互联网,行至中程

泛能网的能源产业互联网的标杆价值还不仅于此。其在产业互联之外,也更大的特殊性在于其也更在成为整个碳市场的“辅助运营商”,包括电力、碳等一系列被泛能网帮助企业改造和沉淀的要素资产,都在构成着碳交易市场的未来底层。 这恰是产业互联…

有关Quick BI中Case子句中多次使用lod函数返回空值问题分析

一、Quick BI中的lod_ include函数 lod_ include {维度1[,维度2]...:聚合表达式[:过滤条件]} 作用:将表达式中的维度一起作为分组依据进行订算。其中, 1) 维度1[,维度2]... :声明维度,指定聚合表达式要连接到的一个或多个维…

开源项目Git Commit规范与ChangeLog

一,conventional commit(约定式提交) Conventional Commits 是一种用于给提交信息增加人机可读含义的规范。它提供了一组用于创建清晰的提交历史的简单规则。 1.1 作用 自动化生成 CHANGELOG基于提交类型,自动决定语义化的版本变更向项目相关合作开发…

OpenCV书签 #互信息的原理与相似图片搜索实验

1. 介绍 互信息(Mutual Information) 是信息论中的一个概念,用于衡量两个随机变量之间的关联程度。在图像处理和计算机视觉中,互信息常被用来度量两幅图像之间的相似性。 互信息可以看成是一个随机变量中包含的关于另一个随机变…