【Regulatory Genomics】Part2 BPNet、DeepLIFT

文章目录

  • Deep learning at base-resolution reveals cis-regulatory motif syntax
    • problem
    • BPNet: predicting base-resolution profiles from DNA sequence
    • Interpreting the predictions of BPNet
      • 1 DeepLIFT
      • 2 TF-MoDISCO
      • 3 motif syntax derived TF cooperativity
    • Experimental validation of BPNet predictions
    • summary

来自Manolis Kellis教授(MIT计算生物学主任)的课
油管链接:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
本节课分为三个部分,本篇笔记是第二部分。
本节主要是请了一个阿三哥来介绍来一下他们的一些将神经网络应用在调控基因组学上的工作,模型的原理、意义和拓展。模型叫BPNet、DeepLIFT以及TF-MoDISCO。并且在实验上验证了他。整体思路递进的还不错,但是讲的有点快和凌乱,我感觉不如下一部分英伟达的讲座

Deep learning at base-resolution reveals cis-regulatory motif syntax

26:07

Motif syntax 是描述转录因子或其他DNA结合蛋白质如何识别和结合它们的目标DNA motif的“规则”。

  1. Arrangement(排列):motif中的特定核苷酸序列的顺序。
  2. Preferred Spacing(优选间距):当多个转录因子结合到相近的位置时,它们之间的距离可以影响它们的结合和功能。这里的间距指的是两个motif或两个结合位点之间的核苷酸数。
  3. Orientation(方向性):转录因子可以以不同的方向结合到DNA上。某些转录因子可能优先在某个特定的方向上结合,而其他的可能不在乎。
  4. Cooperativity(协同性):这是指当一个转录因子结合到其目标motif时,它可能会影响其他转录因子与附近的DNA结合的能力。例如,一个转录因子的结合可能会使另一个转录因子更容易(或更困难)结合到附近的位置。
  • 调控性DNA的预测模型

  • Transcription factor ChIP-seq data OR chromatin accessibility (DNase-seq / ATAC-seq data): 这一部分展示了两种主要的高通量测序数据——转录因子的ChIP-seq数据和染色质的可及性数据(如DNase-seq和ATAC-seq)。

    • 绿色的峰值表示转录因子在基因组上的结合位置或染色质在特定位置的可及性。
  • 中部的DNA序列

    • 基因组的特定片段。每一个片段都有一个对应的标签,这个标签可能代表该片段是否活跃(例如,是否有转录因子结合)及其活跃程度。
    • 例如,“Inactive (0) (0.3)”表示这个片段是不活跃的,而“Active (+1) (20.2)”则表示它是活跃的,并且活跃度为20.2。
  • Classification or Regression model F(Si)

    • 核心部分。这个模型接受DNA序列片段作为输入,并预测它们的活跃状态或其他某种测量值。这可以是一个分类问题(例如,预测一个给定的DNA片段是否活跃)或一个回归问题(例如,预测其活跃程度或转录因子结合的强度)。
  • Measured Labels (Yi)

    • 这些是真实的、通过实验得到的数据标签。

通过DNA序列信息来预测基因表达的调控模式,特别是转录因子如何与基因组互动。这种模型有助于我们理解基因如何被调控,以及哪些因素可能影响基因的活跃状态。

这些用来训练的片段好像是固定长度的?

我有一些疑惑:

  • 这里训练的数据的x就是dna序列信息,预测出来的就是1或者0,好像没用到motif的信息啊

  • 从图中所示的模型结构来看,确实直接使用了DNA序列作为输入,并预测出一个分类结果(例如1或0,表示转录因子是否结合)。但是,即使模型直接使用DNA序列作为输入,Motif信息仍然在以下方式中隐式地起到作用:

    1. 特征提取: 即使模型的直接输入是DNA序列,它内部的机制可能会学习到与Motif相似的特征或模式。例如,如果使用深度学习模型,如卷积神经网络(CNN),网络的卷积层可能会识别出与Motif相关的序列模式。

    2. 标签来源: 虽然模型预测的输出是1或0,但这些标签可能基于实验数据,如ChIP-seq数据。ChIP-seq实验可以确定转录因子在基因组上的确切结合位置,这些位置往往与特定的Motif相关。

    3. 后处理与解释: 一旦模型进行了训练并进行预测,研究者可能会进一步分析模型识别的特征或模式,以理解哪些DNA Motif与预测的结合事件相关。

problem

这种预测方式实际上丢失了很多信息

使用高分辨率技术来捕捉蛋白质与DNA接触的详细信息

简单介绍一下四种技术:

  1. ChIP-seq:
    • 首先,目标蛋白质(例如转录因子,简称TF)与DNA结合。接下来,通过交联、超声波处理和ChIP(染色体免疫沉淀)将这些结合的区域隔离出来。
    • 结合的DNA被逆交联并加入适配子,然后进行测序。测序结果显示为在结合事件周围的分布。
  2. ChIP-exo/ChIP-nexus:
    • 这与ChIP-seq相似,但在测序前有额外的步骤。特定的适配子被加入,然后进行外切酶消化。
    • 结果提供了更高的空间分辨率,能够更精确地确定蛋白质与DNA的接触点。
  3. DNase-seq
  4. ATAC-seq:
  • 这里就产生问题了,当我们使用如ChIP-seq、ATAC-seq等技术时,我们能够获得大量关于DNA和蛋白质之间相互作用的信息。
  • 但前面的模型将这些数据简单的转化为单一的标量值(例如某个特定区域的总读数),可能会损失大量的细节信息。这些细节可能包括DNA上特定的结构特征、绑定模式(motif)的语法等,这些都是非常有价值的信息。

类比一下:

假设DNA像一本书的长篇章节,而蛋白质则像是标记章节中某些关键词或句子的高光笔。通过技术如ChIP-seq和ATAC-seq,我们可以确定蛋白质“标记”了哪些部分的DNA。这就好比看到哪些句子或关键词被高光笔标记了。

现在,**如果我们只关心每页被标记的次数,而不关心具体标记了哪些句子或关键词,我们就会丢失很多信息。**在DNA的情境中,这意味着我们只关心某个区域有多少蛋白质绑定,而不关心具体是哪些位置上的DNA与蛋白质绑定。

但DNA上的每一个位置都很重要,因为它们可以告诉我们哪些部分的DNA更可能控制某些功能。这就好像知道哪些句子或关键词被高光笔标记可以告诉我们这本书的主题和内容。

另外,DNA上的motif会以特定的方式与蛋白质互动。这些序列的语法和结构就好比语言中的语法规则。如果我们忽略了这些信息,我们可能会错过理解DNA如何工作的关键部分。

BPNet: predicting base-resolution profiles from DNA sequence

从DNA序列预测基对分辨率的数据。

该模型的目标是能够准确地预测蛋白质与DNA之间的具体交互位置,而不仅仅是整体的交互强度。

profile就是一组相关序列的共同特征,我认为这里就是指转录因子(蛋白质)在一条DNA上位置的结合强度

  • 模型能够为DNA的正链和负链预测与蛋白质交互的概率

    • base-pair,每一个碱基对位置与蛋白质交互的概率
    • 说明训练的label数据有更多的细节,更高的分辨率,而不是简单的凑合成一个标量
  • Multi-task

    • 模型能够同时预测多种输出
    • 对于chip-seq实验来说,相同的序列可能对应四五种不同蛋白质有不同的概率轮廓结果
  • loss function

    • MSE for log(total counts):使用均方误差预测整体读数的对数值。

    • Multinomial NLL for profile distribution:使用多项式负对数似然预测与蛋白质交互的具体位置。

  • 自动纠正偏差

    • 某些实验方法可能会引入偏差,导致某些区域的交互数据被放大或减小
  • Dilated convolutions and Residual connections:这些是深度学习模型中的高级技术,可以帮助模型捕获数据中的长距离依赖性并提高训练速度。

模型比较简单,阿三哥认为模型最创新的地方不是网络结构,而是损失函数的设计。不要二元预测就逻辑回归,不要数值预测就均方误差。要学会根据数据中的噪声的性质来设计损失函数。

他认为Multinomial NLL这种分布更加适合几千个碱基对的序列中每个读数的精确分布情况

  • (这里我也不是太明白,我需要去理解一下整体的生物实验与其结果是啥),期待未来补充

  • ChIP-exo/nexus是一种技术,可以用来检测转录因子(TF)结合到DNA的精确位置

  • 四个小鼠胚胎干细胞中关键的转录因子:Oct4, Sox2, Nanog, 和 Klf4

  • 预测结果

可以看出预测的很好,最右边是因为这个数据本身就有些缺失值

图中三个区域是不同的三个DNA区域

  • 第一行是指越低预测越好

  • 第二行是Jensen-Shannon散度,衡量两个概率分布之间相似性的一个方法。值也是越低越好

  • 这里不同的resolution,分辨率,应该是对结果计算时进行了一定的平滑处理,比如5bp的分辨率就是在评估预测性能的时候,将每5bp的预测值取均值后再进行比较

    • 可以减少噪声并更清楚地展示趋势
  • 红线和蓝线越接近,模型的预测能力越接近实验数据,效果越好

Interpreting the predictions of BPNet

Deciphering predictive motifs and motif instances

终于来到重点了,我还寻思这预测什么用,实验数据都能做出来了。这确实没有什么用,重要的是根据碱基序列中的motifs如何能影响不同位置上蛋白质结合强度的预测,其背后到底发生了什么

1 DeepLIFT

Deep Learning Important FeaTures,目标是确定输入特征对于模型预测的贡献

从预测的结果反向去分析每一层神经网络的贡献的大小,进行归因分析,直到输入的每一个核苷酸

如图

可以分析出每个核苷酸是如何影响的,如何根据context进行预测

  • 四种不同转录因子在特定DNA序列区域的结合亲和性
    • 可以对基因组中的每个增强子都进行这样的操作
    • 这些转录因子喜欢结合到增强子区域

可以看出,对于某个转录因子来说,其有对应的motifs。

而其中的基因调控是十分复杂的,比如:

  • 转录因子的协同作用: Oct4和Sox2结合后会形成一个Oct4-Sox2复合体,该复合体有自己独特的DNA结合模式。
  • 结合位点的相互作用: 在某些情况下,一个转录因子的结合可能会增加或减少另一个转录因子结合到相邻位点的可能性。这种相互作用可能与DNA的三维结构和染色质的状态有关。
  • 染色质的开放性: 当一个转录因子结合到某个区域时,它可能会引起染色质的开放,从而为其他转录因子提供结合的机会。
  • 转录因子的多样性

第二张图我还是有一点疑惑的,为什么一个转录因子的线上会有不属于这个因子的小长方形:

我的理解(很有可能错):我们先通过模型的反推得到了哪些motifs是对于这个蛋白来说是贡献大的。我们就将这一小段区域的这个序列跟这个蛋白相关联。然后我们再针对某一个蛋白去看他的chip-seq的结果。我们就可以发现,如果在这个蛋白的这一段区域表达量高。那就说明。他跟这个区域的motifs是相关的

反正意思应该是在某一个转录因子的线上的某个位置有另一个转录因子的结合模式,对当前的转录因子结合有重要贡献,但我不知道怎么测出来的。


以上的这些也许对于研究单个序列的特性还好,但是对于全基因组范围内的还是不够看,所以又开发了一个

2 TF-MoDISCO

通过DeepLIFT模型,识别和聚类那些对模型预测起到关键作用的motifs

整个多个测得的序列上面的motif

该转录因子最有可能结合的DNA区域

  • CWM & PFM: 这些是模体的不同表示方法。CWM表示模体中每个位置的贡献,而PFM表示每个位置的核苷酸频率。

  • Average contribution score: 表示了每个motif对模型预测的平均贡献。

  • ChIP-nexus footprint: 在实际实验中观察到的转录因子结合模式

  • motifs per region: 这个直方图展示了每个调控区域中模体的数量。

3 motif syntax derived TF cooperativity

10.5 bp是DNA双螺旋每转大约的碱基对数。所以,当我们看到10.5 bp的周期性,这通常意味着转录因子或其他蛋白质与DNA的某个特定部位结合,并导致这种周期性模式。

  • Nanog的结合模式在DNA上呈现出10.5 bp的螺旋周期性。这意味着与Nanog结合的DNA区域会有一种重复的、周期性的模式。

  • 那个二维图,展示了大量基因组区域中Nanog motif的存在情况。深色的线表示Nanog motif在该区域的结合强度较高。

    • 可以看出比较深的蓝色线之间,每个的间隔是10.5bp

    • 一个特定的motif(如Nanog motif)在多个位置的出现。所以,基本上每个深色的蓝线代表的是相似或相同的motif。但是,因为每个位点的周围环境可能略有不同,所以每个位点上的motif可能会有些许的变化。

  • 右下角的实验论文证明了10.5bp周期性

  • 左下角的图:power spectrum图,用于表示数据中周期性模式的强度。它可以帮助我们检测并量化某种周期性模式在数据中的存在

    • 这里的y轴表示周期性的强度,而x轴代表了不同的转录因子。如果一个转录因子的结合模式在DNA上有10.5 bp的周期性,那么该转录因子在图上的点会有较高的y值。简而言之,这个图是用来显示哪些转录因子的结合具有10.5 bp的周期性。

  • 通过“motif syntax”来推断不同蛋白质之间的"causal" directional cooperative influence

使用BPNet作为一个虚拟的“预言家”来执行扰动实验

两种扰动方法:

  1. On synthetic sequences:在合成序列上进行。
    1. 合成序列指的是在实验室中人为制造的DNA或RNA序列,而不是自然界中存在的序列。
    2. 通过在这些合成序列上运行BPNet模型,并观察蛋白质如何与这些序列相互作用,研究者可以了解这些motifs如何影响蛋白质的行为。
  2. By mutating motifs in genomic regions:通过在基因组区域内突变 motifs 进行。
    1. 选择特定的基因组区域,然后人为地突变其中的motifs
    2. 通过比较突变前后的序列在BPNet模型中的表现,研究者可以推断这些motifs在蛋白质相互作用中的角色。

在这里插入图片描述

动图:视频52:38处

Oct4和Nanog在合成序列上的合作交互

  • 研究者们可以在精确的位置和距离上放置特定的蛋白质结合位点,从而观察蛋白质的结合模式和交互。
  • X轴 - 距离 (Distance):X轴表示Oct4-Sox2和Nanog之间结合位点的距离。
  • **Y轴 - footprint的改变倍数 **:Y轴显示了蛋白质结合的强度或稳定性的变化。当蛋白质紧密结合到DNA上时,通常会产生一个“footprint”,这是因为结合的蛋白质会阻止其他分子接触该区域。Y轴的值越高,表示结合的稳定性或强度越大。
  • Oct4-Sox2 -> Nanog:金色显示了Oct4-Sox2先结合,Nanog后结合时的情况。
  • Nanog -> Oct4-Sox2:红线相反

当Oct4-Sox2首先与DNA结合时,它可能更容易促进或稳定Nanog的结合,比之于Nanog先于Oct4-Sox2结合的情况。

  1. 结构或空间考虑:蛋白质-DNA结合并非只是化学作用,它也受到蛋白质和DNA空间结构的影响。当Oct4-Sox2先结合时,它可能导致DNA的某种空间构象变化,使得Nanog的结合变得更为容易或稳定。
  2. 可能的生物学意义:在生物学上,这种协同作用可能对某些特定的细胞功能或基因调控过程至关重要。例如,它可能影响基因的启动子活性、基因的表达模式或细胞命运的决策。

  • 不同的转录因子之间的直接互作和核小体范围的互作
  • 热力图表示互作强度,Oct4与Oct4-Sox2之间的互作在小于35bp的距离内是非常强的

Experimental validation of BPNet predictions

在这里插入图片描述

实验验证:通过CRISPR技术对基因组序列进行的突变如何影响Nanog和Sox2的结合

  • “Wt Sox2 motif”和“Mutant Sox2 motif”分别表示Sox2原始的结合模体和突变后的结合模体。
  • 当序列发生突变时,蛋白质的结合模式(即观察到的曲线)也发生了改变

summary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/150085.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

人工智能基础_机器学习036_多项式回归升维实战3_使用线性回归模型_对天猫双十一销量数据进行预测_拟合---人工智能工作笔记0076

首先我们拿到双十一从2009年到2018年的数据 可以看到上面是代码,我们自己去写一下 首先导包,和准备数据 from sklearn.linear_model import SGDRegressor import numpy as np import matplotlib.pyplot as plt X=np.arange(2009.2020)#左闭右开,2009到2019 获取从2009到202…

Python如何使用Pyecharts+TextRank生成词云图?

Python如何使用PyechartsTextRank生成词云图? 1 应用场景2 关于Pyecharts2.1 Pyecharts简介2.2 Pyecharts安装2.3 Pyecharts支持的图形2.4 Pyecharts的一个示例 3 关于TextRank3.1 TextRank简介3.2 TextRank安装 4 词云图的生成过程4.1 导入需要的包4.2 目标文件4.3…

使用c++程序,实现图像平移变换,图像缩放、图像裁剪、图像对角线镜像以及图像的旋转

数字图像处理–实验三A图像的基本变换 实验内容 A实验: (1)使用VC设计程序:实现图像平移变换,图像缩放、图像裁剪、图像对角线镜像。 (2)使用VC设计程序:对一幅高度与宽度均相等的…

计算机网络五层协议的体系结构

计算机网络中两个端系统之间的通信太复杂,因此把需要问题分而治之,通过把一次通信过程中涉及的所有问题分层归类来进行研究和处理 体系结构是抽象的,实现是真正在运行的软件和硬件 1.实体、协议、服务和服务访问点 协议必须把所有不利条件和…

Java GUI实现五子棋游戏

五子棋是一种双人对弈的棋类游戏,通常在棋盘上进行。棋盘为 1515 的方格,黑白双方各执棋子,轮流在棋盘的格点上落子,先在横、竖、斜线上形成五个相连的同色棋子者获胜。五子棋规则简单,易学难精,兼具攻防和…

java,springboot钉钉开发连接器,自定义连接器配合流程使用,流程加入连接器,连接器发送参数,然后你本地处理修改值,返回给流程

1.绘制连接器,注意出餐入参的格式, 2.绘制流程,绑定连接器,是提交后出发还是表单值变化后 3.编写本地接口(内网穿透),绑定连接器 钉钉开发连接器,自定义连接器配合流程使用&#x…

安防监控系统EasyCVR平台调用hls地址生成流的时间过长,该如何解决?

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台可拓展性强、…

报错缺少class(org.apache.hadoop.hdfs.DistributedFileSystem)

平台报错缺少 java.lang.RuntimeException:java.lang.ClassNotFoundException: Class org.apache.hadoop.hdfs.DistributedFileSystem not found 实则是缺少jar包 hadoop-hdfs-client-3.1.1.3.1.0.0-78.jar 找到对应的jar放到程序的lib中即可

【探索Linux】—— 强大的命令行工具 P.15(进程间通信 —— system V共享内存)

阅读导航 引言一、system V的概念二、共享内存(1) 概念(2) 共享内存示意图(3) 共享内存数据结构 三、共享内存的使用1. 共享内存的使用步骤(1)包含头文件(2)获取键值(ftok函数)(3)创…

运营商大数据是新时期贷款公司精准拓客的生命!!是企业的灵魂

贷款客户资源主要根据运营商大数据建模分析网站、app等,获取每天的网站实时访客,app活跃用户使用者数据的信息资源。 而贷款客户资源精准获客平台能帮您做的,就是根据用户实时动态轨迹与通信上网数据,锁定潜在意向客户&#xff0…

CAD Exchanger SDK 须知的开发配置--Crack

支持的配置 目录 支持的编程语言 C 支持C# 支持Java支持Python支持JavaScript 支持 CAD Exchanger SDK 是一组跨平台库,目前支持下列配置。随着时间的推移,旧版本的编译器、体系结构或依赖的第三方库从主要支持级别变为次要支持级别,然后被弃…

竞赛选题 深度学习花卉识别 - python 机器视觉 opencv

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 &a…

天津专升本新版报名系统网上报名、填志愿、缴费、审核等操作步骤

天津高职升本网上报名、填报志愿新版专升本报名系统 ▏报名入口:www.zhaokao.net▏注意:一定要在截止时间内完成报名、填报志愿、缴费、审核、下载《报名信息表》等4步骤▏可报考院校及专业请参考招生院校发布的通知(招生简章、报考须知&…

数据备份软件调研与使用

目录 目的 Filezilla工具介绍: 获取地址 安装步骤 ①下载客户端和服务端​编辑 ②服务端server上传至目标服务器 安装服务端 server端登录 server配置 安装client 遇到的问题FAQ: ​编辑文档 目的 为确保企业数据安全、避免被非法入侵、数据…

【LabVIEW学习】1.对labview的初步使用,控制数据流动,快捷键,参考手册打不开怎么办

一。初步使用labview 1.程序图标 2.打开之后继续点击新建VI 原因:最后的程序后缀就是 .vi 3.新建之后,会有三个界面(没有不要紧,找找肯定有) 4.程序操作方法 1.拖动控件到前面板 2.此时程序框图会出现对应的控件 拖动…

PostGIS学习教程六:几何图形(geometry)

文章目录 一、介绍二、元数据表三、表示真实世界的对象3.1、点(Points)3.2、线串(Linestring)3.3、多边形(Polygon)3.4、图形集合(Collection) 四、几何图形输入和输出五、从文本转换…

【Proteus仿真】【Arduino单片机】DS18B20温度计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真Arduino单片机控制器,使用PCF8574、LCD1602液晶、DS18B20温度传感器等。 主要功能: 系统运行后,LCD1602显示传感器采集温度。 二、软件设计 /*…

模拟业务流程+构造各种测试数据,一文带你测试效率提升80%

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

窗口管理工具 Mosaic mac中文版功能特点

MosAIc mac是一种窗口管理工具,可帮助您在计算机屏幕上有效地组织和管理多个应用程序窗口。它提供了一种直观的方式来调整和排列窗口,以最大化工作效率。 MosAIc mac窗口管理软件功能和特点 窗口布局:MosAIc允许您选择不同的窗口布局&#x…

自由曲线与曲面 -计算机图形学

目录 自由曲线与曲面 函数的连续性 (1)参数连续性 (2)几何连续性 bezier 曲线 Bernstein基函数 *公式看不懂,带几个数进去看看,你就更好地可以看到这个公式的本质了 凸包性质 仿射不变性 …