scGPT实验解读

本篇内容为发表在Nature Methods上的scGPT的部分实验内容

来自:scGPT: toward building a foundation model for single-cell multi-omics using generative AI, Nature Methods, 2024

目录

  • scGPT揭示特定细胞状态的基因网络
  • 缩放法则和迁移学习中的上下文效应

scGPT揭示特定细胞状态的基因网络

GRN的转录因子、辅因子、增强子和靶基因之间的相互作用介导了重要的生物学过程。现有的GRN推断方法通常依赖于静态基因表达的相关性或伪时间估计作为因果图的代理。scGPT通过基因表达的生成建模进行了优化,在其基因嵌入和注意图中隐式地编码了这种关系。因此,通过探测来自预训练或微调模型的scGPT嵌入和注意图,提出了GRN推理工作流程。基因嵌入构建了一个相似性网络,该网络在数据集级别上模拟基因-基因相互作用。注意图谱进一步捕获了不同细胞状态下独特的基因网络激活模式。

在这个研究中,作者验证了scGPT提取的gene网络,并讨论其在基因程序发现中的重要性。scGPT证明了其通过学习基因token嵌入对功能相关基因进行分组和区分功能不同基因的能力。在图5a中,作者使用来自预训练的scGPT模型的基因embedding,通过可视化人类白细胞抗原(HLA, human leukocyte antigen)蛋白的相似性网络进行了检查。在这种zero shot设置中,scGPT模型成功地突出了两个与已被明确表征的HLA类别相对应的簇:HLA I类和HLA II类基因。

这些类别编码抗原呈递蛋白,在免疫环境中发挥不同的作用。例如,HLA I类蛋白(由HLA- a、HLA- c和HLA- e等基因编码)被CD8+ T cells识别并介导细胞毒性作用,而HLA II类蛋白(由HLA- drb1、HLA- dra和HLA- dpa1编码)被CD4+ T cells识别并触发更广泛的辅助功能。
fig5a

  • 图5a:预训练scGPT推断的HLA基因网络

此外,作者在“immune human”数据集上对scGPT模型进行了微调,并探索了该数据集中存在的免疫细胞类型特有的CD基因网络。为了进行GRN分析,作者使用了与整合任务相同的微调策略。

预训练的scGPT模型成功地识别出编码T细胞活化的T3复合物(CD3E、CD3D和CD3G)以及编码B细胞信号传导的CD79A和CD79B,以及作为HLA-I类分子共受体的CD8A和CD8B(见图5b)。此外,微调后的scGPT模型突出了CD36和CD14之间的关联(见图5b)。
fig5b

  • 图5b:预训练scGPT和微调scGPT(immune human数据集)推断的CD基因网络

更多的GRN相关分析
supfig9

  • 补充图9:scGPT基于注意力的基因调控网络(GRN)分析预测了与功能相关的转录因子在Replogle CRISPRi扰动数据集中的基因相互作用。

对于A,转录因子CPSF2、CPSF3、CPSF4和CSTF3参与mRNA多聚腺苷酸化调控的GRN分析。基因目标网络图展示了scGPT识别的每个转录因子的前20个最受影响基因。由CHIP-Atlas数据库验证的目标基因以紫色突出显示。边强度反映了来自scGPT的重要性评分。

通路图展示了这些转录因子中前100个最受影响基因在Reactome数据库中富集的功能通路分组。Replogle等人注释的特定术语(即mRNA多聚腺苷酸化)以紫色突出显示。通过文献搜索与这些转录因子或mRNA多聚腺苷酸化相关的术语以蓝色突出显示。非特异性通路以灰色着色。

对于B,转录因子KAT8、MCRS1和YEATS4参与组蛋白乙酰化调控的GRN分析。

缩放法则和迁移学习中的上下文效应

scGPT通过迁移学习方式的微调展示了巨大的潜力。作者进一步确认了使用基础模型的好处,将其与为每个下游任务从头开始训练的类似Transformer模型(表示为scGPT(from scratch))进行比较。其中经过微调的scGPT一致地显示了整合和细胞类型注释等任务的性能增益。考虑到基础模型对下游任务的贡献,作者进一步探索影响迁移学习过程的因素。

首先,作者深入探讨了预训练数据规模与微调模型性能之间的关系:对于某个分析任务,通过将进一步的测序数据添加到预训练图谱中,可以获得多大程度的改进?

作者预训练了一系列具有相同参数数量但使用不同数量数据的scGPT模型,从30,000到3300万个测序的正常人类细胞。补充图13展示了使用这些不同预训练模型进行各种应用的微调结果性能。观察到,随着预训练数据量的增加,微调模型的性能也有所提高。这些结果表明了一个规模效应,表明更大的预训练数据规模会导致更好的预训练嵌入和在下游任务中的性能改进。值得注意的是,该发现也与自然语言模型中报道的scaling law一致,突显了数据规模在模型性能中的重要作用。预训练数据规模在微调结果中的关键作用预示了单细胞领域预训练模型未来的前景。随着更大规模和更多样化的数据集的出现,我们可以期待模型性能的进一步提升,推动我们对细胞过程的理解。

supfig13

  • 补充图13:预训练数据集大小对各种应用在微调和零样本设置中的影响。实验采用COVID-19、Lung-Kim、M.S.和Replogle数据集。测试集上的平均指标(n=5个随机训练验证分割)在每个预训练设置的每个任务中呈现。

作者探索的第二个因素是情境特定预训练的影响。这里,上下文使用是指在特定细胞类型上进行预训练,然后在类似细胞类型上对下游任务进行微调的scGPT模型。为了探索这一因素的影响,作者对来自单个主要器官的正常人类细胞进行了七个器官特异性模型的预训练(图1d),并对另一个泛癌细胞模型进行了预训练分别是两个模型)。通过可视化预训练数据的细胞嵌入验证了预训练的有效性:泛癌症模型细胞嵌入准确地分离了不同的癌症类型(补充图2)。器官特异性模型能够揭示相应器官的细胞异质性(补充图3)。
fig1d

  • 图1d:人体器官数据

supfig2

  • 补充图2:使用预训练的全癌症模型生成的细胞嵌入的UMAP图,包括300万个癌细胞。从左到右,颜色表示癌症类型、组织类型和细胞类型。观察到,该模型能够生成细胞嵌入,主要展示了癌症和细胞类型的差异,以三个示例区域为例。

supfig3

  • 补充图3:器官特异性模型。(中心)使用来自预训练的scGPT全人类模型的细胞嵌入,对选定的300万个采集的正常人类细胞进行UMAP可视化。细胞按其来源器官着色。(周围)使用来自相应器官特异性模型的细胞嵌入对每个器官的细胞进行UMAP可视化。
    每个图像中的颜色表示主要细胞类型。例如,左上方的UMAP可视化了来自专门预训练于脑细胞的scGPT模型的脑细胞嵌入。每个UMAP图的轮廓颜色表示器官特异性训练数据集的大小是否大于800,000个细胞(蓝色)或不是(灰色)。观察到,对于训练数据足够的模型(即,> 800,000个细胞),可以生成能够区分主要细胞类型的良好细胞嵌入。

接下来,作者在COVID-19数据集上微调模型,以检查预训练背景的影响。分析显示,在预训练中模型上下文的相关性与其随后整合数据的性能之间存在明显的相关性。在数据整合任务中表现最好的是在整个人体、血液和肺部数据集上进行预训练的模型,这些模型与COVID-19数据集中存在的细胞类型密切相关。值得注意的是,即使是大脑预训练模型,尽管在1300万个细胞的大量数据集上进行了训练,但与具有相似数据集大小的血液预训练模型相比,其性能也落后8%。这强调了将预训练中的细胞上下文与目标数据集对齐的重要性,以便在下游任务中获得更好的结果。

考虑到细胞上下文是必不可少的,因此整个人体预训练模型作为广泛应用的通用和可靠的选择而出现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/672867.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于安卓的虫害识别软件设计--(2)模型性能可视化|混淆矩阵、热力图

1.混淆矩阵(Confusion Matrix) 1.1基础理论 (1)在机器学习、深度学习领域中,混淆矩阵常用于监督学习,匹配矩阵常用于无监督学习。主要用来比较分类结果和实际预测值。 (2)图中表达…

物理模拟技术在AI绘画中的革新作用

引言: 随着人工智能(AI)技术的飞速发展,艺术领域也迎来了一场创新的革命。AI绘画,作为这场革命的重要组成部分,不仅改变了传统艺术创作的模式,而且为艺术家提供了前所未有的创作工具。在这一过程…

Linux基础1-基本指令1

1.Linux学习前言 Linux的学习非常重要,我们学习Linux的第一步是在电脑中搭建Linux环境。 对于没有搭建过的可以看这阿伟t的一篇文章 【Linux入门】Linux环境配置-CSDN博客 我的环境为XShell,运行的云服务器是阿里云 2.本章重点 1.显示当前目录下的所有文件…

软件杯 题目:基于卷积神经网络的手写字符识别 - 深度学习

文章目录 0 前言1 简介2 LeNet-5 模型的介绍2.1 结构解析2.2 C1层2.3 S2层S2层和C3层连接 2.4 F6与C5层 3 写数字识别算法模型的构建3.1 输入层设计3.2 激活函数的选取3.3 卷积层设计3.4 降采样层3.5 输出层设计 4 网络模型的总体结构5 部分实现代码6 在线手写识别7 最后 0 前言…

展现市场布局雄心,ATFX再度亮相非洲峰会,开启区域市场新篇章

自2023年全球市场营销战略部署实施以来,ATFX在全球各区域市场取得了丰硕成果,其品牌实力、知名度、影响力均有大幅提升。在这场全球扩张的征程中,非洲市场日益成为集团关注的焦点。自2023年首次踏上这片充满潜力的市场以来,ATFX持…

定义类并创建类的实例

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中,类表示具有相同属性和方法的对象的集合。在使用类时,需要先定义类,然后再创建类的实例,通…

谨以此文章记录我的蓝桥杯备赛过程

以国优秀结束了蓝桥杯cb组 鄙人来自电信学院,非科班出身,在寒假,大约2024年2月份,跟着黑马程序员将c基础语法学完了,因为过年,事情较多,没在学了。 最初就是抱着拿省三的态度去打这个比赛的&a…

低代码是什么?开发系统更有什么优势?

低代码(Low-Code)是一种应用开发方法,它采用图形化界面和预构建的模块,使得开发者能够通过少量的手动编程来快速创建应用程序。这种方法显著减少了传统软件开发中的手动编码量,提高了开发效率,降低了技术门…

图形学初识--多边形剪裁算法

文章目录 前言正文为什么需要多边形剪裁算法?前置知识二维直线直线方程:距离本质:点和直线距离关系: 三维平面平面方程距离本质:点和直线距离关系: Suntherland hodgman算法基本介绍基本思想二维举例问题描…

mysql中EXPLAIN详解

大家好。众所周知,MySQL 查询优化器的各种基于成本和规则的优化会后生成一个所谓的执行计划,这个执行计划展示了接下来具体执行查询的方式。在日常工作过程中,我们可以使用EXPLAIN语句来查看某个查询语句的具体执行计划, 今天我们…

椭圆轨道的周期性运动轨道

一、背景介绍 本节将从轨道六根数的角度,探究目标星为椭圆轨道,追踪星周期性环绕目标的必要条件。根据航天动力学的原理,对于一个椭圆轨道,其轨道能量为 对于能够不产生漂移的情况,绕飞编队的能量。对于追踪星到目标星…

(2024,扩散,去噪调度,维度,误差,收敛速度)适应基于分数的扩散模型中的未知低维结构

Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 引言 1.1 扩散模型 1.2 现有结果的不…

Xilinx RFSOC 47DR 8收8发 信号处理板卡

系统资源如图所示:  FPGA采用XCZU47DR 1156芯片,PS端搭载一组64Bit DDR4,容量为4GB,最高支持速率:2400MT/s;  PS端挂载两片QSPI X4 FLASH;  PS支持一路NVME存储;  PS端挂载SD接口,用于存储程序&…

图解大模型分布式并行各种通信原语

背景 在分布式集群上执行大模型任务时候,往往使用到数据并行,流水线并行,张量并行等技术,这些技术本质上也就是对数据进行各种方案的切分,然后放到不同的节点上运算。不同节点在计算的过程中需要对数据分发或者同步等…

LeetCode刷题之HOT100之在排序数组中查找元素的第一个和最后一个位置

下午雨变小了,但我并未去实验室,难得的一天呆在宿舍。有些无聊,看看这个,弄弄那个,听听歌,消磨时间。不知觉中时间指针蹦到了九点,做题啦!朋友推荐了 Eason 的 2010-DUO 演唱会&…

一文了解经典报童模型的扩展问题

文章目录 1 引言2 经典报童模型3 综述文章4 模型扩展4.1 扩展目标函数4.2 增加约束条件4.3 增加优化变量4.4 扩展模型参数4.5 扩展问题场景 5 总结6 相关阅读 1 引言 时间过的真快呀,已经6月份了。距离上一篇文章发表,已经过去了将近一个月,…

JS(DOM、事件)

DOM 概念:Document Object Model,文档对象模型。将标记语言的各个组成部分封装为对应的对象: Document:整个文档对象Element:元素对象Attribute:属性对象Text:文本对象Comment:注释对象 JavaScript通过DOM,就能够对HTML进行操作: 改变 HTML 元素的内…

系统操作规约(System Operation Contract)

领域建模补充 问题: 联系有方向性 属性有类型 领域模型尽量避免出现界面相关的东西 习题 问题 考察点 系统操作规约 示例 A) Operation: MakeSale() Cross References: UC:Purchase Preconditions: User has logged in Postconditions: An ProductLis…

集成算法实验与分析(软投票与硬投票)

概述 目的:让机器学习效果更好,单个不行,集成多个 集成算法 Bagging:训练多个分类器取平均 f ( x ) 1 / M ∑ m 1 M f m ( x ) f(x)1/M\sum^M_{m1}{f_m(x)} f(x)1/M∑m1M​fm​(x) Boosting:从弱学习器开始加强&am…

Fiddler抓包工具的使用

目录 1、抓包原理:👇 2、抓包结果👇 1)如何查看一个http请求的原始摸样: 2)分析数据格式: 3、请求格式分析👇 4、响应格式分析👇 官网下载:安装过程比较…