评估LLM在细胞数据上的实用性(2)-细胞层面的评估

本文衔接上一篇:评估LLM在细胞数据上的实用性(1)-基本概述

目录

  • 定义
    • 参数和任务
    • 批次整合
    • 多模态整合
    • 细胞类型注释
  • 细胞层面的评估
    • 批次整合
    • 多模态整合
    • 细胞类型注释

定义

我们考虑一个预训练LLM表示为 M ( x , θ ) M(x,\theta) M(x,θ),其基于单细胞数据集 D D D。其中, θ \theta θ体现了模型参数(比如网络权重)和超参数(比如epoch和lr)的集合。不同的LLM使用了不同的预训练数据集。微调阶段的模型结构定义为 M ′ ( x , θ ′ ) M'(x,\theta') M(x,θ)。我们的目标是确定不同子任务的最优 θ ′ θ' θ集。形式上,我们表示不同task k k k的损失为 L k L_{k} Lk,使用evaluation数据集 D e v a l = { x i , y i } i = 1 n D_{eval}=\left\{x_{i},y_{i}\right\}_{i=1}^{n} Deval={xi,yi}i=1n去计算 L k L_{k} Lk,第一目标是: θ ∗ = a r g m i n θ ′ E x , y ∈ D [ L k ( M ′ ( x , θ ′ ) , y ) ] \theta^{*}=argmin_{\theta'}E_{x,y\in D}[L_{k}(M'(x,\theta'),y)] θ=argminθEx,yD[Lk(M(x,θ),y)]第二目标是评估不同scLLM的性能: M ∗ = a r g m i n M ′ E x , y ∈ D [ L k ( M ′ ( x , θ ∗ ) , y ) ] M^{*}=argmin_{M'}E_{x,y\in D}[L_{k}(M'(x,\theta^{*}),y)] M=argminMEx,yD[Lk(M(x,θ),y)]第三个目标是评估scLLM的其他能力,包括:零样本学习,跨物种数据分析,生物机制探索,稳定性。

参数和任务

大多数scLLM共享预训练过程。通过考虑各种scLLM之间的重叠,作者选择了scGPT、scBERT和Geneformer作为分析的代表性例子。scEval共关注八项微调任务:1.批次整合;2.多组学数据整合;3.细胞类型注释;4.基因功能预测;5.扰动预测;6.基因网络分析;7.插补;8.scRNA-seq模拟。为了分析不同超参数、初始设置和优化器的影响,scEval选择了四个具有代表性的数据集:Pancrm、HumanPBMC、Cell Lines和MCA,因为它们涵盖了各种数据类型。Pancrm来自胰腺组织,共有5个批次。HumanPBMC来源于PBMC,有九种细胞类型。Cell Lines有两种细胞类型,作为二进制标签数据集。MCA来自肌肉。

批次整合

批次整合是scRNA-seq数据预处理之后的一个重要步骤。批次效应主要表示源自同一组织的scRNA-seq数据集中的分布差异,这可归因于各种因素。批次整合不仅对研究人员辨别真实的生物信号至关重要,而且对促进不同研究的综合分析也至关重要。这项任务的挑战来自于需要平衡批次信号的去除和生物信号的保留。我们可以将此任务视为数据整合问题。

对于批次整合问题,考虑的指标类似scIB,包括生物保留评分的NMI、ARI和cell-type ASW,以及批次整合的batch ASW、主成分回归(PCR)和图连通性(GC)。scEval计算这些指标的加权平均值来表示最终的整合分数: S f i n a l = 0.6 S b i o + 0.4 S b a t c h S_{final}=0.6S_{bio}+0.4S_{batch} Sfinal=0.6Sbio+0.4Sbatch

多模态整合

多组学数据整合是多组学分析的关键。它类似于一种高级形式的批次整合。如果存在未配对的多组学数据,目标是将不同的数据集映射到一个共享空间中进行后续分析。如果存在配对的多组学数据,目标是评估多组学的使用是否有助于学习更全面的数据表示。这里的一个重大挑战是如何在特征级别对齐组学。例如,scRNA-seq数据的特征是基因,scATAC-seq数据的特征为峰,蛋白质数据的特征为蛋白质丰度。给定不同的模态,token步骤可能会变得复杂。scEval将此任务视为数据整合问题。使用与批次整合相同的指标评估多模态整合。

细胞类型注释

细胞类型注释是继单细胞数据预处理之后的另一个关键步骤。该步骤用reference中准确的细胞类型标签对query中的每个细胞进行注释,这可以通过先验知识(A comparison of marker gene selection methods for single-cell rna sequencing data)或计算方法(Supervised classification enables rapid annotation of cell atlases)来实现。这些注释的细胞类型标签可以为进一步的下游分析提供必要的生物学信息,例如细胞类型特定的网络分析。此外,药物反应预测或单细胞疾病分类也需要基于细胞类型注释。scLLM在处理细胞类型注释任务时采用的一种常见方法是使用有注释的单细胞数据集进行模型训练,并将未注释的数据集作为测试数据集。挑战在于预测或注释一组源自不同于训练数据集的分布外query。此外,具有novel类型细胞(不包括在训练数据集中)的存在使问题进一步复杂化。scEval将此任务视为一个多标签分类问题。

在细胞类型注释任务中,scEval在两种不同的情况下选择具有批次效应的数据集。数据集内情况(intra-dataset)允许批次交叉,这意味着训练和测试数据集可以包含来自同一批次的细胞。这里,总数据集被分为大约70%作为训练数据集,其余作为测试数据集。数据集间的情况(inter-dataset)是跨批次(跨数据)注释,这意味着训练和测试数据集来自不同的来源。在这种情况下,scEval考虑了来自同一组织的两个数据集。此处评估的主要得分是准确性,其定义为: S c e l l t y p e = c o r r e c t e d     c e l l s T o t a l     c e l l s S_{celltype}=\frac{corrected \thinspace\thinspace\thinspace cells}{Total\thinspace\thinspace\thinspace cells} Scelltype=TotalcellscorrectedcellsscEval还在消融实验分析中考虑了Precision、Recall和F1分数。

细胞层面的评估

细胞层面的评估包括:批次整合,多模态整合,细胞类型注释

批次整合

scEval考虑了scGPT、tGPT和ResPAN,还详细分析了各种超参数对scGPT在批次整合中性能的影响。如图3a所示,在九个数据集中的三个数据集中,scGPT的表现优于ResPAN,在所有数据集中的批次整合表现优于tGPT,而ResPAN的整合总体上最好。此外,scGPT在大规模数据集的批次整合方面表现较差,因为它们的生物保护得分低于原始数据集。在某些数据集上,仍然可以观察到scGPT输出批次效应。因此,scLLM在处理用于批次整合任务的图谱级数据集方面没有表现出优势。
fig3a

  • 图3a:基于不同方法对原始数据和批次整合后的数据进行的总体评估。与scGPT相比,scGPT full表示具有更大预训练数据集的scGPT模型。

基于图3b,scEval详细分析了各种超参数对scGPT在批次整合中性能的影响。较小的学习率往往会在所有数据集上获得更好的性能。训练epoch的最佳数量因数据集而异,更大数量的epoch对大多数数据集都是有益的。这一结果与主张single-epoch训练方法的研究相矛盾(To repeat or not to repeat: Insights from scaling llm under token-crisis)。bins数量的增加通常与最终得分的增加有关。这些观察结果可能会改进scGPT在单细胞数据分析中的批次整合应用,也可能为其他类似模型的微调提供信息。
fig3b

  • 图3b:包括Bins、学习率(LR)和Epoch在内的超参数对批次整合任务中scGPT训练的影响。

此外,还有以下发现:scGPT能够执行零样本学习任务。对于Cell Lines数据集,甚至获得了最高分数,这表明它可能是某些数据集的有效方法。此外,预训练对scGPT在批次整合任务中的性能有显著贡献。在没有预先训练的情况下,从头训练模型的性能不高。

多模态整合

对于这项任务,scEval试图将scRNA-seq数据集与scATAC-seq数据集进行整合实验。通过与批次整合相同的metrics来评估z整合质量。图3c中的结果总结了初始设置选择对scGPT多模态整合性能的影响。令人感兴趣的是,预训练并没有显著影响这项任务的表现。scLLM的编码器部分比解码器起着更重要的作用。事实证明,在训练过程中包括细胞类型标签是有益的,可以为模型提供更精确和有用的信息。零样本场景在这项任务中的表现不好。关于超参数,epoch较多,可以提高模型的性能,将学习率设置得过高会导致模型崩溃。
fig3c

  • 图3c:多组学数据整合任务的不同初始设置的结果。

细胞类型注释

scEval考虑了Geneformer、scGPT、scBERT、CellLM和TOSICA来完成这项任务。平均而言,有预训练的模型比没有预训练的要好。然而,CellLM并没有在所有数据集上都表现良好。此外,对于数据集内预测任务(批次交叉),所有scLLM都是可比较的,即使它们具有不同的预训练集。对于数据集间预测任务(跨批次),scGPT比Geneformer差,但比scBERT好。对于跨物种细胞类型注释,Geneformer、scGPT和scBERT的性能在MCA数据集中具有可比性,但scGPT在MHSP和MB spatial数据集中表现不佳。

scEval比较了不同超参数设置下模型的性能。较高的loss weight、学习率、掩码比和较小的epoch往往会导致cGPT的性能较差。bins的数量与scGPT的性能之间几乎没有相关性。对于Geneformerand和cBERT来说,较低的学习率和较高的epoch也往往会带来更好的表现。

scEval还考虑了模型训练的不同初始设置。第一个设置是冻结,在这里冻结了预训练层的所有权重。第二个设置是使用默认的微调设置。第三个设置是From scartch开始训练。对于初始设置这部分,scEval考虑了scGPT和scBERT,省略了Geneformer。结果是预训练能提高scGPT的结果,特别是在跨数据集条件下。然而,对cBERT进行预训练并没有什么好处。对于这两种情况,不建议冻结预训练层并让它们不参与微调过程。在某些情况下,这种冻结的微调性能比从头开始训练更差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/320790.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-传输对象模式

设计模式专栏 模式介绍模式特点应用场景传输对象模式和序列化的区别代码示例Java实现传输对象模式Python实现传输对象模式 传输对象模式在spring中的应用 模式介绍 传输对象模式(Transfer Object Pattern)是一种设计模式,用于从客户端向服务…

【redis基础1】基础数据类型详解和应用案例

博客计划 ,我们从redis开始,主要是因为这一块内容的重要性不亚于数据库,但是很多人往往对redis的问题感到陌生,所以我们先来研究一下。 本篇,我们先看一下redis的基础数据类型详解和应用案例。 1.redis概述 以mysql为…

某mps政务网站jsl加速乐cookie逆向解析

本文针对的目标网站如下,使用base64解密获得 aHR0cHM6Ly93d3cubXBzLmdvdi5jbi8 开篇:加速乐其实算是比较好处理的逆向问题了,了解过的朋友都知道,其本身跟瑞数相似,都是设置cookie后才能成功,设置cookie的过…

配置CentOS系统以支持静态HTTP服务

CentOS是一个流行的Linux发行版,广泛应用于服务器环境。要配置CentOS系统以支持静态HTTP服务,您可以按照以下步骤进行操作: 安装Web服务器软件:CentOS自带了Apache HTTP服务器软件,您可以使用以下命令安装它&#xff1…

计算机找不到vcomp140.dll怎样修复?马上教会你修复dll问题

在计算机系统运行过程中,遭遇“vcomp140.dll丢失”的场景并不少见,这一问题的出现往往伴随着软件无法正常启动、运行时错误提示或者系统性能下降等现象。具体场景可能包括但不限于:用户在尝试打开某个依赖于Visual C Redistributable库的应用…

机器学习入门知识

一、引言 机器学习是当前信息技术中最令人振奋的领域之一。在这门课程中,我们将探索该技术的前沿,并能够亲自实现机器学习的算法。 或许你每天都在不知不觉中使用了机器学习的算法。每次你打开谷歌或必应搜索你需要的内容,正是因为它们拥有出…

FFmpeg技术详解

FFmpeg技术详解 本文概不介绍相关安装配置,详情请入官方或者其他大佬博客,此处做出推荐: https://ffmpeg.org/ FFmpeg官网 https://ffmpeg.github.net.cn/developer.html FFmpeg中文文档 https://blog.csdn.net/m0_47449768/article/details/…

以太网抓包软件Wireshake应用介绍( SMART PLC MODBUSTCP通信)

首先介绍下常看到的字符ACK,ACK是确认字符,在数据通信中,接收站发给发送站的一种传输类控制字符,表示发来的数据已确认接收无误。在TCP/IP协议中,如果接收方成功的接收到数据,会回复一个ACK数据。通常ACK信号有自己固定的格式,长度大小,由接收方回复给发送方。ACK在TCP的…

Github Copilot最全的安装与使用教程:一款非常好用的AI编程工具

Github Copilot最全的安装与使用教程 第一章 安装1.安装 GitHub Copilot2.获取资格第二章 使用1.产生建议1.1 键入你想要完成的操作的注释1.2 CtrlI 2. 接受建议3.查看下一个建议3.接受部分建议4.在新选项卡接受建议5.完成多项功能6.聊天 GitHub Copilot 供经过验证的学生、教师…

AI绘画风格化实战

在社交软件和短视频平台上,我们时常能看到各种特色鲜明的视觉效果,比如卡通化的图片和中国风的视频剪辑。这些有趣的风格化效果其实都是图像风格化技术的应用成果。 风格化效果举例 MidLibrary 这个网站提供了不同的图像风格,每一种都带有鲜…

【前端性能优化】如何取消http请求

文章目录 需要取消http请求的3种经典场景原生XMLHttpRequest取消http请求fetch取消http请求axios取消http请求哪些情况需要取消HTTP请求取消http请求能带来哪些性能提升 需要取消http请求的3种经典场景 场景一:有一个实时搜索功能,每当用户输入内容改变的…

构建中国人自己的私人GPT-有道GPT

创作不易,请大家多鼓励支持。 在现实生活中,很多人的资料是不愿意公布在互联网上的,但是我们又要使用人工智能的能力帮我们处理文件、做决策、执行命令那怎么办呢?于是我们构建自己或公司的私人GPT变得非常重要。 先看效果 一、…

训练AI模型:寻找最优参数a和b

人工智能的学习之路非常漫长,不少人因为学习路线不对或者学习内容不够专业而举步难行。不过别担心,我为大家整理了一份600多G的学习资源,基本上涵盖了人工智能学习的所有内容。点击下方链接,0元进群领取学习资源,让你的学习之路更加顺畅!记得…

基于面向对象,C++实现双链表

双链表同单链表类似,由一个值和两个指针组成 Node.h节点头文件 #pragma once class Node { public:int value;Node* prev;Node* next;Node(int value);~Node(); };Node.cpp节点源文件 #include "Node.h"Node::Node(int value) {this->value value…

深度学习笔记(六)——网络优化(2):参数更新优化器SGD、SGDM、AdaGrad、RMSProp、Adam

文中程序以Tensorflow-2.6.0为例 部分概念包含笔者个人理解,如有遗漏或错误,欢迎评论或私信指正。 截图和程序部分引用自北京大学机器学习公开课 在前面的博文中已经学习了构建神经网络的基础需求,搭建了一个简单的双层网络结构来实现数据的分…

【设计模式】什么场景可以考虑使用简单工厂模式

1.概述 工厂模式是一种创建型模式,主要作用就是创建对象,将对象的创建过程和使用的过程进行解耦。我们平时说的工厂模式实际上是对三种不同类型的工厂模式的统称,简单工厂、工厂方法、抽象工厂,而在23种设计模式中,只…

VSCode编写 C/C++ 程序

VSCode 全称 Visual Studio Code,是微软出的一款轻量级代码编辑器,免费、开源而且功能强大。它支持几乎所有主流的程序语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比 Diff、GIT 等特性,支持插件扩展,并…

SG-8101CGA 系列 (晶体振荡器 可编程 可用 +125°C )

SG-8101CGA是可编程晶体振荡器,具有CMOS输出,适用于汽车,同时,该系列还提供相同的频率和其他参数的轻松编程能力,符合AEC-Q100标准,具有出色的电磁兼容性和稳定性,可以在各种环境下使用。外部尺…

Linux下编写zlg7290驱动(1)

大家好,今天给大家介绍Linux下编写zlg7290驱动(1),文章末尾附有分享大家一个资料包,差不多150多G。里面学习内容、面经、项目都比较新也比较全!可进群免费领取。 在智能仪表中,经常会用到键盘、数码管等外设。因此&…

Windows Server 2012 R2部署项目

JDK 下载JDK 1.直接官网下载:http://www.oracle.com/; 2.我用的是1.8,阿里云盘分享地址:https://www.aliyundrive.com/s/u4V9x1AHL2r 安装jdk 双击安装点击下一步如果不改变路径就一直下一步 安装完成直接点击关闭即可&#x…