LaDM3IL:多实例学习用于免疫库分类

一个人的免疫组库由某一时间点的大量适应性免疫受体组成,代表了该个体的适应性免疫状态。免疫组库分类和相关受体识别有可能为新型疫苗的开发做出贡献。大量的实例对免疫组库分类提出了挑战,这可以表述为大规模多实例学习 (MMIL,Massive Multiple Instance Learning) 问题。传统的 MIL 方法(无论是在bag级还是instance级)在处理大量实例时都面临着巨大的计算负担或监督模糊的问题。为了解决这些问题,作者提出了一种基于标签消歧的多模态大规模多实例学习方法 (LaDM³IL) 用于免疫组库分类。LaDM³IL 采用实例级 MIL 范式来处理高计算成​​本的问题,并使用专门设计的标签消歧模块进行标签校正,减轻误导性监督的影响。为了更全面地表示每个受体,LaDM³IL 利用多模态融合模块来整合每个免疫受体的基因片段-gene segments和氨基酸 (AA,amino acid) 序列的信息。在巨细胞病毒 (CMV,Cytomegalovirus) 和Cancer数据集上进行的大量实验证明了所提出的 LaDM³IL 在免疫组分类和相关受体识别任务方面均具有出色的性能。

来自:A Label Disambiguation-Based Multimodal Massive Multiple Instance Learning Approach for Immune Repertoire Classification
工程:https://github.com/Josie-xufan/LaDM3IL

目录

  • 背景概述
    • 相关工作:标签消歧
  • 方法
    • 问题定义
    • 模型架构-特征提取
    • 标签消歧
    • 聚合
  • 数据集

背景概述

适应性免疫受体库 (AIRR,adaptive immune receptor repertoires) 由 T 细胞受体 (TCR,T-cell receptors) 和 B 细胞受体 (BCR,B-cell receptors) 组成,负责识别致病病原体(如细菌、病毒以及癌细胞)并记录过去和正在进行的免疫反应信息。图 1 显示了典型的适应性免疫过程,其中以 TCR 为例。TCR 位于 T 细胞表面,首先识别主要组织相容性复合体(肽-MHC 复合物,peptide-MHC complexes)上呈递的病原体抗原肽(antigen peptides),然后适应性免疫系统保存和扩增这些免疫受体(immune receptors)以激活免疫反应并保护人体免受疾病侵害。BCR 的病原体识别机制与 TCR 相似,主要区别在于 BCR 直接结合抗原表面,无需 MHC 呈递。
fig1

  • 图1:适应性免疫受体库和免疫过程的说明。a) 适应性免疫受体库 (AIRR) 包括个体的 T 细胞受体 (TCR) 和 B 细胞受体 (BCR),它们是适应性免疫反应中不可或缺的分子。b) 免疫过程:适应性免疫受体 (AIR,adaptive immune receptor) 位于 T 细胞和 B 细胞的表面,其功能是识别抗原肽(antigenic peptides),对于 TCR,该抗原肽由主要组织相容性复合体 (MHC,major histocompatibility complex) 呈递,对于 BCR,该抗原肽直接与抗原(antigen)本身结合。
  • antigen presenting cell:抗原呈递细胞

作为个体TCR和BCR的集合,AIRR记录了过去和正在进行的适应性免疫反应,其状态反映了免疫状态和个体对传染病、自身免疫性疾病和肿瘤相关病原体的反应。因此,AIRRs中的编码信息对于感染、疾病和癌症诊断具有高度的信息性和价值。这可以被概念化为一个免疫库分类问题。我们希望开发一种准确有效的方法来解决免疫系统分类和相关受体识别问题,因为它能加速疫苗的开发。

最近,基于高通量测序的免疫测序技术的进步促进了AIRRs的分析,其提供了一个组库中TCRs和BCRs的计数和受体序列的数据。这一进展为数据驱动方法铺平了道路。然而,由于以下因素,这仍然是一个具有挑战性的问题:

  • 高度多样性-High diversity:适应性免疫受体(AIRs)具有高度多样性,使适应性免疫系统能够识别大量抗原。据估计,自然界中至少有 1 0 16 10^{16} 1016种不同的AIRs。
  • 大容量-Large capacity:每个人都有大量不同的免疫受体( 1 0 7 − 1 0 8 10^{7}-10^{8} 107108)。
  • 低见证率-Low witness rate(WR):个体对特定疾病的免疫状态通常由基因库中极少数特定受体的存在决定。

在实践中,免疫组库分类可以被形式化为大规模多实例学习(MMIL)问题,其中AIR repertoires被视为bags,并且组库中的单个AIR被视为instance。AIRs的生物学功能由其氨基酸(AA)序列和相应的基因片段(V、D和J基因片段)决定。感兴趣的免疫状态(例如感染、疾病和癌症)是我们旨在预测的免疫库分类问题中的库级标签(repertoire-level label)。考虑到个体的特定免疫状态通常仅与库中一小部分特定受体相关,库中AIRs的准确实例水平标签是不可用的。这种弱监督的学习场景是多实例学习(MIL)的特点,在这种场景中,只有bag级标签是可用的。

现有的MIL算法可分为两种主要类型,即bag级和instance级MIL。在bag级MIL中,实例被编码为低维嵌入,然后将其聚合为bag级表示。聚合模块可以采用各种架构,包括固定的或参数化的pooling模块、注意力机制、RNN或Transformer方法,以及图神经网络。这种处理需要大量的计算资源,特别是在处理大规模数据集时,这阻碍了bag级MIL在免疫库分类(大容量)中的实践。相反,实例级MIL专注于实例级学习,并通过聚合每个实例的预测来生成bag级预测。这种方法提供了较低计算资源需求的优点。然而,实例级MIL面临着标签监督不准确的挑战,这源于广泛采用的将bag级标签分配给其中的每个instance的策略。鉴于低WR和高度多样性,这种标签分配策略在免疫库分类的背景下是有害的。

LaDM3IL是一种基于标签消歧的多模态大规模多实例学习方法,用于免疫库分类和相关受体识别。LaDM3IL利用instance级MIL框架来控制计算负载并应对高容量挑战。同时,为了应对高多样性挑战,LaDM3IL利用具有基于gating的注意力的多模态融合模块和张量融合来整合来自每个immune receptor的基因片段和氨基酸(AA)序列信息,从而生成每个受体的判别表示。其中,名为SC-AIR-BERT的预训练模型用于生成AA序列的嵌入。此外,LaDM3 IL结合了一个标签消歧模块(label disambiguation module),专门设计用于减轻错误监督的影响,以应对低WR的挑战。最后,在巨细胞病毒(CMV)和癌症数据集上对LaDM3 IL进行了广泛评估。

相关工作:标签消歧

标签消歧是部分标签学习(PLL,partial label learning)中的一个关键挑战,其目的是从候选标签集中找到正确的标签。与监督学习任务相比,PLL中的标签往往是模糊的,并且在模型学习过程中需要去噪以确保准确的分类。Pico是一种PLL方法(ICLR2021),以在统一的框架中处理表示学习和标签消歧问题,他们使用对比学习生成输入的embedding,然后,他们基于生成的embedding设计了一种基于prototype的标签消歧策略。在训练过程中,将基于prototype中最接近的类同时更新用于分类的pseudo target,以消除标签的歧义。

方法

问题定义

一个AIRR包含大量AIRs。给定 N N N个AIRRs { I R 1 , . . . , I R N } \left\{IR_{1},..., IR_{N} \right\} {IR1,...,IRN},每个AIRR包含 M M M个AIRs { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}。注意, M M M在不同的组库中差异很大。同时,将 N N N个组库的标签定义为 { Y 1 , . . . , Y N } \left\{Y_{1},...,Y_{N}\right\} {Y1,...,YN},类别总数为 C C C。此外,AIRs与表示为 { f r e i 1 , . . . , f r e i M } \left\{fre_{i}^{1},...,fre_{i}^{M}\right\} {frei1,...,freiM}的频率值配对,指示对某些抗原(certain antigens)的免疫反应强度。模型试图建立一个函数 Y i = F ( I R i ) Y_{i}=F(IR_{i}) Yi=F(IRi),与传统instance级MIL方法类似,最初将bag标签 Y i Y_{i} Yi分配给 { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}作为pseudo标签。随着训练更新这些标签。

模型架构-特征提取

图2说明了LaDM3IL的框架。为了获得每个AIR的全面表示,作者基于多模态融合模块,将AA序列和V(D)J基因片段的信息与基于门控的注意力机制相结合,然后进行张量融合。具体而言,基因编码器利用可训练embedding层将token化的V(D)J基因名称转换为数字表示,表示为 h g h_{g} hg h g h_{g} hg是将V基因片段和J基因片段的单独embedding连接起来的结果,每个片段的尺寸分别为16和8。

值得注意的是,D基因信息被排除在外,因为它在很大一部分AIRs中不存在。同时,使用预训练的序列编码器SC-AIR-BERT来生成AIRs的AA序列的表示,称为嵌入维度为512的 h s h_s hs。SCAIR-BERT是一个类似BERT的模型,包括6个标准Transformer层,每层包含4个注意力头。然后,通过基于门控的注意力机制,计算出两种模态的输出,记为 o g o_{g} og o s o_{s} os。张量融合模块对 o g o_{g} og o s o_{s} os进行整合: h = R e L U ( W f u s i o n ⋅ ( o g ⊕ o s ) + b f u s i o n ) h=ReLU(W_{fusion}\cdot(o_{g}\oplus o_{s})+b_{fusion}) h=ReLU(Wfusion(ogos)+bfusion)其中, ⊕ \oplus 表示Kronecker Production。
fig2

  • 图2:模型架构

标签消歧

以实例级MIL为基础框架来解决免疫库分类问题,该问题聚合了所有实例级预测以及bag级预测。为了解决监督不准确的问题,作者设计了一个标签消歧模块。该模块的关键设计是表示为 E p r o t o t y p e E_{prototype} Eprototype的原型,该原型保留了每个类别的典型嵌入以及调整每个受体标签的机制。具体步骤如下。

首先,在获得如特征提取器中所述的受体的表示后,将通过以下方式计算每个受体的预测: p i j = s o f t m a x ( F C r e c e p t o r ( h i j ) ) p_{i}^{j}=softmax(FC_{receptor}(h_{i}^{j})) pij=softmax(FCreceptor(hij))其中, F C r e c e p t o r FC_{receptor} FCreceptor是一个可学习分类器, p i j p_{i}^{j} pij是基于多模态特征embedding h i j h_{i}^{j} hij(来自第 i i i个免疫库的第 j j j个免疫受体)的预测概率。

然后,从每一类 c ∈ { 1 , . . . , C } c\in\left\{1,...,C\right\} c{1,...,C}中选出在epoch e e e时, p i k p_{i}^{k} pik超过阈值 θ \theta θ K K K个免疫受体,记为 k e c − r e c e p t o r kec-receptor kecreceptor。然后,原型将使用基于动量的方法更新,在epoch e + 1 e+1 e+1 处原型中 c c c类的嵌入通过在epoch e e e 处符合 c c c的所选 K K K受体的嵌入来更新。每个免疫受体的标签 Y i j Y_{i}^{j} Yij基于epoch e e e的原型和免疫受体之间的相似性进行调整。

聚合

为了生成免疫库的预测 p i p_{i} pi,作者将相应的免疫受体 p i j p_{i}^{j} pij的预测与相应频率 f r e i j fre_{i}^{j} freij组合如下: p i = ∑ j = 1 M ( p i j ⋅ f r e i j ) p_{i}=\sum_{j=1}^{M}(p_{i}^{j}\cdot fre_{i}^{j}) pi=j=1M(pijfreij)

数据集

CMV数据集由785个组库构成,每个组库平均有243,960个受体。作者排除了信息缺失的组库,684个组库被纳入实验,具有完整的CMV状态(阳性:312,阴性:372)和序列丰度。

癌症数据集包括训练集中的30,000个肿瘤相关受体和40,000个对照受体,以及测试集中10,000个肿瘤相关受体和19,851个对照受体。在CMV数据集上,作者评估方法在免疫库分类和相关受体鉴定方面的性能。在癌症数据集上,更多地关注癌症相关受体识别的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/711397.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C#——只读属性readonly

只读属性readonly 类的字段可以通过一个readonly(只读)表示这个为只读字段,不能被构造函数之外地方进行修改,静态只读字段不能在非静态的构造函数中使用 定义 只读属性的特点: 字段是只读的非静态 只能在非静态方法中进行修改 字段是只读的…

QT小技巧

QT小技巧 滑条的美化 美化前 代码如下 //滑条的美化ui->horizontalSlider->setStyleSheet("QSlider::groove:horizontal {""border:1px solid skyblue;""background-color:skyblue;""height:10px;""border-radius:5px…

勒索病毒剖析

2016年不自己勒索了 卖病毒 让别人勒索 傻瓜式勒索 黑客用的是非对称加密 全世界只有黑客有那把私钥 反向解密不了 传统爆破容易被检测,黑客慢速爆破,利用超级多的僵尸进行试错,慢慢试出来账号密码 因为一般运维设备在防火墙的白名单里&…

SSM 基于大数据技术的创业推荐系统-计算机毕业设计源码02979

摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…

IS022000认证:食品安全管理的金标准

食品安全是食品行业的命脉,IS022000食品安全管理体系认证作为最权威的认证之一,为企业提供了强有力的保障。要理解IS022000认证的意义,我们需要先了解它与HACCP和IS09001认证的关系。 HACCP(Hazard Analysis and Critical Control…

【Webpack】使用 Webpack 构建 Vue3+TS 项目

构建项目目录 tsc --init npm init -yshim.d.ts 文件是一个类型声明文件,用于告诉 TypeScript 编译器如何处理 Vue 的单文件组件(SFC)和其他自定义模块。为 Vue 的单文件组件和其他非 TypeScript 模块提供类型信息,以便在 TypeScr…

Redis的安装(linux、docker)与其基本的api使用

一、Redis简介 Redis是一个开源的,使用 C 编写,高性能的Key-Value的NoSQL数据库。 SQL :关系型数据库,例如:MySQL,Oracle等等NoSQL :Not Only SQL 不仅仅是SQL,表示是非关系型数据库…

java之mybatis笔记

1 项目创建 1.1 maven设置 1.2 创建项目文件 1.3 配置MyBatis的相关依赖 1.4 配置 MyBatis 创建一个 mybatis-config.xml 配置文件&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <!DOCTYPE configuration PUBLIC "-//mybatis.org…

【java】指定类,指定package,找到package下面,这个类的所有子类

目录 ■java代码 ■注意 ■运行效果 ■包的结构 ■java代码 package com.sxz.study.reflect;import java.io.File; import java.io.IOException; import java.net.URL; import java.util.ArrayList; import java.util.Enumeration; import java.util.List;public class …

观察者模式(大话设计模式)C/C++版本

观察者模式 扩展&#xff1a;观察者模式——委托 C 参考&#xff1a;https://www.cnblogs.com/Galesaur-wcy/p/15905936.html #include <iostream> #include <list> #include <memory> #include <string> using namespace std;// Observer类 抽象观…

【Spine学习09】之导入皮肤两种方式[skin]

第一种&#xff1a;明确项目中某个角色是有两套皮肤的情况下 直接导入两套皮肤 1、添加SKIN皮肤指令 2、在ps中-文件-脚本-浏览【打开选中jsx脚本】 3、打开Spine 点击左上角&#xff0c;选择导入数据 就可以看到该角色的两套皮肤啦&#xff01; 第二种&#xff1a;刚开始角…

探索档案未来,尽在ARCHE-2024

2024年第三届上海国际智慧档案展览会暨高峰论坛&#xff08;ARCHE-2024&#xff09;将于2024年6月19日至21日在上海跨国采购会展中心隆重举行。深圳市铨顺宏科技有限公司应邀参展&#xff0c;将以全新形象盛装亮相&#xff0c;展示其在档案管理领域的最新技术和解决方案。 ARC…

2024年【N2观光车和观光列车司机】考试技巧及N2观光车和观光列车司机模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 N2观光车和观光列车司机考试技巧参考答案及N2观光车和观光列车司机考试试题解析是安全生产模拟考试一点通题库老师及N2观光车和观光列车司机操作证已考过的学员汇总&#xff0c;相对有效帮助N2观光车和观光列车司机模…

网络安全形势迫在眉睫!云WAF保护私有云安全!

业务上云面临新的WEB安全挑战 目前&#xff0c;所有的组织都在积极地接受企业的“云”&#xff0c;推进数字化变革。在服务云计算和私有云平台构建中&#xff0c;用户除了要面对各种常见的网络攻击&#xff0c;还需要面对虚拟环境下的非授权访问、虚拟机逃逸和敏感信息泄漏等问…

【Mongodb-01】Mongodb亿级数据性能测试和压测

mongodb数据性能测试 一&#xff0c;mongodb数据性能测试1&#xff0c;mongodb数据库创建和索引设置2&#xff0c;线程池批量方式插入数据3&#xff0c;一千万数据性能测试4&#xff0c;两千万数据性能测试5&#xff0c;五千万数据性能测试6&#xff0c;一亿条数据性能测试7&am…

Java新特性与性能调优

引言 Java不断演进&#xff0c;每个新版本都引入了新的特性和改进&#xff0c;帮助开发者在提高生产力的同时&#xff0c;也能更好地优化程序性能。本文将详细介绍Java新版本中的重要特性&#xff0c;如从Java 8到Java 17&#xff0c;并探讨性能调优的方法&#xff0c;包括JVM调…

Python自动化办公(二) —— 查看文件夹中的PDF文件数量

Python自动化办公&#xff08;二&#xff09; —— 查看文件夹中的PDF文件数量 在日常办公中&#xff0c;我们经常需要统计某个文件夹中的PDF文件数量。手动操作不仅费时费力&#xff0c;而且容易出错。幸运的是&#xff0c;使用Python可以轻松实现这个过程。本文将介绍如何使用…

【字符串函数2】

5. strncpy 函数的使用和模拟实现 选择性拷贝 char * strncpy ( char * destination, const char * source, size_t num ); 1.拷贝num个字符从源字符串到目标空间。 2.如果源字符串的⻓度⼩于num&#xff0c;则拷⻉完源字符串之后&#xff0c;在⽬标的后边 追加0 &#…

MyBatis-Plus整合达梦数据库

文章目录 1. 环境准备2. 创建Spring Boot项目3. 引入依赖4. 配置数据源5. 配置MyBatis-Plus6. 创建实体类7. 创建Mapper接口8. 创建Service类9. 创建Controller类10. 创建Mapper XML文件11. 测试12. 进一步优化12.1 配置分页插件12.2 配置乐观锁插件13. 总结🎉欢迎来到Java学…

案例学习-存量更新规划实施探索(武汉)

案例学习-存量更新规划实施探索&#xff08;武汉&#xff09; 武汉市在早期旧城更新实践中发现零散化的更新往往导致资源配置分散、城市建设破碎化等弊病&#xff0c;特别是由于过于强调项目自身“经济平衡”&#xff0c;在实施过程中也逐步暴露出住宅占比过大、强度偏高、公服…