代谢组数据分析七:从质谱样本制备到MaxQuant搜库

前言

LC-MS/MS

Liquid Chromatography-Mass Spectrometry(LC-MS/MS ,液相色谱-质谱串联)可用于残留化合物检测、有机小分子检测、鉴定和定量污染物以及在医药和食品领域添加剂检测和生物小分子等检测。

LC-MS/MS一般包含五个步骤(Figure 1):

  1. 样本制备;
  2. 样本分离:使用液相色谱方法分离;
  3. 质谱上机:离子化、LUMOS原理、采集模式(DDA、DIA、SRM/PRM);
  4. 质谱鉴定:谱图格式(Raw、MzXML、MGF)、搜库、打分算法、FDR质控、蛋白推断;
  5. 生信分析:谱图校验和下游数据统计分析。

步骤详解

样本制备

提取样品中的蛋白质后,再使用蛋白酶对蛋白进行酶切处理,一般处理后的肽段在35AA以内即可上机(Figure2)。常用蛋白酶是Trypsin。

样本分离

液相色谱包括固定相和流动相的一类分离技术,以液体作为流动相,固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料,流动相是两类液体,液体A可将肽段插入到固定相中。在不断增加液体B的浓度后,肽段可以及液体B的浓度大小呈现梯度整齐分布,最后计算肽段在液相过程的保留时间(Retention time, RT),该指标反应肽段的疏水作用,时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图(Figure 4

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

  • 基质辅助激光解吸电离(MALDI)
  • 电喷雾电离(ESI)

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

  • 傅立叶变换离子回旋加速器(FT-MS)
  • 线性离子阱(Linear ion trap)
  • 三维离子阱(3D ion trap)
  • 轨道离子阱(Orbitrap)
  • 四极杆(Quadrupole)
  • 飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

  • 微通道板(Microchannel Plate)
  • 电子倍增器(Electron Multiplier)
  • 光电倍增混合管(Hybrid with photomultiplier)

质谱图谱示意图(Figure5)图解:

  1. 正面主视图是液相色谱图(以Retention Time作为X轴,intensity可认为是relative abundance作为Y轴),每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子;
  2. 侧面黑色X轴是m/Z是一级质谱图,x轴是肽段的质荷比,每一个峰表示该比值下的肽段集合;
  3. 侧面蓝色是上一步一级图谱同质荷比下的二级图谱,是分辨率更高的图谱结果;
  4. intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式:Full-scan(全扫描)、DDA(数据依赖采集)和DIA(数据非依赖采集)。

  • 全扫描模式是将肽段一级和二级图谱分开全部扫描,所需时间较长,但获取的峰最多。

  • DDA数据依赖采集,根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱,但该过程可能后漏掉携带有用信息的峰;**优点:**DDA采用了较窄m/z窗口,二级质谱图没有干扰离子影响,搜库鉴定容易;**缺点:**丰度依赖,谱图采样随机性大,重复性差。

  • DIA数据非依赖采集,在一级图谱扫描过程不对碎裂母离子做筛选,而是设置窗口(窗口大小依据仪器和软件设定),落在该窗口内的母离子全部进入二级碎裂得到二级图谱。**优点:**全面获取所有离子的碎片信息。**缺点:**采集点多会导致谱图信息过度,难以解析。鉴定需要依赖于预先lable的DDA库。

    由于DIA是一次性放了一堆母离子进来,同时碎裂,所以对于DIA来说,不是一张谱图对应一个母离子,而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此,我们不可能通过对二级谱图的解析来得到一个一个的母离子。

    那我们应该如何解析呢?我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对,从中抽取出相同的二级信号,拿这些数据来进行DIA数据的定性以及相应的定量,而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有:

  • Thermo RAW(赛默飞二进制加密的图形文件,Thermo Xcalibur Browser软件查看);

  • MGF(Mascot Generic Format,是常用格式但仅保留二级谱图信息,原始数据一般不能被肽段图谱比对打分软件识别,需要经过格式转换为打分软件可识别的格式);

  • mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略:软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切,接着理论肽段又会生成理论图谱,最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较,最终鉴定和定量蛋白质。Figure7

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切,得到肽段序列,再对肽段序列进行理论碎裂,形成理论谱图。

然后,用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分,并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控:实验图谱和理论图谱匹配不一定正确,一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因:

  1. 蛋白质序列库不完整或者存在测序错误;
  2. 未知修饰,导致谱图难以被正确鉴定;
  3. 酶切实验的偏差,比如错切、漏切等;
  4. 母离子或子离子质量偏差;
  5. 搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段,因此需要评价肽段鉴定的可靠性,搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后,可通过带有搜库引擎的软件进行定性和定量鉴定蛋白质。我们从仪器中心获得去质谱原始data是Thermo RAW的二进制加密文件,在一般的搜库软件是无法识别的,需要使用ThermoRawFileParser或MSconvert转换为软件可识别的文件。(FAIMS技术相当于在现有图谱分级基础上又再一次对肽段进行分级)

PS:在获取图谱过程中,常会用到2018年才推出的FAIMS(High-Field Asymmetric Waveform Ion Mobility Spectrometry)技术以用于加载不同电压(肽段在ESI离子化后,进入质谱之前实现快速气相分离,提高分离的峰容量),直接使用多电压下的raw data做MaxQuant定量分析是错误的,MaxQuant软件只能识别单电压的raw data,因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

  • ThermoRawFileParser
  • MSconvert
  • FAIMS MzXML Generator

搜库软件:

  • 免费:MaxQuant,MSGFplus,Comet(前一个最好用win版本,后两个用linux版本,然后后两个是最好用主流的质控软件);
  • 收费:Proteome Discoverer, Mascot;
  • 也有基于X!Tandem算法的rTANDEM R包。

结果评估:

  • PTXQC R包

  • proteoQC R包

数据库

来自欧洲生物信息学中心的UniProt KB数据库是现在使用较多的蛋白质数据库。除了选择公共数据库外,还可以自行添加或者从头构建蛋白质数据库(一般会加入实验室常见污染物数据库,方便剔除)。另外,如果所研究的物种没有对应的蛋白质数据库,可选择最近物种的序列库。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程:

  1. 安装数据转换和搜库软件:本教程基于MaxQuant 1.6.17.0版本,该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外,需和仪器中心确定是否使用了FAIMS技术后,再从子目录Software中解压安装FAIMS MzXML Generator软件;

  2. 下载蛋白质数据库Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据,或者直接上Uniprot官网下载(1.进入官网,选择Proteomes;2.以human作为关键字搜索后,选择Organism的Homo sapiens后进入;3.进入下图后选择Download按钮以FASTA格式下载数据即可);

  3. 转换原始数据格式:若使用FAIMS技术,则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件,否则跳过该步骤;

  4. 搜库鉴定蛋白质:我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质,在运行前,需要配置好一下参数和注意以下事项:

    • Raw data功能项导入图谱数据(mzXML),可通过最右侧功能栏设置样本的名称和分组等信息;

    • Group-specific parameters:

      • “Modifications”:选择样本相关的修饰(LabelFree增加Deamidation(NQ)、Gln->pyro-Glu);

      • “Instrument”:MaxQuant会自动选择机器类型,也可以手动修改,参数选择软件默认的即可;

      • “digestion”:选择默认的Trypsin/P;

      • “Label-free quantification”:选择LFQ及其默认参数。

    • Global parameters:(其他参数选择默认参数即可,也可根据实际情况自行设置)

      • “Sequence”:选择"Add"导入蛋白质fasta文件,并点"Identifier",选择"Up to first space";

      • “Identification”:选择Match between runs;

      • “Label-free quantification”:选择iBAQ;

      • “Folder locations”:可自行设置Combined结果的输出路径也可使用默认。

    • 在设置完所有参数后,点击上面File选择保存parameters files,方便下次重复运行。

    • 完成保存设置参数文件后,最左下方提供选择CPU数目,一般设置电脑total(CPU) -1的数目。设置完成后,可在电脑空闲时候选择Start,即可在Performance界面看到软件在运行的状态。

结果

MaxQuant完成蛋白质定性和定量后,会生成如下combined目录,其子目录txt下的proteinGroups.txt文件即是蛋白质结果文件。

下游数据分析

下游数据分析可参考。

致谢

感谢张乐同学seminar分享的PPT,本文很多图片或知识点来自于他的PPT,再次感谢。

参考

  1. A Critical Review of Trypsin Digestion for LC-MS Based Proteomics

  2. Peptide retention time prediction

  3. 蛋白质组学数据分析基础3

  4. 2019-11-12p值、E值、FDR、q值…你晕菜了吗?

  5. MGF Files (MS/MS container files)

  6. ThermoRawFileParser

  7. proteoQC

  8. MaxQuant – Information and Tutorial

  9. Bioconductor的质谱蛋白组学数据分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/587852.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Go Web 开发基础【用户登录、注册、验证】

前言 这篇文章主要是学习怎么用 Go 语言(Gin)开发Web程序,前端太弱了,得好好补补课,完了再来更新。 1、环境准备 新建项目,生成 go.mod 文件: 出现报错:go: modules disabled by G…

GAI工具哪家强?(ChatGPT 4 vs 文心一言)

开始之前, 先来看看 GAI和AI的区别和关系。 AI 和GAI AI 和GAI的概念 AI(Artificial Intelligence)是人工智能的缩写,是计算机科学的一个分支,旨在使机器像人类一样进行学习和思考。AI技术的研究领域包括机器人、语…

吴恩达2022机器学习专项课程(一)8.2 解决过拟合

目录 解决过拟合(一):增加数据解决过拟合(二):减少特征特征选择缺点 解决过拟合(三):正则化总结 解决过拟合(一):增加数据 收集更多训…

翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深…

UnityWebGL使用sherpa-ncnn实时语音识别

k2-fsa/sherpa-ncnn:在没有互联网连接的情况下使用带有 ncnn 的下一代 Kaldi 进行实时语音识别。支持iOS、Android、Raspberry Pi、VisionFive2、LicheePi4A等。 (github.com) 如果是PC端可以直接使用ssssssilver大佬的 https://github.com/ssssssilver/sherpa-ncn…

unity入门——按钮点击了却无法调用函数

查阅了一番都没有解决问题,最后发现问题是由button的Onclick()事件绑定了代码脚本而不是游戏对象导致的。 如果Onclick()事件绑定的是代码脚本,则下拉框里没有函数,但是点击MonoScript后能手动填入函数名(本以为这样就能实现调用…

使用Python的Tkinter库创建你的第一个桌面应用程序

文章目录 准备工作创建窗口和按钮代码解释运行你的应用程序结论 在本教程中,我们将介绍如何使用Python的Tkinter库创建一个简单的桌面应用程序。我们将会创建一个包含一个按钮的窗口,点击按钮时会在窗口上显示一条消息。 准备工作 首先,确保…

【Python】常用数据结构

1、熟悉字典和列表 2、使用条件判断语句 3、list列表中计算 1、从键盘输人一个正整数列表,以-1结束,分别计算列表中奇数和偶数的和。 (1)源代码: # 初始化奇数和偶数的和为0 odd_sum 0 even_sum 0 #输入 while True:num int(input(&qu…

java+jsp+Oracle+Tomcat 记账管理系统论文(二)

⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️ ➡️点击免费下载全套资料:源码、数据库、部署教程、论文、答辩ppt一条龙服务 ➡️有部署问题可私信联系 ⬆️⬆️⬆️​​​​​​​⬆️…

分布式链路追踪工具Sky walking详解

1,为什么要使用分布式链路追踪工具 随着分布式系统和微服务架构的出现,且伴随着用户量的增加,项目的体量变得十分庞大,一次用户请求会经过多个系统,不同服务之间调用关系十分复杂,一旦一个系统出现错误都可…

微软如何打造数字零售力航母系列科普06 - 如何使用微软的Copilot人工智能

如何使用微软的Copilot人工智能? Copilot和ChatGPT有很多相似之处,但微软的聊天机器人本身就有一定的优势。以下是如何对其进行旋转,并查看其最引人注目的功能。 ​​​​​​​ (资料来源:Lance Whitney/微软&…

C++ | 类和对象(中) (构造函数 | 析构函数 | 拷贝构造函数 | 赋值运算符重载 | 取地址 | const取地址)

目录 默认成员函数 构造函数 构造函数是什么 构造函数特征 什么是默认构造函数 注意事项 编译器自动生成的默认构造 缺省值 对象如何传值给构造函数 初始化列表 析构函数 析构函数的特征 编译器默认生成的析构函数 总结 拷贝构造函数 拷贝构造函数的使用场景 拷…

使用ipxe安装现有的装机环境

iPXE和传统PXE区别 iPXE和传统PXE(Pre-boot Execution Environment,预启动执行环境)的主要区别在于它们的功能和协议支持。以下是两者的主要区别: 协议支持: PXE仅支持TFTP(trivial file transfer protoco…

【linuxC语言】空洞文件

文章目录 前言一、空洞文件1.1 空洞文件的介绍1.2 用途 二、示例代码总结 前言 在 Linux 系统编程中,空洞文件是一种特殊类型的文件,它包含了逻辑上的空洞,也就是说文件中的某些部分并没有实际写入数据。尽管文件在逻辑上可能非常大&#xf…

向eclipse中的项目导入jdk、tomcat

前言: 有些项目无法正常启动可能是因为他的基础配置不正确或者没配置,eclipse中的javaweb项目常见的配置就是jdk、tomcat,这三者配置的方式大概相同,以下是相关操作。我的环境是eclipse2018。 一、jdk 在项目上右键选中propert…

java-Spring-mvc-(请求和响应)

目录 📌HTTP协议 超文本传输协议 请求 Request 响应 Response 🎨请求方法 GET请求 POST请求 📌HTTP协议 超文本传输协议 HTTP协议是浏览器与服务器通讯的应用层协议,规定了浏览器与服务器之间的交互规则以及交互数据的格式…

Swiper轮播图

版本&#xff1a;“swiper”: “^6.8.4”, 处理每分钟重新请求数据后&#xff0c;播放卡顿&#xff0c;快速闪&#xff0c;没按照设置时间播放等bug 以下是直接vue2 完整的组件代码 使用&#xff1a; <SwiperV :imgList“swiperList” / <template><div class"…

键盘更新计划

作为 IT 搬砖人&#xff0c;一直都认为键盘没有什么太大关系。 每次都是公司发什么用什么。 但随着用几年后&#xff0c;发现现在的键盘经常出问题&#xff0c;比如说调节音量的时候通常莫名其妙的卡死&#xff0c;要不就是最大音量要不就是最小音量。 按键 M 不知道什么原因…

hadoop学习---基于hive的聊天数据分析报表可视化案例

背景介绍&#xff1a; 聊天平台每天都会有大量的用户在线&#xff0c;会出现大量的聊天数据&#xff0c;通过对聊天数据的统计分析&#xff0c;可以更好的对用户构建精准的用户画像&#xff0c;为用户提供更好的服务以及实现高ROI的平台运营推广&#xff0c;给公司的发展决策提…

50. 【Android教程】xml 数据解析

xml 是一种标记扩展语言&#xff08;Extension Mark-up Language&#xff09;&#xff0c;学到这里大家对 xml 语言一定不陌生&#xff0c;但是它在 Android 中的运用其实只是冰山一角。抛开 Android&#xff0c;XML 也被广泛运用于各种数据结构中。在运用 xml 编写 Android 布…