生物信息学文章中常见的图应该怎么看?

目录

火山图

热图

箱线图

森林图

LASSO回归可视化图(套索图)

交叉验证图

PCA图

ROC曲线图


这篇文章只介绍这些图应该怎么解读,具体怎么绘制,需要什么参数,怎么处理数据,会在下一篇文章里面给出

火山图

火山图横轴表示与对照组的差异倍数,纵轴表示表达水平。整个图由两条竖着的虚线和一条横着的虚线分割成六个部分,横着的虚线表示显著性水平线,在显著性水平线上面的是表达显著,下面是表达不显著。竖着的两条虚线表示差异倍数线。在差异倍数线区域的左侧表示表达量下降,右边表示表达量上升。在看火山图的时候一般看的是左上区域和右上区域。他们分别是表达量显著下降和表达量显著上升。

热图

这是一个热图,用颜色的深浅来表示基因表达量的差异

横轴代表样本,本例中分为了两组,一组是Healthy,一组是DCM

纵轴代表基因

横轴纵轴交汇处代表的就是特定基因在特定样本中的表达

可以看到上面和左面还有一些折线相互作用交错聚在一起,聚在一起的列可能表示有相似表达模式的基因,而聚在一起的行可能表示表达模式相似的样本或条件

箱线图

普通箱线图的基本组成

  • 箱体:箱体的上下边界分别是数据的上四分位数(Q3)和下四分位数(Q1),因此箱体包含了数据集中间的50%的数据点。箱体的长度(即IQR,四分位间距)可以用来衡量数据的散布程度。
  • 中位线:箱体内部的一条线,表示数据的中位数(Q2)。
  • 触须(须线):从箱体出发的两条线,延伸至数据的最大值和最小值,但不包括异常值。它们代表数据的正常范围。触须的计算方式有多种,但常见的一种是从Q1和Q3分别向外延伸1.5倍IQR(四分位间距)。
  • 异常值:通常用小圆圈表示,异常值是 those 数据点,它们的值超出了触须的范围。这些点被认为是异常的或“离群”的,需要特别注意。

分组箱线图的基本组成

分组箱线图保持了箱线图的所有基本元素,包括箱体、中位线、触须和异常值,但它在横轴上为每个组或类别提供了一个单独的箱线图。这些箱线图并排排列,使得不同组之间的比较变得直接而明显。

这是一个分组箱线图

森林图

1:表示研究对象,可能是某些差异表达的基因名等等

2:是一些平行于x轴的线段,线段长短对应百分之九十五置信区间,线段左右两端的两个数值分别对应百分之九十五置信区间的两个端点值,线段越长表示95%置信区间越长,因此越不精准。

3:无效线,通常是x=0或x=1,如果2中的线段与无效线相交,则代表2中的线段没有统计学意义

5:OR叫比值比,计算方式位患病组中暴露的与不暴露的比值除上对照组中暴露的与不暴露的比值,也就是两个比值的比,因此也叫比值比

LASSO回归可视化图(套索图)

一般我们看到的套索图都是往右边收敛的,那些图的横坐标都是负的,而这个图的横坐标是正的,因此与那些图正好反着。LASSO回归是通过在多元线性回归模型中添加了一个惩罚系数,来达到简化模型的效果,图中每一条线都代表一个影响因素比如基因,让上来有非常多条线,但是随着惩罚系数的增大,他们的影响力不断减小,甚至有的已经到达了0,而随着惩罚系数不断增大,这些线最终都会收敛于0,我们以某一个惩罚系数的值位基准,剔除到达这个基准之前的那些基因,就能够简化模型了。

那么这个所谓的基准应该怎么选才合适呢?这就需要用到下面这张图了

交叉验证图

交叉验证图上面都会有两条虚线,分别是让纵坐标最小的位置和往右一个误差的位置,通常会使用均方误差作为纵坐标。

在文章中套索图和交叉验证图都是一起出现的。

PCA图

PCA:主成分分析

先来介绍一下PCA在做什么,举个极端的例子,在一个二维坐标系中有一些点,他们排成了一条直线,比如他们都是直线y=kx+b上面的点,如果要描述这些点的位置,就需要知道他们的横坐标和纵坐标,也就是需要两个维度的信息,但是既然他们都已经排成一条线了,我们如果能够旋转坐标系让他们都落在某一条坐标轴上,那么再次描述这些点的位置不就只需要一维的信息就足够了吗?这就达到了一个降维的效果。实际上PCA在做的事情与这个例子类似,是在把一个多维的信息转换成几个综合指标,从而达到降维的效果,这个综合指标是对原始指标数据的线性组合,这个综合指标被称为主成分,比如PC1,PC2等

而PCA图就是对我们降维的结果进行展示,下面是一个PCA图

横坐标和纵坐标分别表示PC1和PC2的方差在这一组指标中的总方差中所占的比例,如果在PCA图中两个样本聚集在一起,就说明他们的差异性比较小,如果两个样本离着比较远,则说明他们的差异较大。

ROC曲线图

ROC曲线在生信中主要用于评估模型的性能,可以看到ROC曲线中有一条42度的直线,这条直线与ROC曲线所围成的面积越大,表示模型性能越好。

在 ROC 曲线上有几个重要的参数需要解读:

  1. 真阳性率: 也称为灵敏度,表示本身患病,同时被模型预测为患病的比例,计算公式为(模型正确预测的患病人数)/(实际患病的总人数)
  2. 假阳性率:实际为阴性,但是被模型预测为阳性 ,计算公式为(本来没患病但是被模型预测为患病的人数)/(实际患病的人数)
  3. AUC(Area Under the Curve): ROC 曲线下的面积,AUC 值越接近1,表示分类模型的性能越好,AUC 值越大通常意味着模型的准确性越高。

在 ROC 曲线中,我们希望曲线尽量向左上角凸起,即 TPR 高、FPR 低,这表示模型的性能较好。而 ROC 曲线下的面积 AUC 越大,则说明模型性能越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/482716.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AIGC——ComfyUI SDXL多种风格预设提示词插件安装与使用

概述 SDXL Prompt Styler可以预先给SDXL模型提供了各种预设风格的提示词插件,相当于预先设定好了多种不同风格的词语。使用这个插件,只需从中选取所需的风格,它会自动将选定的风格词汇添加到我们的提示中。 安装 插件地址:http…

使用双异步后,从 191s 优化到 2s

使用双异步后,从 191s 优化到 2s 一般我会这样做: 通过POI读取需要导入的Excel; 以文件名为表名、列头为列名、并将数据拼接成sql; 通过JDBC或mybatis插入数据库; 操作起来,如果文件比较多&#xff0…

springboot精品源码

springboot精品源码 所有项目都包括:源码数据库文件开题LW说明文档运行视频 请看主页资料联系。 项目类型包括: 1 SpringBoot学生心理咨询评估系统 2 基于SpringBoot的网上订餐系统 3 大学生租房平台的设计与实现 4 SpringBoot房屋租赁系统 5 基于SpringBoot的课…

tcp 协议详解

什么是 TCP 协议 TCP全称为 “传输控制协议(Transmission Control Protocol”). 人如其名, 要对数据的传输进行一个详细的控制。TCP 是一个传输层的协议。 如下图: 我们接下来在讲解 TCP/IP 协议栈的下三层时都会先解决这两个问题: 报头与有效载荷如何…

大数据------javase基础------day18(完结)

类加载器 作用 负责将编译后的java文件(即.class文件)加载到内存中供虚拟机执行 类加载的时机------总结一句话:用到类就加载,不用就不加载 创建类的实例调用类的方法访问类或者接口的类变量,或者为该类变量赋值使用反…

阿里云幻兽帕鲁4核16G和8核32G服务器优惠价格

2024阿里云幻兽帕鲁专用服务器价格表:4核16G幻兽帕鲁专用服务器26元一个月、149元半年,默认10M公网带宽,8核32G幻兽帕鲁服务器10M带宽价格90元1个月、271元3个月。阿里云提供的Palworld服务器是ECS经济型e实例,CPU采用Intel Xeon …

Linux:详解https协议

文章目录 什么是https协议信息窃取常见的加密数据摘要和数据指纹https的工作过程只使用对称加密只使用非对称加密都使用非对称加密非对称加密对称加密 证书数据签名https方案 本篇要总结的内容是关于https协议的相关内容 什么是https协议 在讲述https协议之前,首先…

差分约束系统

差分约束系统 差分约束系统(spfa)1、概述2、过程模拟3、推理 差分约束系统(spfa) 1、概述 x j − x i ≤ w k x_j-x_i\le w_k xj​−xi​≤wk​转换为: x j ≤ w k x i x_j\le w_kx_i xj​≤wk​xi​ 在松弛操作中&…

dubbo 源码系列之-集群三板斧---负载均衡(-)

dubbo 源码系列之-负载均衡 概述核心接口 LoadBalanceDubbo 提供了 5 种负载均衡实现,分别是:LoadBalance 接口AbstractLoadBalance ConsistentHashLoadBalance 一致性hash1. 一致性 Hash 简析1.0 hash 算法2.0 一致性Hash算法3.0 一致性hash算法 引入槽…

K8S--SpringCloud应用整合Nacos实战

原文网址:K8S--SpringCloud应用整合Nacos实战-CSDN博客 简介 本文介绍K8S部署SpringCloud应用整合Nacos实战。 本文是将原来的SpringCloud项目(闪速优选)迁移到K8S上,一行代码都不需要改动。用K8S运行Nacos、Gateway、SpringCl…

PHP 读取嵌入式数据 SQLite3

SQLite3 属于轻量级开源的嵌入式关系型数据库,但它支持 ACID(Atomicity,Consistency,Isolation,Durability) 事务。 SQLite Download Page: https://www.sqlite.org/download.html 第一步:在 php.ini 中开启 extensionsqlite3 第二步:连接数…

Redis的String类型为什么重新设计使用了SDS数据结构呢

Redis 选择重新设计其 String 类型的底层数据结构,采用 SDS(Simple Dynamic String)而不是直接使用 C 语言标准库提供的原生字符串(char*)的原因主要包括以下几点: O(1) 时间复杂度获取长度: 在…

机器学习金融应用技术指南

1 范围 本文件提供了金融业开展机器学习应用涉及的体系框架、计算资源、数据资源、机器学习引擎、机 器学习服务、安全管理、内控管理等方面的建议。 本文件适用于开展机器学习金融应用的金融机构、技术服务商、第三方安全评估机构等。 2 规范性引用文件 下列文件中的内容通过…

C#,图论与图算法,用于检查给定图是否为欧拉图(Eulerian Graph)的算法与源程序

1 欧拉图 欧拉图是指通过图(无向图或有向图)中所有边且每边仅通过一次通路, 相应的回路称为欧拉回路。具有欧拉回路的图称为欧拉图(Euler Graph), 具有欧拉通路而无欧拉回路的图称为半欧拉图。 对欧拉图的一个现代扩展是蜘蛛图,它向欧拉图增加了可以连接的存在点。 这给…

目标检测预测框可视化python代码实现--OpenCV

import numpy as np import cv2 import colorsys from PIL import Image, ImageDraw, ImageFontdef puttext_cn(img, text, pt, color(255,0,0), size16):if (isinstance(img, np.ndarray)): # 判断是否OpenCV图片类型img Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2…

【HarmonyOS】ArkUI - 状态管理

在声明式 UI 中,是以状态驱动视图更新,如图1所示: 图1 其中核心的概念就是状态(State)和视图(View): 状态(State):指驱动视图更新的数据&#xf…

BI技巧丨个性化视觉对象

BOSS:那个,那个谁,最近用户反映了,说是你们做的报表不太行啊?! 白茶:(???)老板,怎么说? BOSS:就是…

pytest之统一接口请求封装

pytest之统一接口请求封装 pytest的requests_util.pyrequests_util.py 接口自动化测试框架的封装yaml文件如何实现接口关联封装yaml文件如何实现动态参数的处理yaml文件如何实现文件上传有参数化时候,怎么实现断言yaml的数据量大怎么处理接口自动化框架的扩展&#…

CSK6 接入聆思平台(LSPlatform)

一、开发环境 硬件:视觉语音大模型AI开发套件 二、使用大语言模型 官方指导文档: 开始使用 | 聆思文档中心 获取API密钥 | 聆思文档中心 1、注册 提交申请之后需要将注册电话号码通过微信发送给聆思科技工作人员,工作人员授权后&#xff…

阿里云4核16G服务器价格26.52元1个月、149.00元半年,ECS经济型e实例

阿里云4核16G服务器优惠价格26.52元1个月、79.56元3个月、149.00元半年,配置为阿里云服务器ECS经济型e实例ecs.e-c1m4.xlarge,4核16G、按固定带宽 10Mbs、100GB ESSD Entry系统盘,活动链接 aliyunfuwuqi.com/go/aliyun 活动链接打开如下图&a…