5.windows Ubuntu 子系统,测序数据质量检测。

       我们在得到一组或几组测序数据后,比如从测序公司拿到的测序数据为fastq.gz格式,首先我们需要对它们进行MD5检验,确保数据没有问题后才可进入以后的程序。(MD5可以进行测序数据完整性验证:MD5可以用于验证数据在传输或存储过程中是否发生了变化。发送方可以计算原始数据的MD5值并将其随数据一起发送给接收方,接收方在接收数据后再次计算MD5值,如果两个MD5值一致,则说明数据在传输过程中没有被篡改。)

假如我们得到的是MD5.txt,在正确的目录下输入命令  md5sum -c MD5.txt,#显示FASTq文件一切OK,说明数据没有问题。

接下来我们需要堆测序数据进行质量评估:包括测序读长、碱基质量分布、测序错误率、测序深度等方面的统计和图表展示,帮助研究人员了解测序数据的质量情况。同时识别异常情况:F如过低的碱基质量、过高的测序错误率、测序适配污染等问题,有助于及时发现数据质量异常并采取相应的处理措施。常用的软件经常用的有FastQC等,今天我们就使用fastqc。

现在我们有经过MD5检验的测序数据 a1.fq.gz,a2.fq.gz。

conda activate dna #激活环境。

conda install -c bioconda fastqc -y #安装软件

conda install -c bioconda fmultiqc -y

fastqc -h

fastqc -h

            FastQC - A high throughput sequence QC analysis tool

SYNOPSIS

        fastqc seqfile1 seqfile2 .. seqfileN

    fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam]
           [-c contaminant file] seqfile1 .. seqfileN

DESCRIPTION

    FastQC reads a set of sequence files and produces from each one a quality
    control report consisting of a number of different modules, each one of
    which will help to identify a different potential type of problem in your
    data.

    If no files to process are specified on the command line then the program
    will start as an interactive graphical application.  If files are provided
    on the command line then the program will run with no user interaction
    required.  In this mode it is suitable for inclusion into a standardised
    analysis pipeline.

    The options for the program as as follows:

    -h --help       Print this help file and exit >>>>>>>

出现这些即可应用。

mkdir fastqc #创建目录。

第一种方法 fastqc a1.fq.gz -o fastqc #需要fastqc目录提前存在。这是一个一个检测。

第二种方法 ls *fq.gz | xargs fastqc -t 10 -o fastqc/  #这个可以同时检测同一目录下的所有fq.gz文件。还有其它方法,这里就不列举了,道理都一样。

FastQC生成的结果主要包括以下内容:

根据你提供的FastQC报告结果,这些内容的含义如下:

  1. Basic Statistics:基本统计信息。通过这一项可以获得关于测序数据的总序列数、总碱基数、平均序列长度、GC含量等基本统计信息。

  2. Per base sequence quality:每个碱基的质量分布情况。这一项检查每个碱基位置的碱基质量分数,以评估测序数据的质量是否均匀。

  3. Per tile sequence quality:每个(tile)的序列质量。用于评估不同区域的测序质量是否存在变化。

  4. Per sequence quality scores:每个序列的质量分数。这一项分析每个序列的平均质量得分,帮助评估整体序列质量。

  5. Per base sequence content:每个碱基的序列内容分布。警告表示可能存在异常的碱基组成情况。

  6. Per sequence GC content:每个序列的GC含量。警告表示可能存在异常的GC含量情况。

  7. Per base N content:每个碱基的N含量。用于检测测序数据中N的分布情况。

  8. Sequence Length Distribution:序列长度分布情况。用于分析不同长度序列的数量分布情况。

  9. Sequence Duplication Levels:序列重复水平。用于检测测序数据中的序列重复情况,帮助识别PCR重复扩增或其他潜在问题。

  10. Overrepresented sequences:过度表示的序列。用于检测是否有某些序列在数据中过度表示,可能是适配序列或污染序列。

  11. Adapter Content:适配器含量。通过这一项可以检测测序数据中是否包含有适配器序列,需要注意是否需要进行适配器去除的处理。

根据报告中的结果,PASS表示通过检测,而WARNING表示有一些值或特征略微异常,需要进一步关注和处理。,同时也会出现FAIL的结果,表示某一项不及格。

cd fastqc , multiqc ./ #可以对fastqc的结果进行合并。

大家可以从Sra网站下载数据跑一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/483144.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IPMI开源库pyghmi基本使用

简介:Pyghmi是一个纯Python(主要是IPMI)服务器管理库。IPMI(Intelligent Platform Management Interface,智能平台管理接口)是一种开放的标准,旨在帮助系统管理员在本地和远程管理服务器系统。而…

第十届蓝桥杯大赛个人赛省赛(软件类)真题- CC++ 研究生组-最短路

6 肉眼观察&#xff0c; 看起来短的几条路对比下来是6~ #include <iostream> using namespace std; int main() {printf("6");return 0; }

AcWing 2060. 奶牛选美(每日一题)

目录 题目&#xff1a; 解题思路&#xff1a; 总结&#xff1a; 原题链接&#xff1a;2060. 奶牛选美 - AcWing题库 题目&#xff1a; 听说最近两斑点的奶牛最受欢迎&#xff0c;约翰立即购进了一批两斑点牛。 不幸的是&#xff0c;时尚潮流往往变化很快&#xff0c;当前…

[C语言]结构体、位段、枚举常量、联合体

目录 结构体 结构体的使用方法 结构体所占用的大小 位段 位段的使用方法 位段所占用的大小 枚举常量 枚举常量的使用方法 枚举常量的优势 联合体 联合体的使用方法 结构体 结构体的使用方法 结构体是一些值的集合&#xff0c;我们可以定义一个结构体&#xff0c;里…

实例:NX二次开发使用链表进行拉伸功能(链表相关功能练习)

一、概述 在进行批量操作时经常会利用链表进行存放相应特征的TAG值&#xff0c;以便后续操作&#xff0c;最常见的就是拉伸功能。这里我们以拉伸功能为例子进行说明。 二、常用链表相关函数 UF_MODL_create_list 创建一个链表&#xff0c;并返回链表的头指针。…

STM32---DHT11温湿度传感器与BH1750FVI光照传感器(HAL库、含源码)

写在前面&#xff1a;本节我们学习使用两个常见的传感器模块&#xff0c;分别为DHT11温湿度传感器以及BH1750FVI光照传感器,这两种传感器在对于环境监测中具有十分重要的作用&#xff0c;因为其使用简单方便&#xff0c;所以经常被用于STM32的项目之中。今天将使用分享给大家&a…

Digital WooCommerce Stores: 创建数字WordPress商店的详细教程- US Domain Center主机

第一步&#xff1a;了解数字 WooCommerce 商店 数字 WooCommerce 商店是一种电子商务模式&#xff0c;其中您可以销售虚拟产品&#xff0c;如在线课程、电子书、PDF、图像和视频。您可以使用 WooCommerce 插件在您的 WordPress 网站上设置数字产品&#xff0c;并通过在线交易提…

pandas的综合练习

事先说明&#xff1a; 由于每次都要导入库和处理中文乱码问题&#xff0c;我都是在最前面先写好&#xff0c;后面的代码就不在写了。要是copy到自己本地的话&#xff0c;就要把下面的代码也copy下。 # 准备工作import pandas as pd import numpy as np from matplotlib impor…

查立得php+mysql源码通用数据库配置教程

适用范围&#xff1a; 查分吧PHP多条件都输对版已有表万用查询系统 phpMySql已有数据表通用搜索可增删改查 查立得快搜系统(phpMysql) v20220208 查立得万能查&#xff08;phpmysql&#xff09; v20220512 及 各付费版 等几十款源码 数据库配置路径 数…

ReNamer Pro+Alist+RaiDrive妙用:实现批量修改网盘文件名称

ReNamer ProAlistRaiDrive妙用&#xff1a;批量修改管理网盘文件 说明工具下载Alist和RaiDrive安装和使用Renamer Pro激活和使用 说明 批量修改网盘文件名称的软件也大量存在&#xff0c;但是要么收费要么不好用&#xff0c;alist中也存在使用lamda表达式修改文件名称&#xf…

GT20L16S1Y标准汉字字库芯片完全解析(2)

接前一篇文章&#xff1a;GT20L16S1Y标准汉字字库芯片完全解析&#xff08;1&#xff09; 本文内容参考&#xff1a; 字库芯片GT20L16S1Y使用记录-CSDN博客 GT20L16S1Y字库IC驱动_gt20l16s1y字库芯片测试程序-CSDN博客 《GT20L16S1Y 标准点阵汉字库芯片产品规格书 V4.0I_K 2…

Day45:WEB攻防-PHP应用SQL二次注入堆叠执行DNS带外功能点黑白盒条件

目录 PHP-MYSQL-二次注入-DEMO&74CMS DEMO-用户注册登录修改密码 CMS-74CMS个人中心简历功能 PHP-MYSQL-堆叠注入-DEMO&CTF强网 Demo 2019强网杯-随便注&#xff08;CTF题型&#xff09; PHP-MYSQL-带外注入-DEMO&DNSLOG(让服务器主动把数据交出去) 知识点&…

C#,图论与图算法,输出无向图“欧拉路径”的弗勒里(Fleury Algorithm)算法和源程序

1 欧拉路径 欧拉路径是图中每一条边只访问一次的路径。欧拉回路是在同一顶点上开始和结束的欧拉路径。 这里展示一种输出欧拉路径或回路的算法。 以下是Fleury用于打印欧拉轨迹或循环的算法(源)。 1、确保图形有0个或2个奇数顶点。2、如果有0个奇数顶点,则从任意位置开始。…

I2C系列(三):软件模拟I2C读写24C04

一.目标 PC 端的串口调试软件通过 RS-485 与单片机通信&#xff0c;控制单片机利用软件模拟 I2C 总线对 EEPROM&#xff08;24C04&#xff09; 进行任意读写。 二.RS-485简述 在工业控制领域&#xff0c;传输距离越长&#xff0c;要求抗干扰能力也越强。由于 RS-232 无法消除…

【复杂网络建模】——XGI库进阶学习:生成随机超图

目录 一、构建随机超图 二、绘制随机超图 三、其他功能 3.1 访问超图的最大阶 3.2 列出所有边尺寸 3.3 边大小的直方图 3.4 节点度直方图 一、构建随机超图 XGI&#xff08;eXtensible Graphs and Hypergraphs&#xff09;是一个Python库&#xff0c;专注于超图&#…

ARM CPU的总线发展

ARM架构是当今世界上最为广泛应用的嵌入式处理器架构之一&#xff0c;其CPU总线的发展对于系统性能和扩展性具有重要影响。本文将探讨ARM CPU总线的发展历程、关键技术和对系统性能的影响。 以下是我整理的关于嵌入式开发的一些入门级资料&#xff0c;免费分享给大家&#xff…

Flutter学习10 - Json解析与Model使用

对于网络请求返回的 Json 数据&#xff0c;一般会进行如下解析&#xff1a; 将 Json String 解析为 Map<String, dynamic>将 Json String 解析为 Dart Model 发起一个返回 Json String 的网络请求 import package:http/http.dart as http;void main() {_doGet(); }_do…

计算机网络——26通用转发和SDN

通用转发和SDN 网络层功能&#xff1a; 转发&#xff1a; 对于从某个端口 到来的分组转发到合适的 输出端口路由&#xff1a; 决定分组从源端 到目标端的路径 网络层 传统路由器的功能 每个路由器(Per Route)的控制平面 &#xff08;传统&#xff09; 每个路由器上都有实…

本地运行环境工具UPUPWANK(win)和Navicat数据库管理工具

UPUPWANK安装地址&#xff1a;https://www.upupw.net 1.进入UPUPWANK后点击一键开启 2.新增项目 这里请千万注意80端口&#xff0c;如果80端口被占用了&#xff0c;请记住去任务管理器关闭占用80端口的进程。不然就不会成功显示。&#xff08;笔者含泪警告&#xff0c;一晚上的…

2024年C语言最新经典面试题汇总(11-20)

C语言文章更新目录 C语言学习资源汇总&#xff0c;史上最全面总结&#xff0c;没有之一 C/C学习资源&#xff08;百度云盘链接&#xff09; 计算机二级资料&#xff08;过级专用&#xff09; C语言学习路线&#xff08;从入门到实战&#xff09; 编写C语言程序的7个步骤和编程…