一个完整的转录组分析流程

本期的教程代码(部分)

#!/bin/bash
#
# 使用fastq-dump解压sra数据
# 本数据集为双端数据
# 解压格式为fq.gz
for i in SRR6929571 SRR6929572 SRR6929573 SRR6929574 SRR6929577 SRR6929578;
do 
	pfastq-dump --split-files --threads 20 --gzip -s 00_RawData/${i}.sra --outdir 00_RawData/
    ## 质控
	fastp -i 00_RawData/${i}_1.fastq.gz -o 01_CleanReads/${i}_1.clean.fq.gz -I 00_RawData/${i}_2.fastq.gz -O 01_CleanReads/${i}_2.clean.fq.gz -q 20 -z 4 -w 20 -h 01_CleanReads/html/${i}.html
	## fastqc评估
	fastqc -q -t 30 -o 01_CleanReads/fastqc/ 01_CleanReads/${i}_*.fq.gz 
    ## 根据的信息,修改下面脚本
#mkdir 03_MappedFile/Hisat2_Mapped
#mkdir 03_MappedFile/Hisat2_Mapped/summary/
#mkdir 03_MappedFile/Hisat2_Mapped/Unmapped_reads
....
....
....
....
    done

以下为获得.sort.bam文件后进行运行。

本教程详细教程

https://mp.weixin.qq.com/s/A4cFpkrKGqPeESVQl69jcA

# 合并gtf文件
ls 04_Result/Stringtie/*.gtf > 04_Result/Stringtie/mergelist.txt
stringtie --merge -F 0 -T 0 -G 02_Geneome_index/ITAG4.1_gene_models.gtf -o 04_Result/Stringtie/gffcompare/stringtie_merged.gtf 04_Result/Stringtie/mergelist.txt
## gffcomapre注释
gffcompare -r 02_Geneome_index/ITAG4.1_gene_models.gtf -G -o 04_Result/Stringtie/gffcompare/merged 04_Result/Stringtie/gffcompare/stringtie_merged.gtf
##
## 计算FPKM
mkdir 04_Result/Stringtie/featureCounts
featureCounts -T 20 -p -t exon -g transcript_id -a 04_Result/Stringtie/gffcompare/stringtie_merged.gtf -o 04_Result/Stringtie/featureCounts/All.transcript.count.txt 03_MappedFile/Hisat2_Mapped/*.sort.bam
### 
## Count to FPKM
cat 04_Result/Stringtie/featureCounts/All.transcript.count.txt | cut -f 1,6-13 > 04_Result/Stringtie/featureCounts/01.all.count.txt
perl CountToFPKM.pl 04_Result/Stringtie/featureCounts/01.all.count.txt > 04_Result/Stringtie/featureCounts/02.all.FPKM.txt

一、写在前面

今天分享一个转录组上游分析的流程(Hisat2-Stringtie-Count),此流程的操作依旧是非常简单的。我们的流程主要使用软件的安装数据下载过滤比对CountCount To FPKM等流程。

二、软件的安装

1. Conda软件安装

conda是常用的软件安装和管理软件,操作简单、便捷。

https://mirrors.tuna.tsinghua.edu.cn/


conda软件的下载,可下载minicondaAnaconda

2. miniconda(下载对应的版本)

3. Anaconda(下载对应的版本)

4. 软件的安装

5. 添加常用镜像

若是不能使用,可以自己百度一下进行搜索即可。

## Conda常使用的镜像
# 下面这四行配置清华大学的bioconda的channel地址,国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

# 中科大镜像源
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/

# 阿里镜像源
conda config --add channels https://mirrors.aliyun.com/pypi/simple/
# 豆瓣镜像
conda config --add channels http://pypi.douban.com/simple/ 
#中国科学技术大学 USTC Mirror
conda config --add channels  https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/

6. 创建生信环境

若是你担心自己base环境被破坏,那么就安装自己对于的小环境即可。

## 创建环境
conda create -n env_name python=x.x

## 删除环境
conda remove -n env_name -all

## 激活
conda activate env_name 
##
source activate env_name

## 关闭
conda deactivate

查看环境中的软件

# 查看指定环境下安装的package
## 查看指定环境下安装的package
conda list -n env_name

## 安装指定环境下某个package
conda install -n env_name [package]

## 删除指定环境下某个package
conda remove -n env_name [package]

## 更新指定环境下某个package
conda update -n env_name [package]

三、生信比对软件的安装

  1. 安装mamba软件,mamba相对于conda安装软件,速度更快,也更容易安装。
conda install -y mamba

比对所需的软件…

  1. hista2
  2. Stringtie
  3. subread
  4. samtools
  5. fastp

mamba install hisat2
mamba install stringtie
mamba install samtools 
mamba install subread
mamba install fastp
  1. 使用源码安装
    直接下载对应的软件源码,解压后进行安装。

四、数据的下载

公共数据库的下载,可直接在NCBI中下载,或是使用自己测的数据即可。若你想使用公共数据库的数据,可以我们前面的教程转录组数据的下载。

五、基因组的下载

  • 大部分的作物有自己基因组注释网址,我们需要自己的去寻找

模式植物中,拟南芥、番茄、 烟草等都有自己的基因组网址。

茄科类作物基因组:https://solgenomics.net/organism/solanum_lycopersicum/genome

– NCBI 中下载基因组文件

  • 如果自己的物种基因组没有单独的网址,如何做呢?

可以根据NCBI中进行下载

步骤:

  1. 进入NCBI官网(https://www.ncbi.nlm.nih.gov/)
  2. 输入需要寻找的基因组名称 (可以是作物名或是拉丁名)
,点击“search"后即可看到以下的界面,其中”Geneome"就是作物的基因组数据,点击进去。


在此界面就是我们的作物的基因组信息,有版本信息,geneome,transcript,protein,GFF,GenBank等信息。

六、数据过滤和质控检测

  1. 使用FastP,主要是简单、便捷。
    软件官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp}

  2. FastQC进行质量评估
    FastQC旨在提供一种简单的方法,对来自高通量测序管道的原始序列数据做一些质量控制检查。它提供了一套模块化的分析,你可以用它来快速了解你的数据是否有任何问题,在做任何进一步的分析之前,你应该注意到这些问题。

在处理任何样品之前的第一步是分析数据的质量。在fastq文件内有质量信息,指的是每个碱基调用的准确性(置信度%)。FastQC查看样品序列的不同方面,以确定任何影响结果的不规则或特征(适配器污染、序列重复水平等)。

本教程详细教程:一个转录组上游分析流程 | Hisat2-Stringtie****

到这里,本期教程到这里就结束了。很多的参数需要结合自己的数据进行调整。

往期文章:

1. 复现SCI文章系列专栏

2. 《生信知识库订阅须知》,同步更新,易于搜索与管理。

3. 最全WGCNA教程(替换数据即可出全部结果与图形)

  • WGCNA分析 | 全流程分析代码 | 代码一

  • WGCNA分析 | 全流程分析代码 | 代码二

  • WGCNA分析 | 全流程代码分享 | 代码三

  • WGCNA分析 | 全流程分析代码 | 代码四

  • WGCNA分析 | 全流程分析代码 | 代码五(最新版本)


4. 精美图形绘制教程

  • 精美图形绘制教程

5. 转录组分析教程

转录组上游分析教程[零基础]

小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/219762.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

iview Table实现跨页勾选记忆功能以及利用ES6的Map数据结构实现根据id进行对象数组的去重

因为iview Table组件的勾选是选中当前页的所有数据,当我们切到别的页面时,会发送请求给后端,这个时候就会刷新我们之前页码已经选中的数据。现在有个需求就是,在我们选择不同页码的数据勾选中之后,实现跨页勾选记忆功能,就是说已经打钩了的数据,不管切到哪一页它都是打钩…

leetcode115.从中序与后序遍历序列构造二叉树,手把手带你构造二叉树(新手向)

构造二叉树是树问题中的难点(相对于遍历二叉树),一开始做的读者会感觉无从下手,这道题在训练营专栏里讲过,是四道题一起讲的,但是现在看来讲的并不全面、具体,所以想单独出一期再来讲一下如何构…

友菜友饭携手分众传媒,打造私厨到家生活新风尚

友菜友饭携手分众传媒 11月29日,友菜友饭与分众传媒签署战略合作协议,在全国重点城市全面引爆品牌力,携手打造全国领先的互联网数字化私厨平台,为中国5亿城市家庭解锁私厨到家服务新体验。 友菜友饭是全国领先的私厨到家平台&…

元宇宙红色展厅VR虚拟展馆提高受训者的参与感

生活在和平年代的新一代青少年,可能对革命先烈英勇事迹难以有很深的体会,无法切实感受到中国共产党无畏牺牲、誓死保家卫国的红色精神,因此借助VR虚拟现实制作技术,让参观者们走近革命先烈中,感受老一辈无产阶级革命家…

三、DVP摄像头调试笔记(图片成像质量微调整,非ISP)

说明:当前调试仅仅用来测试和熟悉部分摄像头寄存器模式 一、图片成像方向控制,基本每个摄像头都会有上下左右翻转寄存器 正向图片 反向图片 二、设置成像数据成各种颜色,(黑白/原彩/黄色等等) 在寄存器书册描述中…

低代码/无代码火热的缘由

目录 一、如何解决这个问题? (1)概念 (2)技术与产品 二、低代码究竟有没有用? 1.轻松解决企业复杂业务流程 2.强大接口引擎打破数据孤岛 3.最大限度满足企业个性化需求 4.有效把握控制开发效率成本 三、结语…

Hadoop学习笔记(HDP)-Part.17 安装Spark2

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

图数据库知识点9 | 大数据框架与图数据架构异同

开门见山,直奔主题,接续前面的知识点: 【图数据库知识点1|图数据库与关系型数据库的区别?】 【图数据库知识点2 | 图思维方式】 【图数据库知识点3 | 图数据库解决了什么问题?】 【图数据库知识点4 | 图计算与图数…

Java基础数据类型

Java有八种基础的数据类型,它们被分为两个主要的类别:原始类型和引用类型。原始类型又被分为四类:整型、浮点型、字符型和布尔型。 整型(Integral Types): 这些类型用于存储整数。它们包括: ○…

Python 数据清洗库详解

更多资料获取 📚 个人网站:ipengtao.com 数据清洗是数据处理过程中至关重要的一部分。Python拥有许多强大的库,用于数据清洗和预处理,使得数据分析人员能够有效处理、转换和清洗数据。本文将介绍几个最常用的Python库&#xff0c…

git常用命令指南

目录 一、基本命令 1、创建分支 2、切换分支 3、合并分支 4、初始化空git仓库 二、文件操作 1、创建文件 2、添加多个文件 3、查看项目的当前状态 4、修改文件 5、删除文件 6、提交项目 三、实际操作 1、创建目录 2、进入新目录 3、初始化空git仓库 4、创建文…

【android开发-15】android中广播broadcast用法详解

1,broadcast类型 在Android中,Broadcast是一种用于在应用程序组件之间传递消息的机制。它允许一个组件(发送者)将消息发送给其他组件(接收者),即使它们之间不存在直接的联系。 Android中的Bro…

耦合与内聚:软件设计中的黄金平衡

目录 1. 耦合(Coupling)的本质 1.1 强耦合与弱耦合 2. 内聚(Cohesion)的价值 2.1 任务内聚与数据内聚 3. 耦合与内聚的平衡 3.1 黄金平衡的追求 3.2 设计原则与模式的应用 4. 实际案例分析 5. 总结与展望 在软件设计的世界…

深入理解Java核心技术:Java工程师的实用干货笔记

💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 在Java工程师的职业生涯中,深入理解…

项目中枚举的进阶用法(携带Java原理分析)

目录 1 枚举的普通用法1.1 无参1.2 单个参数1.3 两个参数 2 枚举的进阶用法(核心)2.1 优化2.1.1 需要改造的代码2.1.2 直接使用泛型2.1.3 使用反射---Class2.1.4 反射泛型 2.2 最终效果2.3 思考:类型擦除 遇到项目中这样一种写法,…

2023五岳杯量子计算挑战赛A题B题C题思路+模型+代码+论文

赛题思路:12月6日晚开赛后第一时间更新,获取见文末名片 “五岳杯”量子计算挑战赛,是国内专业的量子计算大赛,也是玻色量子首次联合移动云、南方科技大学共同发起的一场“企校联名”的国际竞赛,旨在深度融合“量子计算…

第二节JavaScript 语法、语句、注释、变量、数据类型等

一、JavaScript语法 1、JavaScript字面量 数字(Number)字面量:可以是整数或者是小数、或者是科学计数。 如:3.14 、1001 、123e5 字符串(String)字面量:可以使用单引号或双引号。 例如&…

2023年文章生成器推荐

2023年即将结束,今年可以说是大语言模型独领风骚的一年,对于内容创作来说,文章生成类的工具也发生了变化。今天给大伙介绍一些超赞的免费文章生成器,让你在内容创作的路上事半功倍。有了这些神奇的工具,你将能够轻松应…

从 MQTT、InfluxDB 将数据无缝接入 TDengine,接入功能与 Logstash 类似

利用 TDengine Enterprise 和 TDengine Cloud 的数据接入功能,我们现在能够将 MQTT、InfluxDB 中的数据通过规则无缝转换至 TDengine 中,在降低成本的同时,也为用户的数据转换工作提供了极大的便捷性。由于该功能在实现及使用上与 Logstash 类…

库函数qsort的使用及利用冒泡排序模拟实现qsort

文章目录 🚀前言🚀void*类型指针🚀库函数qsort的使用🚀利用冒泡排序实现库函数qsort() 🚀前言 今天阿辉将为大家介绍库函数qsort的使用,还包括利用冒泡排序模拟实现qsort以及void*类型的指针,关…