一个转录组上游分析流程 | Hisat2-Stringtie

本期的教程代码(部分)

#!/bin/bash
#
# 使用fastq-dump解压sra数据
# 本数据集为双端数据
# 解压格式为fq.gz
for i in SRR6929571 SRR6929572 SRR6929573 SRR6929574 SRR6929577 SRR6929578;
do 
	pfastq-dump --split-files --threads 20 --gzip -s 00_RawData/${i}.sra --outdir 00_RawData/
    ## 质控
	fastp -i 00_RawData/${i}_1.fastq.gz -o 01_CleanReads/${i}_1.clean.fq.gz -I 00_RawData/${i}_2.fastq.gz -O 01_CleanReads/${i}_2.clean.fq.gz -q 20 -z 4 -w 20 -h 01_CleanReads/html/${i}.html
	## fastqc评估
	fastqc -q -t 30 -o 01_CleanReads/fastqc/ 01_CleanReads/${i}_*.fq.gz 
    ## 根据的信息,修改下面脚本
#mkdir 03_MappedFile/Hisat2_Mapped
#mkdir 03_MappedFile/Hisat2_Mapped/summary/
#mkdir 03_MappedFile/Hisat2_Mapped/Unmapped_reads
....
....
....
....
    done

以下为获得.sort.bam文件后进行运行。

本教程详细教程

https://mp.weixin.qq.com/s/A4cFpkrKGqPeESVQl69jcA

# 合并gtf文件
ls 04_Result/Stringtie/*.gtf > 04_Result/Stringtie/mergelist.txt
stringtie --merge -F 0 -T 0 -G 02_Geneome_index/ITAG4.1_gene_models.gtf -o 04_Result/Stringtie/gffcompare/stringtie_merged.gtf 04_Result/Stringtie/mergelist.txt
## gffcomapre注释
gffcompare -r 02_Geneome_index/ITAG4.1_gene_models.gtf -G -o 04_Result/Stringtie/gffcompare/merged 04_Result/Stringtie/gffcompare/stringtie_merged.gtf
##
## 计算FPKM
mkdir 04_Result/Stringtie/featureCounts
featureCounts -T 20 -p -t exon -g transcript_id -a 04_Result/Stringtie/gffcompare/stringtie_merged.gtf -o 04_Result/Stringtie/featureCounts/All.transcript.count.txt 03_MappedFile/Hisat2_Mapped/*.sort.bam
### 
## Count to FPKM
cat 04_Result/Stringtie/featureCounts/All.transcript.count.txt | cut -f 1,6-13 > 04_Result/Stringtie/featureCounts/01.all.count.txt
perl CountToFPKM.pl 04_Result/Stringtie/featureCounts/01.all.count.txt > 04_Result/Stringtie/featureCounts/02.all.FPKM.txt

一、写在前面

今天分享一个转录组上游分析的流程(Hisat2-Stringtie-Count),此流程的操作依旧是非常简单的。我们的流程主要使用软件的安装数据下载过滤比对CountCount To FPKM等流程。

二、软件的安装

1. Conda软件安装

conda是常用的软件安装和管理软件,操作简单、便捷。

https://mirrors.tuna.tsinghua.edu.cn/


conda软件的下载,可下载minicondaAnaconda

2. miniconda(下载对应的版本)

3. Anaconda(下载对应的版本)

4. 软件的安装

5. 添加常用镜像

若是不能使用,可以自己百度一下进行搜索即可。

## Conda常使用的镜像
# 下面这四行配置清华大学的bioconda的channel地址,国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

# 中科大镜像源
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/

# 阿里镜像源
conda config --add channels https://mirrors.aliyun.com/pypi/simple/
# 豆瓣镜像
conda config --add channels http://pypi.douban.com/simple/ 
#中国科学技术大学 USTC Mirror
conda config --add channels  https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/

6. 创建生信环境

若是你担心自己base环境被破坏,那么就安装自己对于的小环境即可。

## 创建环境
conda create -n env_name python=x.x

## 删除环境
conda remove -n env_name -all

## 激活
conda activate env_name 
##
source activate env_name

## 关闭
conda deactivate

查看环境中的软件

# 查看指定环境下安装的package
## 查看指定环境下安装的package
conda list -n env_name

## 安装指定环境下某个package
conda install -n env_name [package]

## 删除指定环境下某个package
conda remove -n env_name [package]

## 更新指定环境下某个package
conda update -n env_name [package]

三、生信比对软件的安装

  1. 安装mamba软件,mamba相对于conda安装软件,速度更快,也更容易安装。
conda install -y mamba

比对所需的软件…

  1. hista2
  2. Stringtie
  3. subread
  4. samtools
  5. fastp

mamba install hisat2
mamba install stringtie
mamba install samtools 
mamba install subread
mamba install fastp
  1. 使用源码安装
    直接下载对应的软件源码,解压后进行安装。

四、数据的下载

公共数据库的下载,可直接在NCBI中下载,或是使用自己测的数据即可。若你想使用公共数据库的数据,可以我们前面的教程转录组数据的下载。

五、基因组的下载

  • 大部分的作物有自己基因组注释网址,我们需要自己的去寻找

模式植物中,拟南芥、番茄、 烟草等都有自己的基因组网址。

茄科类作物基因组:https://solgenomics.net/organism/solanum_lycopersicum/genome

– NCBI 中下载基因组文件

  • 如果自己的物种基因组没有单独的网址,如何做呢?

可以根据NCBI中进行下载

步骤:

  1. 进入NCBI官网(https://www.ncbi.nlm.nih.gov/)
  2. 输入需要寻找的基因组名称 (可以是作物名或是拉丁名)
,点击“search"后即可看到以下的界面,其中”Geneome"就是作物的基因组数据,点击进去。


在此界面就是我们的作物的基因组信息,有版本信息,geneome,transcript,protein,GFF,GenBank等信息。

六、数据过滤和质控检测

  1. 使用FastP,主要是简单、便捷。
    软件官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp}

  2. FastQC进行质量评估
    FastQC旨在提供一种简单的方法,对来自高通量测序管道的原始序列数据做一些质量控制检查。它提供了一套模块化的分析,你可以用它来快速了解你的数据是否有任何问题,在做任何进一步的分析之前,你应该注意到这些问题。

在处理任何样品之前的第一步是分析数据的质量。在fastq文件内有质量信息,指的是每个碱基调用的准确性(置信度%)。FastQC查看样品序列的不同方面,以确定任何影响结果的不规则或特征(适配器污染、序列重复水平等)。

本教程详细教程:一个转录组上游分析流程 | Hisat2-Stringtie****

到这里,本期教程到这里就结束了。很多的参数需要结合自己的数据进行调整。

往期文章:

1. 复现SCI文章系列专栏

2. 《生信知识库订阅须知》,同步更新,易于搜索与管理。

3. 最全WGCNA教程(替换数据即可出全部结果与图形)

  • WGCNA分析 | 全流程分析代码 | 代码一

  • WGCNA分析 | 全流程分析代码 | 代码二

  • WGCNA分析 | 全流程代码分享 | 代码三

  • WGCNA分析 | 全流程分析代码 | 代码四

  • WGCNA分析 | 全流程分析代码 | 代码五(最新版本)


4. 精美图形绘制教程

  • 精美图形绘制教程

5. 转录组分析教程

转录组上游分析教程[零基础]

小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/221939.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

长文!自动化立体库的前世今生

导语 大家好,我是智能仓储物流技术研习社的社长,你的老朋友,老K。行业群 甲乙双方人脉互配神器--->千人俱乐部 自动化立体库是在谈到自动化仓储物流系统中最常被人提起的一项。很多的物流装备厂家即使本行不是做立体仓库的,也往…

深圳锐杰金融的慈善承诺:健康社区,绿色未来

深圳市锐杰金融投资有限公司,作为中国经济特区的中流砥柱,近年来以其杰出的金融成绩和坚定的社会责任立场引人注目。然而,这并非一个寻常的金融机构。锐杰金融正在用自己的方式诠释企业责任和慈善精神,通过一系列独特的慈善项目&a…

DCGAN生成网络模型

DCGAN(Deep Convolutional Generative Adversarial Network)是一种生成对抗网络(GAN)的变体,专门设计用于生成图像。它结合了卷积神经网络(CNN)和生成对抗网络的概念,旨在生成具有高…

Git版本管理配置说明 - Visual Studio

一、 Git服务端配置 在源代码管理服务器新建文件夹,并配置共享访问权限Everyone(读取/写入)。 在本地访问这台服务器共享目录,确保正确打开。 在VS中打开项目,点选Git更改,点击“创建Git仓库”,创建项目初始版本。 弹出如下对话框: 因为我们只是在局域网中开发项…

【Wireshark工具使用】Wireshark无法抓取TwinCAT的EtherCAT包(已解决)

写在前面 因项目需要,近期在在深入研究EtherCAT协议,之后会将协议做一个系统的总结,分享在这个分栏。在研究EtherCAT协议帧时,使用了一个网络数据分析工具Wireshark,本文是关于EtherCAT数据帧分析工具使用中遇到的一个…

C++ 图论之Floyd算法求解次最短路径的感悟,一切都是脱壳后找最值而已

公众号:编程驿站 1. 前言 抛开基因的影响,学霸和学渣到底是在哪一点上有差异? 学霸刷完 200 道题,会对题目分类,并总结出解决类型问题的通用模板,我不喜欢模板这个名词,感觉到投机的意味&…

【C语言】指针与数组的潜在联系

目录 前言 改变固有数组的平面思维 注意: 数组操作与指针等价 指针数组 数组指针 笔试加深理解: 解析: 前言 《C Traps and Pitfalls》(C语言缺陷与陷阱)中有一句著名的见解: “在C语言中,指针与数组这两个概念…

Netty核心知识总结

Netty是一个高性能、异步事件驱动的NIO框架,它提供了对TCP、UDP和文件传输的支持,作为一个异步NIO框架,Netty的所有IO操作都是异步非阻塞的,通过Future-Listener机制,用户可以方便的主动获取或者通过通知机制获得IO操作…

ElasticSearch篇---第三篇

系列文章目录 文章目录 系列文章目录前言一、了解ElasticSearch 深翻页的问题及解决吗?二、熟悉ElasticSearch 性能优化三、ElasticSearch 查询优化手段有哪些?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这…

Linux 和 macOS 的主要区别在哪几个方面呢?

(꒪ꇴ꒪ ),Hello我是祐言QAQ我的博客主页:C/C语言,数据结构,Linux基础,ARM开发板,网络编程等领域UP🌍快上🚘,一起学习,让我们成为一个强大的攻城狮&#xff0…

【信息安全】-个人敏感信息、个人信息、个人金融信息

文章目录 个人敏感信息个人敏感信息判定举例 个人信息个人信息判定举例 个人金融信息内容a) 账户信息指账户及账户相关信息b) 鉴别信息c) 金融交易信息d) 个人身份信息e) 财产信息f) 借贷信息g) 其他信息: 出处 个人敏感信息 个人敏感信息判定 个人敏感信息是指一旦泄露、非法…

ppt转换成pdf文件

最近用到了,记一下; ppt转pdf分为两种情况: 小于2007版本的 .ppt格式(2003) 与大于2007版本的 .pptx格式(2007) .ppt格式为 二进制文件 .pptx格式为xml格式,在java中有不同的jar包需要使用 引入…

MyBatis 常见面试题

目录 1.MyBatis——概述1.1.什么是 ORM 框架?1.2.✨谈谈对 MyBatis 的理解。1.3.使用 MyBatis 相对于直接使用 SQL 有哪些优点?1.4.MyBatis 有什么优缺点?1.5.✨MyBatis 的分层结构是什么样的?1.6.✨MyBatis 的执行流程是什么样的…

这个柴油发电机大招,再不知道就晚了!

随着能源需求的不断增长和环境问题的日益凸显,柴油发电机在各个行业中扮演着关键的角色,为企业和社会提供可靠的电力支持。 然而,为了确保发电机的高效运行和延长其使用寿命,监控和维护变得至关重要。 客户案例 制造业 某制造业…

Java 控制台命令导入本地jar包到maven本地库中

1、新建POM文件&#xff0c;在maven库路径下创建POM文件 注意&#xff1a;这个路径需要与第2点导入命令中的grouoId、artifactId和version写法对应 Path&#xff1a;D:\RomanData\repository\com\sae\mail\1.0.0\mail-1.0.0.pom <?xml version"1.0" encoding&q…

电脑屏幕亮度怎么调?学会4个方法,轻松调节亮度!

“我总是感觉我电脑屏幕太暗了&#xff0c;有时候如果光线好一点&#xff0c;会看不清电脑屏幕。有什么可以把电脑调亮一点的简单方法吗&#xff1f;” 在我们的日常生活中&#xff0c;电脑已经成为我们工作、学习、娱乐不可或缺的工具。然而&#xff0c;长时间面对电脑屏幕可能…

删除误提交的 git commit

背景描述 某次的意外 commit 中误将密码写到代码中并且 push 到了 remote repo 里面, 本文将围绕这个场景讨论如何弥补. 模拟误提交操作 在 Gitee 创建一个新的 Repo, clone 到本地 git clone https://gitee.com/lpwm/myrepo.git创建两个文件, commit 后 push 到 remote 作…

2022年第十一届数学建模国际赛小美赛B题序列的遗传过程解题全过程文档及程序

2022年第十一届数学建模国际赛小美赛 B题 序列的遗传过程 原题再现&#xff1a; 序列同源性是指DNA、RNA或蛋白质序列之间的生物同源性&#xff0c;根据生命进化史中的共同祖先定义[1]。DNA、RNA或蛋白质之间的同源性通常根据它们的核苷酸或氨基酸序列相似性来推断。显著的相…

【EI征稿中|SPIE出版】 第四届传感器与信息技术国际学术会议(ICSI 2024)

第四届传感器与信息技术国际学术会议&#xff08;ICSI 2024&#xff09; 2024 4th International Conference on Sensors and Information Technology&#xff08;ICSI 2024&#xff09; 第四届传感器与信息技术国际学术会议&#xff08;ICSI 2024&#xff09;将于2024年1月5…

VS2019shi用动态链接库

.dll文件路径包含 C/C常规-------->附加包含目录 将动态库项目文件路径包含在附加包含目录。 .lib文件路径包含 连接器------------>输入------------------>附加依赖项 .lib文件名字输出附加依赖项 连接器------------>常规------------------>附加库目录 添加…