转录组学习第5弹-比对参考基因组

比对参考基因组

在构建文库的过程中需要将DNA片段化,因此测序得到的序列只是基因组的部分序列。为了确定测序reads在基因组上的位置,需要将reads比对回参考基因组上,这个步骤叫做比对,即文献中所提到的alignment或mapping。包括基因组比对和转录组比对目前比对的工具有很多,这里用的是hisat2。

1.HISAT2官网下载index

hisat2和其他比对软件一样,需要先建立索引,建立索引比较复杂且耗费时间,好在官网有已经建立好的索引,我们只需要到官网下载使用即可。此处下载的是人源。

wget -O hg38.tar.gz https://cloud.biohpc.swmed.edu/index.php/s/hg38/download

2.hisat2比对得到sam文件

例子:

hisat2 -t -p 8 -x ~/my_project/airway/reference/index/hg38/genome -1 ~/my_project/wangll/raw/con1_raw_1.fq.gz -2 ~/my_project/wangll/raw/con1_raw_2.fq.gz -S con1.sam

批量处理

#!/bin/bash
raw=~/my_project/wangll/raw
index=~/my_project/airway/reference/index/hg38/genome
outdir=~/my_project/wangll/alignment
ls *_raw_1.fq.gz|while read id; do 
 id=${id/_raw_1.fq.gz/} #将字符串 id 中的_raw_1.fq.gz 部分替换为空字符串,即将_raw_1.fq.gz删除
 hisat2 -t -p 8 -x $index -1 $raw/${id}_raw_1.fq.gz -2 $raw/${id}_raw_2.fq.gz -S $outdir/${id}.sam;
done

#挂服务器后台处理
nohup bash align.sh &

处理完之后查看nohup.out文件即可查看比对率,如下图的95.14%
在这里插入图片描述

3.sam文件转bam文件

sam(Sequence Alignment/Map)格式是一种通用的比对格式,用来存储reads到参考序列的比对信息。sam主要应用于测序序列mapping到基因组上的结果表示,分为注释信息(header section)和比对结果(alignment section)两部分。bam是sam的二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。
要先安装samtools,可以用conda,如果不行的话就用wegt

mkdir ~/biosoft/samtools
cd ~/biosoft/samtools
wget -c https://github.com/samtools/samtools/releases/download/1.9/samtools-1.9.tar.bz2
#服务器上GitHub太慢了,我就在本地下载之后scp再传到服务器
tar jxvf samtools-1.9.tar.bz2 #解压
cd samtools-1.9
./configure --prefix=/home/data/t230436/biosoft/samtools/samtools-1.9
make
make install
./samtools --help #查看使用帮助,顺便确认安装成功了没有
#如果想要全局调用,可以将samtools路径放到.bashrc配置文件中

批量处理把sam文件转为bam文件

#!/bin/bash
ls *.sam|while read id;do id=${id/.sam/}
   samtools view -bhS -q 30 ${id}.sam > ${id}.bam
   samtools sort ${id}.bam -o ${id}.sorted.bam
   samtools index ${id}.sorted.bam
done  
#挂服务器后台处理
nohup bash sam2bam.sh &

运行完毕之后就会得到以下文件
在这里插入图片描述

过程中遇到的报错:

1)
在这里插入图片描述
解决:加上-o参数samtools sort con1.bam -o con1.sorted.bam

2)
在这里插入图片描述
不知道为什么会莫名出错,然后我尝试了samtools sort -n con1.bam -o con1_sorted.bam可以运行,但是后面samtools index又出现了报错,搜索了一下发现命令按理说没有问题,于是退出终端之后重试了几次结果又可以运行不报错了,有点懵逼

3)samtools index: failed to create index for “con1_sorted.bam”: No such file or directory
解决:可能是因为前面sort出错(我前面用了-n参数),后面重新运行samtools sort con1.bam -o con1.sorted.bam之后再运行samtools index就没出现这个报错了

长腿猴子请来的救兵
写于2023年11月25日 马课摸鱼写的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/195963.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

自动化接口测试:Pytest让你轻松搞定!了解一般流程及方法

首先我们要明确,通常所接口测试其实就属于功能测试,主要校验接口是否实现预定的功能,虽然有些情况下可能还需要对接口进行性能测试、安全性测试。 在学习接口自动化测试之前,我们先来了解手工接口测试怎样进行。 URL组成 为了更…

智能AIGC写作系统ChatGPT系统源码+Midjourney绘画+支持GPT-4-Turbo模型+支持GPT-4图片对话

一、AI创作系统 SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI…

Python爬虫404错误:解决方案总结

在进行网络爬虫开发的过程中,经常会遇到HTTP 404错误,即“Not Found”错误。这种错误通常表示所请求的资源不存在。对于爬虫开发者来说,处理这类错误是至关重要的,因为它们可能会导致爬虫无法正常工作。本文将探讨Python爬虫遇到4…

事务的自动提交机制和隐式提交机制

自动提交机制就是一个sql语句完成默认提交一次,也就是说一个sql语句是原子性的。想关闭这种功能,两种方式一种写START TRANSACTION,另一种SET autocommit OFF 隐式提交机制,在START TRANSACTION后,会有一些情况导致语…

云表|低代码助力职场人,一招制敌解决办公难题

身在职场,我们时常会面临一系列令人头疼的难题: ● 突然被领导要求30分钟内汇总所有人的填报信息,看着面前格式五花八门的Excel表格,我们无所适从,不知从何下手。 ● 在这个数字化的时代,公司仍然沿用古老的…

鸿蒙应用开发-初见:入门知识、应用模型

基础知识 Stage模型应用程序包结构 开发并打包完成后的App的程序包结构如图 开发者通过DevEco Studio把应用程序编译为一个或者多个.hap后缀的文件,即HAP一个应用中的.hap文件合在一起称为一个Bundle,bundleName是应用的唯一标识 需要特别说明的是&…

【数据中台】开源项目(2)-Davinci可视应用平台

1 平台介绍 Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为…

Docker配置Halo搭建个人博客-快速入门

Docker配置Halo搭建个人博客-快速入门 1 官方文档2 安装Halo2.1 创建Halo主目录2.2 远程下载配置文件2.3 编辑配置文件2.4 拉取最新镜像2.6 查看容器2.7 开放服务器的防火墙 3 运行3.1 运行项目3.2 停止项目 4 常见问题4.1 没有权限4.2 ommand netstart not found, did you mea…

5种方法,教你如何清理接口测试后的测试数据!

在接口测试之后,清理测试数据是一个很重要的步骤,以确保下一次测试的准确性和一致性。以下是一些常见的测试数据清理方法: 1. 手动清理: 这是最基本的方法,即手动删除或重置测试数据。您可以通过访问数据库、控制台或…

打破障碍:克服数字化应用挑战的策略

通过正确的方法,企业可以成功地克服复杂性,并从数字化中获益。 数字技术的出现彻底改变了我们的生活和工作方式。从智能手机到社交媒体,数字工具在我们的日常生活中无处不在。对于许多个人和组织而言,采用数字技术可能是一个重大…

Java HashMap

HashMap 是 Map 接口中基于哈希表的非同步实现, 自身也可以自动扩容。使用时可以通过 key 快速定位到对应的 value。key 和 value 同时可以都为 null。 1 HashMap 的结构定义 JDK1.8 对 HashMap 进行了比较大的优化, 底层实现由之前的 “数组 链表” 改为 “数组 链表 红黑…

怎么解决 申请获取你的手机号,但该功能使用次数已达当前小程序上限,暂时无法使用。

微信出新规了, 获取手机号数据需要收费,1分钱一条。 在以前的开发中,获取手机号是默认不需要收费的,现在收费等于微信现在作为运营商一样,验证一个手机短信,需要收费 几分钱。 如果你的程序遇到了问题&am…

面试题:说一下你对 OAuth2 协议原理的理解?

文章目录 OAuth2简介角色流程客服端注册Client Type四种授权模式授权码模式隐藏式密码式凭证式RefreshToken OAuth2简介 OAuth 是一个开放授权协议标准,允许用户授权第三方应用访问他们存储在另外的服务提供者上的信息,而不需要将用户名和密码提供给第三…

Python爬虫之代理IP与访问控制

目录 前言 一、代理IP 1.1.使用代理IP的步骤 1.2.寻找可用的代理IP 1.3.设置代理IP 1.4.验证代理IP的可用性 二、访问控制 2.1.遵守Robots协议 2.2.设置访问时间间隔 2.3.多线程爬取 总结 前言 在进行Python爬虫过程中,代理IP与访问控制是我们经常需要处…

11.盛最多的水的容器

一、题目 给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 题目难度:中等 示例&a…

为什么API管理工具对开发人员有益?

应用程序编程接口 (API) 用于在应用程序之间创建连接,以允许它们相互通信。这种连接是当今数字世界运作方式不可或缺的一部分。实际上,API 使企业能够集成系统,通过创新提供更好的服务和产品。 这就是为什么在 IT 内部…

C语言常见算法

算法(Algorithm):计算机解题的基本思想方法和步骤。算法的描述:是对要解决一个问题或要完成一项任务所采取的方法和步骤的描述,包括需要什么数据(输入什么数据、输出什么结果)、采用什么结构、使…

低代码部署方式大揭秘:满足你的多种选择

本文由葡萄城技术团队原创并首发。转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 前言 低代码开发平台为企业提供创新的应用程序开发和部署方法,让非技术人员也能够轻松创建和发布应…

C++ :静态成员

静态成员 静态成员就是在成员变量和成员函数前加上关键字 static ,称为静态成员 静态成员分为: 静态成员变量 1.所有对象共享同一份数据 2.在编译阶段分配内存 3.类内声明,类外初始化 静态成员函数 1.所有对象共享同一个函数 2.静态成…

【华为OD题库-040】计算最接近的数-java

题目 给定一个数组X和正整数K,请找出使表达式X[i]-x[i1]…-X[ik-1],结果最接近于数组中位数的下标i,如果有多个满足条件,请返回最大的i。 其中,数组中位数:长度为N的数组,按照元素的值大小升序排列后&#…