生物信息学分析-blast序列比对及结果详细说明

1. 软件说明

Blast是一种基于序列比对的分析工具,可以用于寻找生物序列之间的同源性,它的全称是Basic Local Alignment Search Tool。

Blast有多种版本和用途,最常见的是基于Web的Blast和本地安装的Blast程序。Web版Blast可以直接在NCBI网站上使用,而本地安装的Blast程序需要下载和安装在计算机上。

Blast的使用流程一般为输入一个查询序列,与数据库中的序列进行比对,输出比对结果。

2. 软件下载

这里使用linux版本,直接下载二进制的程序,注意如有报错,请按报错配置好gcc等依赖环境即可(一般是gcc版本问题)。

这里是对应工具的介绍页面,可直接使用页面提交比对任务

 BLAST: Basic Local Alignment Search Tool

下载链接:

https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.14.1+-x64-linux.tar.gz

解压安装:

###解压
tar -xzvf ncbi-blast-2.14.1+-x64-linux.tar.gz
###进入解压目录
cd ncbi-blast-2.14.1+
###查看解压目录内的文件,感兴趣的就读一下README吧。
ls
[root@vmgmt ncbi-blast-2.14.1+]# ls
bin  BLAST_PRIVACY  ChangeLog  doc  LICENSE  ncbi_package_info  README

###可直接使用的文件在bin目录下
cd bin
###查看目录下的文件
ls
[root@vmgmt bin]# ls
blastdb_aliastool  blast_formatter      blastn_vdb     blastx                      deltablast             legacy_blast.pl  makeprofiledb  rpstblastn  tblastn_vdb        windowmasker
blastdbcheck       blast_formatter_vdb  blastp         cleanup-blastdb-volumes.py  dustmasker             makeblastdb      psiblast       segmasker   tblastx
blastdbcmd         blastn               blast_vdb_cmd  convert2blastmask           get_species_taxids.sh  makembindex      rpsblast       tblastn     update_blastdb.pl

###上面目录的文件默认已经可以直接执行,未配置未系统目录时需要加上指定命令的路径
#如:
./blastn -help
[root@vmgmt bin]# ./blastn -help
USAGE
  blastn [-h] [-help] [-import_search_strategy filename]
    [-export_search_strategy filename] [-task task_name] [-db database_name]
    [-dbsize num_letters] [-gilist filename] [-seqidlist filename]
    [-negative_gilist filename] [-negative_seqidlist filename]
    [-taxids taxids] [-negative_taxids taxids] [-taxidlist filename]
    [-negative_taxidlist filename] [-entrez_query entrez_query]
    [-db_soft_mask filtering_algorithm] [-db_hard_mask filtering_algorithm]
    [-subject subject_input_file] [-subject_loc range] [-query input_file]
    [-out output_file] [-evalue evalue] [-word_size int_value]
    [-gapopen open_penalty] [-gapextend extend_penalty]
    [-perc_identity float_value] [-qcov_hsp_perc float_value]
    [-max_hsps int_value] [-xdrop_ungap float_value] [-xdrop_gap float_value]
    [-xdrop_gap_final float_value] [-searchsp int_value] [-penalty penalty]
    [-reward reward] [-no_greedy] [-min_raw_gapped_score int_value]
    [-template_type type] [-template_length int_value] [-dust DUST_options]
    [-filtering_db filtering_database]
    [-window_masker_taxid window_masker_taxid]
    [-window_masker_db window_masker_db] [-soft_masking soft_masking]
    [-ungapped] [-culling_limit int_value] [-best_hit_overhang float_value]
    [-best_hit_score_edge float_value] [-subject_besthit]
    [-window_size int_value] [-off_diagonal_range int_value]
    [-use_index boolean] [-index_name string] [-lcase_masking]
    [-query_loc range] [-strand strand] [-parse_deflines] [-outfmt format]
    [-show_gis] [-num_descriptions int_value] [-num_alignments int_value]
    [-line_length line_length] [-html] [-sorthits sort_hits]
    [-sorthsps sort_hsps] [-max_target_seqs num_sequences]
    [-num_threads int_value] [-mt_mode int_value] [-remote] [-version]

DESCRIPTION
   Nucleotide-Nucleotide BLAST 2.14.1+

Use '-help' to print detailed descriptions of command line arguments
========================================================================

###如果想直接使用的话注意将本目录加入到profile环境中去(推荐,),或者将本目录下的所有命令复制到/usr/bin下(不建议)
vim /etc/profile.d/blast.sh
##前面的/opt根目录请根据自己的实际路径修改
export PATH="/opt/ncbi-blast-2.14.1+/bin":$PATH  

###配置环境路径生效
source /etc/profile.d/blast.sh
#或
source /etc/profile

#直接运行命令测试
blastn -h

使用方法

###基于基于核酸序列-参考核酸序列的比对功能
blastn -db database -query input.fasta -out output -outfmt 6
### db 后面接比对的数据库, query后面接核酸序列,out接想要输出的文件名,outfmt输出格式,6表示表格输出,如下:
-outfmt <String>
     alignment view options:
     0 = pairwise,
     1 = query-anchored showing identities,
     2 = query-anchored no identities,
     3 = flat query-anchored, show identities,
     4 = flat query-anchored, no identities,
     5 = XML Blast output,
     6 = tabular,
     7 = tabular with comment lines,
     8 = Text ASN.1,
     9 = Binary ASN.1
    10 = Comma-separated values

###这个序列比对速度有点慢,建议多核跑加上threads参数, outfmt是大家通用的表格格式,使用6,7都不错。
###输出后看表格头部,大致字段表示如下:

outfmt,格式6输出(无表头,适合文件合并拼接处理)结果如下,没有表头,需要表头说明的采用7输出,从第一列到最后一列解释分别如下:

1、Query id:查询序列ID标识

2、Subject id:比对上的目标序列ID标识

3、% identity:序列比对的一致性百分比

4、alignment length:符合比对的比对区域的长度

5、mismatches:比对区域的错配数

6、gap openings:比对区域的gap数目

7、q. start:比对区域在查询序列(Query id)上的起始位点

8、q. end:比对区域在查询序列(Query id)上的终止位点

9、s. start:比对区域在目标序列(Subject id)上的起始位点

10、s. end:比对区域在目标序列(Subject id)上的终止位点

11、e-value:比对结果的期望值

12、bit score:比对结果的bit score值

一般情况我们看第3、11、12两列,e值越小越可靠

其他blastx,blastp等使用方式基本一致,但需要注意对比的数据库和比对序列是核酸还是蛋白序列。

blastp         基于蛋白序列-参考蛋白序列的比对功能

blastx         基于核酸序列-参考蛋白序列的比对功能

3. 参考数据库构建

这里以NCBI官网的nr数据库为例,大家根据需要下载对应参考库或者自己收集自定义的参考序列库,保持fasta格式即可

下载数据库: 

ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/

建议用ftp下载,文件有点大,需要比较长的时间。

有条件的配置Aspera进行传输,速度比ftp要快很多。

构建数据库,时间消耗与fasta文件大小相关,nr完整文件建库需要时间较长,一般半年左右更新一次即可:

# 构建参考数据库
makeblastdb -in nr.fa -dbtype nucl -out nrdb
# in        参考数据库fasta序列文件,可以加入自己已经注释的序列库,只要是fasta格式就行
# dbtype    接序列类型nucl表示核酸序列,prot表示蛋白序列
# out       输出数据库的名称,也就是后面blast命令后面的 db参数后接的数据库名

4. 其他工具对比说明

blast系列工具一般速度比较慢,一般用于小的样品序列和小的参考序列库进行对比,不适合大量序列的比对,需要大量序列比对的可参考本人博客 diamond 快速比对工具,速度最大加速20000倍。

diamond的使用方法与blast基本相近,输出格式及表头字段完全一致。

diamond大基因序列快速比对工具使用详解-包含超算集群多节点计算使用方法-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/109799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【MATLAB源码-第62期】基于蜣螂优化算法(DBO)的无人机三维地图路径规划,输出最短路径和适应度曲线。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 蜣螂优化算法&#xff08;Dung Beetle Optimization, DBO&#xff09;是一种模拟蜣螂在寻找食物和进行导航的过程的优化算法。蜣螂是一种能够将粪球滚到合适地点的昆虫&#xff0c;它们利用天空中的光线和自身的感知能力来确…

【EI会议征稿】第三届绿色能源与电力系统国际学术会议(ICGEPS 2024)

第三届绿色能源与电力系统国际学术会议&#xff08;ICGEPS 2024&#xff09; 2024 3rd International Conference on Green Energy and Power Systems 绿色能源是指可以直接用于生产和生活的能源。它包括核能和“可再生能源”。随着世界各国能源需求的不断增长和环境保护意识…

一文告诉你样机是什么,分享几个常用的样机模板

一个项目的诞生通常需要经历头脑构思、绘制设计和最终着陆。在这个过程中&#xff0c;样机制作往往是在着陆实践之前进行的。俗话说&#xff1a;“样机使用得好&#xff0c;草稿过早”。样机设计是产品或网站最终设计的生动、静态和视觉表现。它为用户提供了一种模拟现实的方式…

表白墙/留言墙 —— 初级SpringBoot项目,练手项目前后端开发(带完整源码) 全方位全步骤手把手教学

&#x1f9f8;欢迎来到dream_ready的博客&#xff0c;&#x1f4dc;相信你对这篇博客也感兴趣o (ˉ▽ˉ&#xff1b;) 用户登录前后端开发(一个简单完整的小项目)——SpringBoot与session验证&#xff08;带前后端源码&#xff09;全方位全流程超详细教程 目录 项目前端页面展…

算法的时间复杂度及空间复杂度

目录 一、前言 二、时间复杂度 1.时间复杂度定义 2.时间复杂度描述方法 三、实例代码 实例1&#xff08;取影响最大的项&#xff09; 实例2&#xff08;舍去系数&#xff09; 实例3&#xff08;不确定大小关系的用max函数取最大&#xff09; 实例4&#xff08;常数次的…

Windows原生蓝牙编程 第二章 选取设备输入配对码并配对【C++】

蓝牙系列文章目录 第一章 获取本地蓝牙并扫描周围蓝牙信息并输出 第二章 选取设备输入配对码并配对 文章目录 前言头文件一、选择想要配对的设备并设置配对码1.1 设置配对码1.2 选择设备并配对 二、全部代码三、测试结果总结 前言 接着第一章&#xff0c;我们已经把扫描到的蓝…

Leetcode 43. 字符串相乘 中等

题目 - 点击直达 1. 43. 字符串相乘 中等1. 题目详情1. 原题链接2. 题目要求3. 基础框架 2. 思路一 做加法1. 思路分析2. 时间复杂度3. 代码实现 3. 思路二 做乘法1. 思路分析2. 时间复杂度3. 代码实现 1. 43. 字符串相乘 中等 1. 题目详情 给定两个以字符串形式表示的非负整…

Acrobat Pro DC 2023 PDF编辑器 for Mac

Acrobat Pro DC是一款由Adobe开发的专业级PDF编辑和管理软件。作为PDF行业的标准工具&#xff0c;它提供了广泛的功能和工具&#xff0c;适用于个人用户、企业和专业人士。 Acrobat Pro DC具备丰富的编辑功能&#xff0c;可以对PDF文件进行文本编辑、图像编辑和页面重排等操作。…

订水商城H5实战教程-05权限控制

目录 1 判断用户是否登录2 创建事件流3 获取不到Userid的问题4 权限控制整体效果 我们上一篇讲解了用户注册的功能&#xff0c;当用户注册完毕的时候再次打开小程序的时候就需要验证权限。权限分为两类&#xff0c;第一类是判断用户是否注册&#xff0c;第二类是当前用户具备什…

Linux启动之uboot分析

Linux启动之uboot分析 uboot是什么&#xff1f;一、补充存储器概念1.存储器种类1.norflash - 是非易失性存储器&#xff08;也就是掉电保存&#xff09;2.nandflash - 是非易失性存储器&#xff08;也就是掉电保存&#xff09;3.SRAM - 静态随机访问存储器 - Static Random Acc…

什么是鉴权?一篇文章带你了解postman的多种方式

一、什么是鉴权&#xff1f; 鉴权也就是身份认证&#xff0c;就是验证您是否有权限从服务器访问或操作相关数据。发送请求时&#xff0c;通常必须包含相应的检验参数以确保请求具有访问权限并返回所需数据。通俗的讲就是一个门禁&#xff0c;您想要进入室内&#xff0c;必须通…

MySQL(3):基本的 SELECT 语句

SQL 语言 SQL&#xff08;Structured Query Language&#xff0c;结构化查询语言&#xff09;是使用关系模型的数据库应用语言&#xff0c; 与数据直接打交道 。 SQL 有两个重要的标准&#xff0c;分别是 SQL92 和 SQL99&#xff0c;它们分别代表了 92 年和 99 年颁布的 SQL 标…

一体化模型图像去雨+图像去噪+图像去模糊(图像处理-图像复原-代码+部署运行教程)

本文主要讲述了一体化模型进行去噪、去雨、去模糊&#xff0c;也就是说&#xff0c;一个模型就可以完成上述三个任务。实现了良好的图像复原功能&#xff01; 先来看一下美女复原.jpg 具体的&#xff1a; 在图像恢复任务中&#xff0c;需要在恢复图像的过程中保持空间细节…

windows应用软件扫描报告 不告谱 要钱

chatGPT开路&#xff0c;帮找。 当你想要查找Windows软件的漏洞而不涉及查看源代码时&#xff0c;你可以使用一些专门设计用于扫描漏洞的工具。这些工具通常会检查已安装的软件和操作系统的漏洞&#xff0c;并提供建议或修补程序。以下是一些可以用于查找Windows软件漏洞的工具…

SQL优化(慢查询优化方法)正确使用数据库索引

文章目录 (一) 建立索引的正确姿势1 &#xff09;索引不要包含选择性过低字段2&#xff09; 选择性高的字段前置或者单独建立索引3&#xff09;尽量使用覆盖索引 (二) 使用索引的正确姿势1&#xff09; 最左匹配截断2&#xff09; 隐式转换3&#xff09; in order by 导致排序失…

R2R 的一些小tip

批次间控制器(Run-to-run Controller)&#xff0c;以应对高混合生产的挑战。将最优配方参数与各种工业特征相关联的模型是根据历史数据离线训练的。预测的最优配方参数在线用于调整工艺条件。 批次控制(R2R control)是一种先进的工艺控制技术&#xff0c;可在运行(如批次或晶圆…

Matlab | 基于二次谱提取地震数据的地震子波

本文通过地震数据二次谱求取地震子波谱&#xff0c;具体方法如下&#xff1a; MATLAB代码实现如下&#xff1a; function w SndSpecExtWavelet(x, M) % 功能&#xff1a;基于二次谱提取输入地震数据data的地震子波wavelet % Extracting Wavelet from Input Seismic Dat…

Flutter 使用 GetX 中遇到的问题

创建了控制器&#xff0c;但是在别的页面中&#xff0c;无法引用控制器里面的某些变量 如下图&#xff1a;后来发现&#xff0c;是命名的问题&#xff0c; 如果是以 _ 下划线开头的变量&#xff0c;那么就无法被引用

测开(性能测试---LoadRunner)

目录 一、LoadRunner的安装 二、Loadrunner的基本概念 三、开发测试脚本——VUG 3.1 脚本录制 3.2 脚本加强 四、设计场景——Controller LoadRunner是一款开源桌面应用软件&#xff0c;可用来模拟用户负载完成性能测试工作&#xff0c;LoadRunner的功能在版本不断升级的…

SDP协议分析

目录 SDP的结构SDP语法必需字段可选字段字段顺序子字段 3.SDP例子 1. SDP的结构 SDP&#xff08;Session Description Protocol&#xff09;完全是⼀种会话描述格式&#xff0c;它不属于传输协议&#xff0c;它只使⽤于适当的传输协议&#xff0c;包括会话通知协议&#xf…