01 背景
Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期,BUSCO指标是对像N50这样的技术指标的补充。
可以评估多种数据类型:
组装的基因组、转录组及注释到的基因对应的氨基酸序列等
使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。
02 参考
https://busco.ezlab.org/ #官网
https://busco-data.ezlab.org/v5/data/lineages/ #数据库地址
03 安装
方法1
git clone https://gitlab.com/ezlab/busco.git
cd busco
python3 setup.py install --user
./bin/busco -h
方法2
conda create --name busco
conda activate busco
conda install -c conda-forge -c bioconda busco=5.6.0
或者使用mabma
mamba install busco
mamba update busco
04 使用
用法: busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]
欢迎使用 BUSCO 5.6.0:基准测试通用单拷贝直系同源基因评估工具。
有关更详细的使用信息,请查看此发行版附带的README文件和BUSCO用户指南。访问此页面 https://gitlab.com/ezlab/busco#how-to-cite-busco 了解如何引用BUSCO。
可选参数:
-i SEQUENCE_FILE, --in SEQUENCE_FILE
输入序列文件,格式为FASTA。可以是组装的基因组或转录组(DNA),或注释基因集的蛋白质序列。也可以使用包含多个输入文件的目录路径。
-o OUTPUT, --out OUTPUT
为您的分析运行指定一个易于识别的短名称。输出文件夹和文件将用此名称标记。输出文件夹的路径由 --out_path 设置。
-m MODE, --mode MODE 指定运行的BUSCO分析模式。
有三种有效模式:
- geno 或 genome,用于基因组组装(DNA)
- tran 或 transcriptome,用于转录组组装(DNA)
- prot 或 proteins,用于注释基因集(蛋白质)
-l LINEAGE, --lineage_dataset LINEAGE
指定要使用的BUSCO谱系的名称。
--augustus 使用 augustus 基因预测器进行真核生物运行
--augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2
向 Augustus 传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
--augustus_species AUGUSTUS_SPECIES
指定一个用于 Augustus 训练的物种。
--auto-lineage 运行自动谱系以找到最佳谱系路径
--auto-lineage-euk 仅在真核生物树上运行自动放置以找到最佳谱系路径
--auto-lineage-prok 仅在非真核生物树上运行自动谱系以找到最佳谱系路径
-c N, --cpu N 指定要使用的线程/核心数量(N=整数)。
--config CONFIG_FILE 提供配置文件
--contig_break n 表示片段之间断裂的连续 Ns 数。默认值为 n=10。
--datasets_version DATASETS_VERSION
指定BUSCO数据集的版本,例如odb10
--download [dataset ...]
下载数据集。可能的值是特定数据集名称、“all”、“prokaryota”、“eukaryota”或“virus”。如果与其他命令行参数一起使用,请确保将其最后放置。
--download_base_url DOWNLOAD_BASE_URL
设置远程BUSCO数据集位置的URL
--download_path DOWNLOAD_PATH
指定存储BUSCO数据集下载内容的本地文件路径
-e N, --evalue N BLAST搜索的E值截止。允许的格式为0.001或1e-03(默认值:1e-03)
-f, --force 强制重写现有文件。必须在提供名称的输出文件已存在时使用。
-h, --help 显示此帮助信息并退出
--limit N 每个BUSCO考虑的候选区域(片段或转录本)数量(默认值:3)
--list-datasets 打印可用BUSCO数据集的列表
--long 优化 Augustus 自训练模式(默认:关闭);显著增加运行时间,但可能改善某些非模式生物的结果
--metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
向 Metaeuk 第一次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
--metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
向 Metaeuk 第二次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
--miniprot 使用 miniprot 基因预测器
--skip_bbtools 跳过BBTools进行组装统计
--offline 指示BUSCO不能尝试下载文件
--opt-out-run-stats 选择退出数据收集。有关收集数据的信息,请参阅用户指南。
--out_path OUTPUT_PATH
结果文件夹的可选位置,不包括结果文件夹名称。默认是当前工作目录。
-q, --quiet 禁用信息日志,仅显示错误
-r, --restart 继续已部分完成的运行。
--scaffold_composition
将每个脚手架的ACGTN内容写入文件 scaffold_composition.txt
--tar 压缩一些包含大量文件的子目录以节省空间
--update-data 下载并用最新版本替换所有谱系数据集和自动选择所需的文件
-v, --version 显示此版本并退出
05 常用命令行
基因组
busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline
这行命令依赖metaeuk寻找可能的编码区,还可以通过augustus进行:
busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus
转录组
run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
# 参数详解
run_BUSCO.py -i [组装的文件.fasta] -l [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
# -i 输入文件
# -l BUSCO的数据库文件
# -o 输出的文件名的后缀以及文件夹的名称
# -m 分析类型(genome、transcriptome、proteins)
# --cpu 线程数
结果画图
generate_plot.py -wd ./
06 参考文献
Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Simão, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution, Volume 38, Issue 10, October 2021, Pages 4647–4654
Manni, M., Berkeley, M. R., Seppey, M., & Zdobnov, E. M. (2021). BUSCO: Assessing genomic data quality and beyond. Current Protocols, 1, e323. doi: 10.1002/cpz1.323