BUSCO安装及使用(生物信息学工具-019)

01 背景

Benchmarking Universal Single-Copy Orthologs (BUSCO)是用于评估基因组组装和注释的完整性的工具。通过与已有单拷贝直系同源数据库的比较,得到有多少比例的数据库能够有比对,比例越高代表基因组完整度越好。基于进化信息的近乎全基因单拷贝直系同源基因内容预期,BUSCO指标是对像N50这样的技术指标的补充。

可以评估多种数据类型:

组装的基因组、转录组及注释到的基因对应的氨基酸序列等
使用需要评估的生物类别所属的数据库(从busco数据库下载)比对,得出比对上数据库的完整性比例的信息。

02 参考
https://busco.ezlab.org/   #官网
https://busco-data.ezlab.org/v5/data/lineages/    #数据库地址
03 安装
方法1
git clone https://gitlab.com/ezlab/busco.git
cd busco
python3 setup.py install --user
./bin/busco -h

方法2
conda create --name  busco
conda activate  busco
conda install -c conda-forge -c bioconda busco=5.6.0 

或者使用mabma
mamba install busco
mamba update busco
04 使用
用法: busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]

欢迎使用 BUSCO 5.6.0:基准测试通用单拷贝直系同源基因评估工具。
有关更详细的使用信息,请查看此发行版附带的README文件和BUSCO用户指南。访问此页面 https://gitlab.com/ezlab/busco#how-to-cite-busco 了解如何引用BUSCO。

可选参数:
  -i SEQUENCE_FILE, --in SEQUENCE_FILE
                        输入序列文件,格式为FASTA。可以是组装的基因组或转录组(DNA),或注释基因集的蛋白质序列。也可以使用包含多个输入文件的目录路径。
  -o OUTPUT, --out OUTPUT
                        为您的分析运行指定一个易于识别的短名称。输出文件夹和文件将用此名称标记。输出文件夹的路径由 --out_path 设置。
  -m MODE, --mode MODE  指定运行的BUSCO分析模式。
                        有三种有效模式:
                        - geno 或 genome,用于基因组组装(DNA)
                        - tran 或 transcriptome,用于转录组组装(DNA)
                        - prot 或 proteins,用于注释基因集(蛋白质)
  -l LINEAGE, --lineage_dataset LINEAGE
                        指定要使用的BUSCO谱系的名称。
  --augustus            使用 augustus 基因预测器进行真核生物运行
  --augustus_parameters --PARAM1=VALUE1,--PARAM2=VALUE2
                        向 Augustus 传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --augustus_species AUGUSTUS_SPECIES
                        指定一个用于 Augustus 训练的物种。
  --auto-lineage        运行自动谱系以找到最佳谱系路径
  --auto-lineage-euk    仅在真核生物树上运行自动放置以找到最佳谱系路径
  --auto-lineage-prok   仅在非真核生物树上运行自动谱系以找到最佳谱系路径
  -c N, --cpu N         指定要使用的线程/核心数量(N=整数)。
  --config CONFIG_FILE  提供配置文件
  --contig_break n      表示片段之间断裂的连续 Ns 数。默认值为 n=10。
  --datasets_version DATASETS_VERSION
                        指定BUSCO数据集的版本,例如odb10
  --download [dataset ...]
                        下载数据集。可能的值是特定数据集名称、“all”、“prokaryota”、“eukaryota”或“virus”。如果与其他命令行参数一起使用,请确保将其最后放置。
  --download_base_url DOWNLOAD_BASE_URL
                        设置远程BUSCO数据集位置的URL
  --download_path DOWNLOAD_PATH
                        指定存储BUSCO数据集下载内容的本地文件路径
  -e N, --evalue N      BLAST搜索的E值截止。允许的格式为0.001或1e-03(默认值:1e-03)
  -f, --force           强制重写现有文件。必须在提供名称的输出文件已存在时使用。
  -h, --help            显示此帮助信息并退出
  --limit N             每个BUSCO考虑的候选区域(片段或转录本)数量(默认值:3)
  --list-datasets       打印可用BUSCO数据集的列表
  --long                优化 Augustus 自训练模式(默认:关闭);显著增加运行时间,但可能改善某些非模式生物的结果
  --metaeuk_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第一次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --metaeuk_rerun_parameters "--PARAM1=VALUE1,--PARAM2=VALUE2"
                        向 Metaeuk 第二次运行传递额外参数。所有参数应包含在一个字符串中且不含空格,每个参数之间用逗号分隔。
  --miniprot            使用 miniprot 基因预测器
  --skip_bbtools        跳过BBTools进行组装统计
  --offline             指示BUSCO不能尝试下载文件
  --opt-out-run-stats   选择退出数据收集。有关收集数据的信息,请参阅用户指南。
  --out_path OUTPUT_PATH
                        结果文件夹的可选位置,不包括结果文件夹名称。默认是当前工作目录。
  -q, --quiet           禁用信息日志,仅显示错误
  -r, --restart         继续已部分完成的运行。
  --scaffold_composition
                        将每个脚手架的ACGTN内容写入文件 scaffold_composition.txt
  --tar                 压缩一些包含大量文件的子目录以节省空间
  --update-data         下载并用最新版本替换所有谱系数据集和自动选择所需的文件
  -v, --version         显示此版本并退出
05 常用命令行
基因组
busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline

这行命令依赖metaeuk寻找可能的编码区,还可以通过augustus进行:

busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus

转录组
run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
# 参数详解
run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
# -i 输入文件
# -l BUSCO的数据库文件
# -o 输出的文件名的后缀以及文件夹的名称
# -m 分析类型(genome、transcriptome、proteins)
# --cpu 线程数

结果画图

generate_plot.py -wd ./
06 参考文献

Mosè Manni, Matthew R Berkeley, Mathieu Seppey, Felipe A Simão, Evgeny M Zdobnov, BUSCO Update: Novel and Streamlined Workflows along with Broader and Deeper Phylogenetic Coverage for Scoring of Eukaryotic, Prokaryotic, and Viral Genomes. Molecular Biology and Evolution, Volume 38, Issue 10, October 2021, Pages 4647–4654

Manni, M., Berkeley, M. R., Seppey, M., & Zdobnov, E. M. (2021). BUSCO: Assessing genomic data quality and beyond. Current Protocols, 1, e323. doi: 10.1002/cpz1.323

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/635797.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

521源码-免费教程-Linux系统硬盘扩容教程

本教程来自521源码:更多网站源码下载学习教程,请点击👉-521源码-👈获取最新资源 首先:扩容分区表 SSH登陆服务器输入命令:df -TH,获得数据盘相关信息 可以看到演示服务器的数据盘分区是&…

如何让外网访问内网服务?

随着互联网的快速发展,越来越多的企业和个人需要将内网服务暴露给外网用户访问。由于安全和隐私等因素的考虑,直接将内网服务暴露在外网是非常不安全的做法。如何让外网用户安全访问内网服务成为了一个重要的问题。 在这个问题上,天联公司提供…

【吊打面试官系列】Java高并发篇 - AQS 支持几种同步方式 ?

大家好,我是锋哥。今天分享关于 【AQS 支持几种同步方式 ?】面试题,希望对大家有帮助; AQS 支持几种同步方式 ? 1、独占式 2、共享式 这样方便使用者实现不同类型的同步组件,独占式如 ReentrantLock&…

第一份工资

当我拿到我人生的第一份工资时,那是一种难以言表的激动。我记得那个下午,阳光透过窗户洒在了我的办公桌上,我看着那张支票,心中满是欣喜和自豪。那是我独立生活的开始,也是我对自己能力的一种肯定。 我记得我是如何支配…

《Rust奇幻之旅:从Java和C++开启》第1章Hello world 2/5

讲动人的故事,写懂人的代码 很多程序员都在自学Rust。 🤕但Rust的学习曲线是真的陡,让人有点儿怵头。 程序员工作压力大,能用来自学新东西的时间简直就是凤毛麟角。 📕目前,在豆瓣上有7本Rust入门同类书。它们虽有高分评价,但仍存在不足。 首先,就是它们介绍的Rust新…

web自动化文件上传弹框处理

目录 文件上传介绍文件上传处理Alert 弹窗介绍Alert 弹窗处理 课程目标 掌握文件上传的场景以及文件上传的处理方式。掌握 Alert 弹窗的场景以及 Alert 弹窗的处理方式。 思考 碰到需要上传文件的场景,自动化测试应该如何解决? 文件上传处理 找到文…

大数据量MySQL的分页查询优化

目录 造数据查看耗时优化方案总结 造数据 我用MySQL存储过程生成了100多万条数据&#xff0c;存储过程如下。 DELIMITER $$ USE test$$ DROP PROCEDURE IF EXISTS proc_user$$CREATE PROCEDURE proc_user() BEGINDECLARE i INT DEFAULT 1;WHILE i < 1000000 DOINSERT INT…

SkyEye对接CANoe:助力汽车软件功能验证

01.简介 CANoe&#xff08;CAN open environment&#xff09;是德国Vector公司专为汽车总线设计而开发的一款通用开发环境&#xff0c;作为车载网络和ECU开发、测试和分析的专业工具&#xff0c;支持从需求分析到系统实现的整个系统的开发过程。CANoe丰富的功能和配置选项被OE…

【php开发系统性学习】——thinkphp框架的安装和启动保姆式教程

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;开发者-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

Linux应用入门(二)

1. 输入系统应用编程 1.1 输入系统介绍 常见的输入设备有键盘、鼠标、遥控杆、书写板、触摸屏等。用户经过这些输入设备与Linux系统进行数据交换。这些设备种类繁多&#xff0c;如何去统一它们的接口&#xff0c;Linux为了统一管理这些输入设备实现了一套能兼容所有输入设备的…

CSS基础(第五天)

目录 定位 为什么需要定位 定位组成 边偏移 静态定位 static&#xff08;了解&#xff09; 相对定位 relative 绝对定位 absolute&#xff08;重要&#xff09; 子绝父相的由来 固定定位 fixed &#xff08;重要&#xff09; 粘性定位 sticky&#xff08;了解&#xff…

【笔记】树(Tree)

一、树的基本概念 1、树的简介 之前我们都是在谈论一对一的线性数据结构&#xff0c;可现实中也有很多一对多的情况需要处理&#xff0c;所以我们就需要一种能实现一对多的数据结构--“树”。 2、树的定义 树&#xff08;Tree&#xff09;是一种非线性的数据结构&#xff0…

Hadoop3:HDFS中NameNode和SecondaryNameNode的工作机制(较复杂)

一、HDFS存储数据的机制简介 HDFS存储元数据(meta data)的时候 结果&#xff0c;记录在fsImage文件里 过程&#xff0c;记录在Edits文件里 同时fsImageEdits最终结果&#xff0c;这个最终结果&#xff08;fsImageEdits&#xff09;会保存一份在内存中&#xff0c;为了提升性能…

5月30日在线研讨会 | 面向智能网联汽车的产教融合解决方案

随着智能网联汽车技术的快速发展&#xff0c;产业对高素质技术技能人才的需求日益增长。为了促进智能网联汽车行业的健康发展&#xff0c;推动教育链、人才链与产业链、创新链的深度融合&#xff0c;经纬恒润推出产教融合相关方案&#xff0c;旨在通过促进教育链与产业链的深度…

Cookie 和 Session概念及相关API

目录 1.Cookie概念 2.理解会话机制 (Session) 3.相关API 3.1HttpServletRequest 3.2HttpServletResponse 3.3HttpSession 3.4Cookie 4.代码示例: 实现用户登陆 1.Cookie概念 Cookie 是存储在用户本地终端&#xff08;如计算机、手机等&#xff09;上的数据片段。 它…

5款AI工具,PS插件的智能升级

在Photoshop插件的世界里&#xff0c;创新和效率是永远的主题。随着AI技术的融入&#xff0c;传统的PS插件正在经历一场革命。本文将介绍五款结合了人工智能技术的PS插件&#xff0c;它们不仅提升了设计工作的效率&#xff0c;还拓展了创意的边界。 StartAI —— 智能设计的未来…

【包公断案】http请求神秘失踪案

案件名称&#xff1a;http请求离奇失踪案 案发地点&#xff1a;公司内部机器 案发时间&#xff1a;早上9点到9点30分 案发背景&#xff1a;两地三中心&#xff0c;双机房只单边出现该问题 案发事件&#xff1a;服务A的某些api请求离奇失踪&#xff0c;超时无响应&#xff0c;微…

【Qt】如何优雅的进行界面布局

文章目录 1 :peach:写在前面:peach:2 :peach:垂直布局:peach:3 :peach:水平布局:peach:4 :peach:网格布局:peach:5 :peach:表单布局:peach: 1 &#x1f351;写在前面&#x1f351; 之前使⽤ Qt 在界⾯上创建的控件, 都是通过 “绝对定位” 的⽅式来设定的。也就是每个控件所在…

数字信号处理:matlab解差分方程

1. 验证全响应 %验证全响应零状态响应零输入响应 %y(n)4y(n-1)x(n),其中x(n)δ(n),y(-1)2.clc;%清屏 clear all;%清除所有变量的值 b[1]; a[1,-4]; ys[2]; xs[0];%没有初始值&#xff0c;就是0 xn[1, zeros(1,4)];%输入序列&#xff0c;假设长度是5&#xff0c;则输出长度也是…

WDW-100G 高温拉力试验机 技术方案书

一、整机外观图&#xff1a; 二、项目简介&#xff1a; 微机控制高温拉力试验机是电子技术与机械传动相结合的新型材料试验机&#xff0c;它具有宽广准确的加载速度和测力范围&#xff0c;对载荷、变形、位移的测量和控制有较高的精度和灵敏度&#xff0c;还可以进行等速加载、…