宏基因组|使用CheckM2评估分箱质量

在这里插入图片描述

简介

CheckM2使用机器学习快速评估基因组bin质量

与CheckM1不同,CheckM2采用通用训练的机器学习模型,无论分类学谱系如何,均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数(甚至只有一个)高质量基因组代表的谱系,通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架,CheckM2对于具有缩减基因组或特殊生物学特性的生物体,如Nanoarchaeota或Patescibacteria,也具有极高的准确性。

CheckM2使用两种独立的机器学习模型来预测基因组完整性。其中,“通用”梯度提升模型具有良好的泛化能力,适用于GenBank或RefSeq中代表性不足的生物体(大致相当于在目、纲或门水平上为新物种)。而“特定”神经网络模型在预测与参考训练集相近物种的完整性时更为准确(大致相当于已知物种、属或科中的生物体)。CheckM2通过计算余弦相似度自动确定适用于每个输入基因组的完整性模型,但用户也可以强制使用特定的完整性模型,或者获取两种模型的预测输出。至于污染情况,CheckM2只有一种基于梯度提升的模型,该模型不受不同版本分类学物种注释的影响,适用于所有情况。

安装

mamba env create -f checkm2.yaml
mamba activate checkm2

checkm2.yaml文件如下

names: checkm2
channels:
  - conda-forge
  - bioconda
  - defaults
dependencies:
  - checkm2=1.0.1

下载数据库

官方下载链接

https://zenodo.org/api/files/fd3bc532-cd84-4907-b078-2e05a1e46803/checkm2_database.tar.gz

或者从我们的网盘中下载

链接:https://pan.quark.cn/s/e714d2d9d7f2
提取码:u2R1

解压

tar -xf checkm2*z

使用

checkm2 predict \
    --threads 16 \
    --input ./Bin/ \
    --output-directory ./Bin_quality/ \
    --database_path ./checkm2/uniref100.KO.1.dmnd
  • --input 输入目录,包含bin.fa或bin.fna等文件
Bin.1.fa
Bin.2.fa
Bin.3.fa
Bin.4.fa
Bin.5.fa
Bin.6.fa
...
  • --output-directory 输出文件目录
  • --database_path 数据库文件
  • --threads 所使用的线程数

输出结果

  • diamond_output/
  • protein_files/
  • checkm2.log
  • quality_report.tsv

可以根据quality_report.tsv文件中的Completeness>75和Contamination<10挑选Bin

grep 'Bin' Bin_quality/quality_report.tsv | \
awk '{if($2>75 && $3<10) print $1}' > Bin_quality/checkm2_pick.txt

NameCompletenessContaminationCompleteness_Model_UsedTranslation_Table_UsedCoding_DensityContig_N50Average_Gene_LengthGenome_SizeGC_ContentTotal_Coding_SequencesAdditional_Notes
Bin.3164.524.61Gradient Boost (General Model)110.8814705287.052094518187720.631862None
Bin.31087.922.31Neural Network (Specific Model)110.84119758357.399481924568440.511930None
Bin.31122.070.01Neural Network (Specific Model)110.85216495304.85945955944760.42555None
Bin.31270.10.93Neural Network (Specific Model)110.8684467273.762299915927660.381687None
Bin.3135.450.02Neural Network (Specific Model)110.92562916244.93877552321560.41294None
Bin.31491.290.5Gradient Boost (General Model)110.95414158348.068849712997130.491191None

Reference

https://github.com/chklovski/CheckM2
https://pubmed.ncbi.nlm.nih.gov/37500759/

承接宏基因组、扩增子全部分析内容
在这里插入图片描述

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564689.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WSL安装-问题解决

WslRegisterDistribution failed with error: 0x8004032d WslRegisterDistribution failed with error: 0x80080005 Error: 0x80080005 ??????? 解决&#xff1a; 1、 winr输入&#xff1a;optionalfeatures.exe 2、打开这两项

Navicat 干货 | 掌握 PostgreSQL 规则语法

PostgreSQL 规则提供了一种强大的机制&#xff0c;控制查询执行并在数据库内部实施数据操作。理解规则的语法和用法对于有效利用其功能至关重要。在上周的文章中&#xff0c;我们探讨了 PostgreSQL 规则的工作原理及其与触发器的区别。今天的文章将使用免费的 “dvdrental”示例…

​Game Maker 0.10:让创作、协作和游戏变得更简单

继去年 12 月成功发布 Game Maker 0.9 之后&#xff0c;我们又隆重推出 Game Maker 0.10。在 0.9 更新的主要增强功能基础上&#xff0c;该版本为创作者实现其愿景提供了更多改进和工具。 为此&#xff0c;The Sandbox 还正式启动了全球范围的创作者训练营&#xff0c;以帮助我…

初学python记录:力扣377. 组合总和 Ⅳ

题目&#xff1a; 给你一个由 不同 整数组成的数组 nums &#xff0c;和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。 题目数据保证答案符合 32 位整数范围。 提示&#xff1a; 1 < nums.length < 2001 < nums[i] < 1000nu…

双周总结#008 - AIGC

本周参与了公司同事对 AIGC 的分享会&#xff0c;分享了 AIGC 在实际项目中的实践经验&#xff0c;以及如何进行 AIGC 的落地。内容分几项内容&#xff1a; 什么是 AIGCAIGC 能做什么AIGC 工具 以年终总结为例&#xff0c;分享了哪些过程应用了 AIGC&#xff0c;以及 AIGC 落地…

一款pdf工具

下载链接&#xff1a;点击跳转&#xff1b; 它是一个installer&#xff0c;下好它之后&#xff0c;把网断掉&#xff0c;然后双击它&#xff0c;他会默认安装在C盘&#xff0c;安装时&#xff0c;浏览器可能会有一个弹窗&#xff0c;直接关掉并进入任务管理器杀掉所有smallerp…

go语言实现心跳机制样例

1、服务端代码&#xff1a; package mainimport ("fmt""net" )func handleClient(conn net.Conn) {defer conn.Close()fmt.Println("Client connected:", conn.RemoteAddr())// 读取客户端的数据buffer : make([]byte, 1024)for {n, err : conn…

如果备份了oradata文件,该如何还原Oracle数据呢?

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一波电子书籍资料&#xff0c;包含《Effective Java中文版 第2版》《深入JAVA虚拟机》&#xff0c;《重构改善既有代码设计》&#xff0c;《MySQL高性能-第3版》&…

C语言结构体,枚举,联合

系列文章目录 第一章 C语言基础知识 第二章 C语言控制语句 第三章 C语言函数详解 第四章 C语言数组详解 第五章 C语言操作符详解 第六章 C语言指针详解 第七章 C语言结构体详解 第八章 详解数据在内存中的存储 第九章 C语言指针进阶 文章目录 1. 结构体 1.1 声明结构…

URL解析

目录 URIURLURL语法相对URLURL中的转义 现在与未来PURL 在 URL出现之前&#xff0c;人们如果想访问网络中的资源&#xff0c;就需要使用不同的 应用程序&#xff0c;如共享文件需要使用 FTP程序&#xff0c;想要发送邮件必须使用 邮件程序&#xff0c;想要看新闻那只能使用…

华为认证云计算前景如何

互联网/移动互联网经历了高速发展的二十年&#xff0c;我们有幸一起见证了华为、阿里、腾讯、百度、字节跳动、京东、滴滴、拼多多等互联网公司的崛起&#xff0c;让普通技术人实现逆袭拿到高薪&#xff0c;也让小镇做题家们有了阶层跨越的机会。 但机会都是留给有准备的人&…

2024年内外贸一体化融合发展(长沙)交易会

2024年内外贸一体化融合发展&#xff08;长沙&#xff09;交易会 一、总体思路 充分发挥湖南作为全国内外贸一体化试点地区作用&#xff0c;坚持“政府主导、市场驱动、企业为主”的原则&#xff0c;以“助力双循环&#xff0c;拓展新市场&#xff0c;促进新消费”为主题&…

AI预测体彩排列3第2套算法实战化测试第1弹2024年4月22日第1次测试

从今天开始&#xff0c;开始新一轮的测试&#xff0c;本轮测试&#xff0c;以6码为基础&#xff0c;同步测试杀号情况&#xff0c;争取杀至4-5码。经过计算&#xff0c;假如5码命中&#xff0c;即每期125注&#xff0c;投入250元&#xff0c;十期共计2500元&#xff0c;则命中率…

OpenFeign远程调用

一、OpenFeign替代RestTemplate 1、需要引入的依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId><version>4.1.1</version> </dependency> 在引入依…

YMP实现Oracle迁移到YashanDB

迁移需求 ip地址 数据库信息 操作系统信息 源库 192.168.3.132 实例名topdh 用户密码TOPICIS/oracle 端口1521 Centos7.9 x86_64 目标库 192.168.3.175 实例名yasdb 用户密码topicist/opicis 端口1688 Centos7.9 x86_64 迁移前准备 YMP工具获取 根据实际需求向厂…

ArrayList与顺序表(1)

前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; hellohello~&#xff0c;大家好&#x1f495;&#x1f495;&#xff0c;这里是E绵绵呀✋✋ &#xff0c;如果觉得这篇文章还不错的话还请点赞❤️❤️收藏&#x1f49e; &#x1f49e; 关注&#x1f4a5;&#x…

GEE24:合肥市1986-2024年年均NDVI变化分析

代码如下&#xff1a; var roi ee.FeatureCollection("users/yipeizhao736/HefeiProvince"); Map.centerObject(roi); Map.addLayer(roi,{color:grey},roi); // Applies scaling factors. function applyScaleFactors(image) {var opticalBands image.select(SR_B…

如何使用渐变块创建自定义聊天机器人

如何使用渐变块创建自定义聊天机器人 文章目录 如何使用渐变块创建自定义聊天机器人一、介绍二、参考示例1、一个简单的聊天机器人演示2、将流式传输添加到您的聊天机器人3、喜欢/不喜欢聊天消息4、添加 Markdown、图像、音频或视频 一、介绍 **重要提示&#xff1a;**如果您刚…

FloodFill算法简介(用BFS、DFS算法解决)

FloodFill算法中文名&#xff1a;洪水灌溉 FloodFill通常是这样一类问题&#xff0c;如下图&#xff1a; 负数表示凹陷的土地&#xff0c;正数表示凸起的土地&#xff0c;发洪水/下雨会淹没凹陷的地方 通常会问这几种问题&#xff1a; 1.被淹没的区域有几块 2.被淹没的最大…