sambamba — samtools 的高效平替工具

sambamba — samtools 的高效平替工具

sambamba 是一个 BAM 文件处理工具。

sambamba
sambamba

它使用了 D 语言的多线程和异步 IO 特性,实现了高效的并行化处理。sambamba 可以在多核 CPU 上同时运行多个任务,利用硬盘和内存的带宽,提高了处理速度。sambamba 还使用了一些优化算法和数据结构,比如快速排序,哈希表,位图等,减少了内存占用和磁盘读写。

sambamba 支持 samtools 和 picard 的大部分功能,而且速度更快,内存占用更少,操作更简单。sambamba 不仅可以对 BAM 文件进行排序、索引、过滤、统计、标记重复等常见的操作,还可以进行一些特殊的功能,比如区域过滤,标记重复序列,检测结构变异等。sambamba 还支持多种输入和输出格式,比如 CRAM、SAM、BED、VCF 等,让我们可以灵活地处理各种数据类型。

此外,sambamba 还弥补了 samtools 无法对超过 512Mb 长度的染色体建立 bam 文件索引的缺陷,例如:

$ samtools index -b test.sort.bam test.sort.bam.bai
[E::hts_idx_check_range] Region 536870922..536871063 cannot be stored in a bai index. Try using a csi index[E::sam_index] Read 'E00548:269:HV7NVCCXY:3:2117:26494:57301' with ref_name='chr1H', ref_length=558535432, flags=81, pos=536870923 cannot be indexed
samtools index: failed to create index for "Atlas.sort.bam": Numerical result out of range

错误信息表明区域 536870922..536871063 无法存储在 .bai 索引中,并建议尝试使用 .csi 索引。但是 GATK 等一些生信工具不支持 .csi 格式的索引文件。sambamba 能够给最大参考序列长度的 bam 文件构建 bai 索引。

https://lomereiter.github.io/sambamba/docs/sambamba-markdup.html

安装方式

使用 conda 安装

conda install -c bioconda sambamba
/opt/miniconda3/bin/sambamba

安装日期:23/12/25

安装版本:1.0.0

源码安装

从 https://github.com/biod/sambamba/releases/tag/v1.0.1 下载安装包。

wget -c https://github.com/biod/sambamba/archive/refs/tags/v1.0.1.tar.gz
tar -zxvf sambamba-1.0.1.tar.gz
cd sambamba-1.0.1
make

这个时候可能会报错

which: no ldmd2 in (/opt/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin)
python3 ./gen_ldc_version_info.py  > utils/ldc_version_info_.d
make: *** [utils/ldc_version_info_.d] Error 1

系统无法在给定的路径中找到 ldmd2 命令。ldmd2 是 D 语言编译器 LDC 的一部分。这个错误通常表明 LDC 没有被正确安装,或者其安装位置没有被加入到系统的环境变量 PATH 中。

LDC 编译器的 Github 存储库提供二进制版本。Sambamba 当前首选的版本是 LDC - LLVM D 编译器(>= 1.6.1)。从 https://github.com/ldc-developers/ldc/releases/ 安装 LDC:

wget https://github.com/ldc-developers/ldc/releases/download/v1.35.0/ldc2-1.6.1-linux-x86_64.tar.xz
tar xvJf ldc2-1.35.0-linux-x86_64.tar.xz
export PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/bin:$PATH
export LIBRARY_PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/lib

再安装 sambamba

make
cd bin
echo "export PATH=`pwd`:$PATH" >>~/.bashrc
source ~/.bashrc

或者直接使用预编译版本

wget https://github.com/biod/sambamba/releases/download/v1.0.1/sambamba-1.0.1-linux-amd64-static.gz
gzip -d sambamba-1.0.1-linux-amd64-static.gz
chmod 755 sambamba-1.0.1-linux-amd64-static
mkdir sambamba-1.0.1
mv sambamba-1.0.1-linux-amd64-static sambamba-1.0.1/
ln -s /app/sambamba-1.0.1/sambamba-1.0.1-linux-amd64-static /usr/local/bin/sambamba

使用方式

安装完成后直接运行看一下 sambamba 功能:

$ /opt/miniconda3/bin/sambamba
                                                                                                                                                    
sambamba 1.0.0                                                                                                                                      
 by Artem Tarasov and Pjotr Prins (C) 2012-2022                                                                                                     
    LDC 1.28.1 / DMD v2.098.1 / LLVM12.0.0 / bootstrap LDC - the LLVM D compiler (1.28.1)                                                           
                                                                                                                                                    
                                                                                                                                                    
Usage: sambamba [command] [args...]                                                                                                                 
                                                                                                                                                    
  Available commands:                                                                                                                               
                                                                                                                                                    
    view        view contents and convert from one format                                                                                           
                to another (SAM/BAM/JSON/UNPACK)                                                                                                    
    index       build index (BAI)                                                                                                                   
    merge       merge files (BAM)                                                                                                                   
    sort        sort file (BAM)
    slice       slice file (BAM using BED)
    markdup     mark or remove duplicates (BAM)
    subsample   subsample (BAM)
    flagstat    output statistics (BAM)
    depth       output statistics (BAM)
    validate    simple validator (BAM)

  No longer recommended:

    mpileup     parallel execution of samtools (BAM)

To get help on a particular command, call it without args.

Global options

    -q          quiet mode (do not show banner)

For bug reports and feature requests see

       https://github.com/biod/

sambamba 的主要功能如下:

  • sort: 对 SAM/BAM 文件进行排序,可以按照位置或者名称排序,支持多线程和压缩。
  • index: 对 BAM 文件建立索引,可以加速后续的查看和切片操作。
  • view: 查看 SAM/BAM 文件的内容,可以指定输出格式和过滤条件,也可以查看参考序列的信息。
  • merge: 合并多个 BAM 文件,可以自动处理 header 和压缩级别。
  • flagstat: 统计 BAM 文件中的 reads 的标志位,可以显示 QC 通过和失败的 reads 数目,以及各种配对情况和重复情况。
  • markdup: 标记或者移除 BAM 文件中的重复 reads,可以设置临时文件目录和压缩级别,使用 Picard 算法。
  • slice: 提取 BAM 文件中的某个区域,可以指定输出格式和过滤条件。
  • subsample: 对 BAM 文件进行子采样。子采样是指从原始数据中随机选择一部分数据,以便在保留原始数据特征的同时减少数据量,可以提高计算效率。
  • depth: 输出统计信息(BAM)
  • validate: 简单验证器(BAM)
  • mpileup 变异检测(不推荐)

flagstat — 统计

从 read flags 中提取和输出统计信息

统计信息第一行是过质量控制(QC-passed)和未通过质量控制(QC-failed)的 read 数量,然后分别对通过和未通过的 read 进行统计

index — 建索引

sambamba index test.sort.bam test.sort.bam.bai

depth — 覆盖度统计

用于计算 BAM 文件中指定区域覆盖深度,这个工具在玩法上显著优于 samtools。

 sambamba depth region|window|base [options] input.bam [input2.bam [...]]

优势在于该工具有三种模式:baseregionwindow,每种模式的名称表示以其作为单位输出统计数据:

公共选项

  • -F, --filter=FILTER: 设置对比对的自定义过滤条件。默认值是 'mapping_quality > 0 and not duplicate and not failed_quality_control',这意味着只计算那些映射质量大于0、非重复、质量控制通过的read
  • -o: 指定输出文件名,默认输出到标准输出
  • -t: 设定线程
  • -c, --min-coverage=MINCOVERAGE: 设置输出的最小平均覆盖深度,默认为0(region/window模式)或1(base模式)。只有平均覆盖度达到这个阈值的区域才会被报告
  • -C, --max-coverage=MAXCOVERAGE: 设置输出的最大平均覆盖深度。这有助于识别和排除异常高覆盖的区域
  • -q, --min-base-quality=QUAL: 不计算低于此质量值的碱基。这有助于提高覆盖深度计算的准确性
  • --combined: 输出所有样本的组合统计。通常用于比较多个样本的覆盖深度
  • -a, --annotate: 添加额外的列来标记是否满足给定的标准,而不是跳过不满足条件的记录
  • -m, --fix-mate-overlaps: 检测配对读取的重叠部分,并在每个碱基的基础上处理它们;这有助于更准确地计算覆盖度

base 模式特定选项

  • -L, --regions=FILENAME|REGION

    (可选)指定感兴趣区域的列表或单个区域的形式(例如 chr:beg-end)。通常用于分析特定基因或区域的覆盖深度。

region 模式特定选项

  • -L, --regions=FILENAME|REGION

    (必要)与上面的 base 模式选项相同,但必需。

  • -T, --cov-threshold=COVTHRESHOLD

    提供一个或多个覆盖度阈值,对于每个阈值,会添加一个额外的列,显示区域中覆盖度超过此值的碱基的百分比。

这个模式是最有用的,结合它我们可以输出染色体上的碱基覆盖深度及占比。

window 模式特定选项

  • -w, --window-size=WINDOWSIZE: 窗口的宽度,以碱基对(bp)为单位(必需);这定义了计算覆盖度的窗口大小
  • --overlap=OVERLAP: 连续窗口之间的重叠,以碱基对(bp)为单位(默认是0);这可以帮助平滑覆盖度的变化
  • -T, --cov-threshold=COVTHRESHOLD: 与 'region' 子命令中的含义相同,表示覆盖度的阈值

结果会生成一个文本文件,列出了每个染色体上每个碱基位置的覆盖度。

slice 拆分 bam 文件

sambamba slice input.bam chr1H:10000-20000 > output.bam

markdup — 去重

sambamba markdup OPTIONS <input.bam> <output.bam>
sambamba markdup -t 4 --tmpdir=./tmp/ ./test.bam  ./test.markdup.bam 2>>log/sambamba_markdup_log.txt

-t:线程数

-r:表示删除重复,默认仅标记不删除

--tmpdir=TMPDIR:指定临时文件的目录

--overflow-list-size=OVERFLOW_LIST_SIZE:增加大小会减少创建的临时文件的数量。

如果出现 Too many open files 报错,需要通过使用 ulimit -n 8000 或添加 --overflow-list-size=600000 来解决

扫码关注微信公众号【生信F3】获取文章完整内容,分享生物信息学最新知识。 ShengXinF3_QRcode

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/405005.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

多模态MLLM都是怎么实现的(1)

好多读者私信说想了解一下多模态的内容,我这人最大的优点就是听劝... 好,那么好 , 今天开始陆续写点多模态内容,没想好是不是要写个专栏(因为我之前挖的坑太多...),然而还是开了,今天先写点基础做个seed 有想了解一下多模态扫盲的读者,可以自己先看看这篇论文 2311.131…

代码随想录算法训练营day24|理论基础、77. 组合

理论基础 题目链接/文章讲解&#xff1a;代码随想录 视频讲解&#xff1a;带你学透回溯算法&#xff08;理论篇&#xff09;| 回溯法精讲&#xff01;_哔哩哔哩_bilibili 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归…

原型设计工具Axure RP

Axure RP是一款专业的快速原型设计工具。Axure&#xff08;发音&#xff1a;Ack-sure&#xff09;&#xff0c;代表美国Axure公司&#xff1b;RP则是Rapid Prototyping&#xff08;快速原型&#xff09;的缩写。 下载链接&#xff1a;https://www.axure.com/ 下载 可以免费试用…

Javascript数字精度丢失的问题

一、问题 0.1 0.2 0.3 // false 二、浮点数 “浮点数”是一种表示数字的标准&#xff0c;整数也可以用浮点数的格式来存储 我们也可以理解成&#xff0c;浮点数就是小数 在JavaScript中&#xff0c;现在主流的数值类型是Number&#xff0c;而Number采用的是IEEE754规范中…

springboot集成mqtt

文章目录 前言一、MQTT是什么&#xff1f;二、继承步骤1.安装MQTT2.创建项目&#xff0c;引入依赖3. 对应步骤2的代码3 测试 总结mqtt 启动后访问地址 前言 随着物联网的火热,MQTT的应用逐渐增多 曾经也有幸使用过mqtt,今天正好总结下MQTT的使用; 一、MQTT是什么&#xff1f;…

node 之 初步认识

思考&#xff1a;为什么JavaScript可以在浏览器中被执行 代执行的js代码——JavaScript解析引擎 不同的浏览器使用不同的JavaScript解析引擎 Chrome 浏览器 》 V8 Firefox浏览器 》OdinMonkey(奥丁猴&#xff09; Safri浏览器 》JSCore IE浏览器 》Chakra(查克拉&#xff09; e…

[VulnHub靶机渗透] HA: Narak

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

ubuntu20.04 安装 matlab R2023b

ubuntu20.04 使用matlab R2023b 起因步骤问题问题1问题2问题3 起因 闲着没事&#xff0c;想在ubuntu上安装matlab。 步骤 这个博客写得很好&#xff0c;我就不赘述了&#xff1a;参考博客 。但有点不一样&#xff1a;我现在matlab官网上下载的linux版本不是iso镜像文件&…

计算机设计大赛 深度学习二维码识别

文章目录 0 前言2 二维码基础概念2.1 二维码介绍2.2 QRCode2.3 QRCode 特点 3 机器视觉二维码识别技术3.1 二维码的识别流程3.2 二维码定位3.3 常用的扫描方法 4 深度学习二维码识别4.1 部分关键代码 5 测试结果6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天…

第3.5章:StarRocks数据导入——Broker Load

注&#xff1a;本篇文章阐述的是StarRocks-3.2版本的Broker Load导入机制 一、概述 Broker Load导入方式支持从HDFS类的外部存储系统&#xff08;例如&#xff1a;HDFS、阿里OSS、腾讯COS、华为云OBS等&#xff09;&#xff0c;支持Parquet、ORC、CSV、及 JSON 四种文件格式&a…

一个非常强大的可视化.NET开源任务调度框架

在项目开发中&#xff0c;任务调度的场景非常多&#xff0c;比如每天定时发送邮件、延迟1小时处理、长时间任务&#xff08;数据导入、图像处理或文件转换&#xff09;等一些业务场景&#xff0c;我们日常做法可能会编写一个后台服务项目解决这些场景。 今天给大家推荐一个开源…

Spring6学习技术|Junit

学习材料 尚硅谷Spring零基础入门到进阶&#xff0c;一套搞定spring6全套视频教程&#xff08;源码级讲解&#xff09; Junit 背景 背景就是每次Test都要重复创建容器&#xff0c;获取对象。就是ApplicationContext和getBean两个语句。通过Spring整合Junit&#xff0c;可以…

Linux(ACT)权限管理

文章目录 一、 ATC简介二、 案例1. 添加测试目录、用户、组&#xff0c;并将用户添加到组2. 修改目录的所有者和所属组3. 设定权限4. 为临时用户分配权限5. 验证acl权限 6. 控制组的acl权限 一、 ATC简介 ACL&#xff08;Access Control List&#xff0c;访问控制列表&#xf…

【JavaScript 语法】

JavaScript 语法 ■ JavaScript 是什么■ JavaScript 语法■ JS 注释■ JS 结束符■ JS 输入输出语句■ JS 代码块■ JS var和let 作用域■ JS var和let 全局变量■ JS const 常量/对象/数组■ JS 关键词■ JS 值■ JS 字面量 &#xff08;混合值&#xff09;■ JS 变量&#x…

C语言——实用调试技巧——第1篇——(第22篇)

坚持就是胜利 文章目录 一、什么是bug?二、调试是什么&#xff1f;有多重要&#xff1f;三、debug 和 release 的介绍&#xff1f;1、2、3、 四、windows环境调试介绍1、调试环境的准备2、学会快捷键F5 或者 Fn F5条件断点 Ctrl F5F9 或者 Fn F9F10 或者 Fn F10F11 或者 F…

文件操作IO

文件操作IO .认识文件树型结构组织 和 目录文件路径&#xff08;Path&#xff09;其他知识Java 中操作文件构造方法方法 创建文件删除文件创建目录重命名文件内容的读写 —— 数据流Reader/Writer(字符流)InputStream/OutputStreadm(字节流)scanner 例题1.扫描指定目录&#xf…

SpringMVC 学习(一)之 SpringMVC 介绍

目录 1 MVC 介绍 2 SpringMVC 介绍 2.1 SpringMVC 特点 2.2 SpringMVC 的核心组件 2.3 SpringMVC 执行流程 3 参考文档 1 MVC 介绍 MVC (Model View Controller) 是一种设计思想&#xff0c;它将应用程序分为三大组件&#xff1a;模型 (Model)、视图 (View)、控制器 (Con…

素数筛法详解:埃氏筛和欧拉筛

主要讲解怎么判断一个数字是否是素数&#xff1a; 埃式筛 学习埃氏筛之前&#xff0c;我们先看一下暴力筛法&#xff0c;即对每个数都用试除法判断其是不是质数&#xff1a; 暴力筛法&#xff1a; # include <stdio.h>int main() {int st[N]; // 初始化为0&#xff0…

rider 缺少iisexpress

File C:/Program Files (x86)/IIS Express/iisexpress.exe doesn’t exist iisexpress下载 64位系统只能安装64位&#xff0c;32位系统安装32位 安装完成之后就有了

MacBook的nginx出现13: Permission denied 的问题分析和解决办法

同样的项目代码&#xff0c;电脑从Windows更换到了MacBook&#xff0c;发现网站的样式都没有了&#xff0c;直接访问CSS文件 http://crm.ms-test.cc/toolstatic/css/bootstrap.min.css 发现无法访问。查看Nginx错误日志&#xff1a; 说明是nginx没有权限访问这个CSS文件&#…