FASTQ 文件压缩格式有哪些?

FASTQ 文件压缩格式 .gz .bz2 .xz .rfq .rfq.xz

FASTQ 文件是用于存储测序数据的一种格式,它包含了大量的文本信息,因此通常占用大量的存储空间。为了有效地处理和传输这些数据,通常需要对 FASTQ 文件进行压缩来节省存储空间及传输带宽。以下是一些常用的 FASTQ 文件压缩格式及方法。

alt

扫码关注微信公众号【生信F3】获取文章完整信息,分享生物信息学最新知识。 ShengXinF3_QRcode

压缩格式介绍

压缩格式说明
*.gzgzip 程序压缩的文件
*.bz2bzip2 程序压缩的文件
*.xzxz 程序压缩的文件
*.rfqrepaq 程序压缩的文件

压缩指令通常仅能针对一个文件来压缩与解压缩,打包软件 tar 可以将很多文件或目录打包成为一个文件,后来的 GNU 计划将整个 tar 与压缩的功能结合在了一起,为使用者提供了更方便且更强大的压缩与打包功能!

打包压缩格式说明
*.tartar 程序打包的文件,并未压缩
*.tar.gztar 程序打包的文件,并且经过 gzip 的压缩
*.tar.xztar 程序打包的文件,并且经过 xz 的压缩
*.tar.bz2tar 程序打包的文件,并且经过 bzip2 的压缩

压缩指令

压缩格式压缩指令
*.gzgzip test.fq不保留源文件 test.fq,并生成 test.fq.gz)
*.gzgzip -c test.fq > test.fq.gz保留源文件
*.bz2bzip2 test.fq不保留源文件 test.fq,并生成 test.fq.bz2)
*.bz2bzip2 -c test.fq > test.fq.bz2保留源文件
*.xzxz test.fq不保留源文件 test.fq,并生成 test.fq.xz)
*.xzxz -c test.fq > test.fq.xz保留源文件
*.rfqrepaq -c -i test.fq -o test.fq.rfq保留源文件
*.rfq.xzrepaq -c -i test.fq -o test.fq.rfq.xz保留源文件

参数说明:

-c:将压缩的数据输出到屏幕上(gz/bz2/xz),可透过数据流重导向 > 来处理。

不同格式压缩比与所需运行时间

以大约 5.66 GB 大小的 test.fq 文件为例(仅供参考,不同运行平台的结果可能略有差异)。

压缩格式压缩比(所占源文件的比例)运行时间
*.gz18.0%(节省 82.0% 存储空间)8m10s
*.bz213.7%(节省 86.3% 存储空间)7m15s
*.xz11.4%(节省 88.6% 存储空间)48m25s
*.rfq21.3%(节省 78.7% 存储空间)58s
*.rfq.xz8.20%(节省 91.8% 存储空间)8m25s

以此来看,

bz2 略优于 gz,与 gz 相比,不仅所需运行时间较少,还取得了更好的压缩效果。

xz压缩效果最佳,但所需时间成本最高,大约为 gz 压缩的 6 倍。考虑到其与 gz 和 bz 压缩比的差距仅有约 6.6% 和 2.3%,其性价比并不理想。

rfq运行时间最少,约为 gz 压缩的十分之一,但压缩效果相对最差。

rfq.gz综合效益最高,在所需运行时间相对较少的条件下,取得了最好的压缩效果。与 gz 压缩相比,其耗费的运行时间大致相同,但却节省了超过一半的存储空间。

打包压缩指令

tar 可以将多个目录或文件打包成一个大文件,同时还可以透过 gzip/bzip2/xz 的支持,将该文件同时进行压缩。

tar [-z|-j|-J] [cv] [-f] 待建立的新文档名 要被压缩的文件或目录名称

例如:tar -zcvf test.fq.tar.gz test.fq

参数说明:

-z:透过 gzip 的支持进行压缩/解压缩,此时压缩文档名应为 *.tar.gz;

-j:透过 bzip2 的支持进行压缩/解压缩,此时压缩文档名应为 *.tar.bz2;

-J:透过 xz 的支持进行压缩/解压缩,此时压缩文档名应为 *.tar.xz;

-c:create,建立打包文件,搭配 -v 来查看过程中被打包的文件或目录名称;

-v:在压缩/解压缩的过程中,将要被打包的文件或目录名显示出来;

-f:后面要立刻接等待建立的新压缩文档名,再后面为要被压缩的一个或多个文件或目录名称。

值得注意的是,根据 tar 打包出的文件是否压缩有不同的称呼,如果仅是打包 tar -cvf test.fq.tar,这个文件就被称为 tarfile。如果在打包后进行了压缩,类似 test.fq.tar.gz 的文件就会被称为 tarball,可以想象为将一整包物品狠狠的压缩成一团以减少体积 ^_^!

解压指令

压缩格式解压指令
*.gzgzip -d test.fq.gz不保留压缩文件,生成 test.fq)
*.gzgzip -dc test.fq.gz > test.fq保留压缩文件
*.bz2bzip2 -d test.fq.gz不保留压缩文件,生成 test.fq)
*.bz2bzip2 -dc test.fq.gz > test.fq保留压缩文件
*.xzxz -d test.fq.gz不保留压缩文件,生成 test.fq)
*.xzxz -dc test.fq.gz > test.fq保留压缩文件
*.rfqrepaq -d -i in.rfq -o out.fq保留压缩文件
*.rfq.xzrepaq -d -i in.rfq.xz -o out.fq保留压缩文件

打包解压指令

tar [-z|-j|-J] [xv] [-f] 既有的tar文档名 [-C 欲放置解压缩文档的目录]

例如:tar -zxvf test.fq.tar.gz 将解压 test.fq.tar.gz 文件到当前目录,如果想要解压缩到家目录,加上 -C /home 即可。

压缩软件安装

bzip2 是一个非常有名的压缩工具,存在于大多数主流 Linux 发行版中,可以在不同发行版上用合适的命令安装。

sudo apt install bzip2 # [On Debian/Ubuntu] 
sudo yum install bzip2 # [On CentOS/RHEL]
sudo dnf install bzip2 # [On Fedora 22+]

xz 的安装参考官网:https://tukaani.org/xz/

repaq 的安装和使用参考:https://github.com/OpenGene/repaq,值得注意的是生成 .repaq.xz 格式需要先安装 xz 软件作为依赖哦!

扫码关注微信公众号【生信F3】获取文章完整信息,分享生物信息学最新知识。 ShengXinF3_QRcode

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/323038.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年软件测试五大趋势预测,软件测试服务商价值凸显

当今软件的高速发展对软件质量提出了更高的要求,而软件测试作为保证软件质量的关键环节,自然也成为业界关注的焦点。进入2024年,回顾中国软件测试的发展历程,我们不难发现中国市场日趋成熟,软件测试行业蓬勃发展&#…

vue3中,vue-echarts基本使用(柱状图、饼图、折线图)

注意:vue-echarts在使用前要先安装echarts,不要只安装vue-echarts这一个 echarts官网地址:Apache EChartsApache ECharts,一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互&#xf…

如何设计一个低代码平台?

导语:如果企业想自主可控,从零开发一个低代码平台,如何技术选型?这篇文章或许会对你有所帮助。 一、前言 低代码平台至少包含表单建模、流程设计、报表可视化、代码生成器、系统管理、前端UI等组件,我们没必要重新造轮…

pve虚拟机的改名和修改ID

PVE的虚拟机名字在web界面是无法修改id和名字的。要注意id和名字不能重。 在使用备份时就发现虚拟机是以虚拟机id作为维一标识,如果有多台pve节点,但共用同一个nfs目录备份或使用同一个pbs进行备份时就必须保障id的唯一性。这时可以使用这个方法来进行补…

在线培训系统开发

随着远程学习和数字化教育的兴起,在线培训系统成为了教育领域的重要组成部分。在这篇文章中,我们将探讨在线培训系统开发的一些关键技术和概念。 前端开发 在在线培训系统中,前端开发起着至关重要的作用。使用现代的前端框架如React、Vue或…

node-red实现ModBus-RTU 通信协议(RS485信号输出)的数据交互

node-red实现485型 - 温湿度变表数据转换 一、介绍二、 通讯协议2.1 通讯基本参数2.2 数据帧格式定义2.3 寄存器地址2.4 通讯协议示例以及解释 三、 node-red实现数据交互3.1 node-red读取数据3.2 node-red写回数据 本文参考《86 壳液晶温湿度变送器使用说明书(485 …

jetlinks 规则编排中的函数节点使用 js 脚本格式化输出当前系统时间的坑

网上搜到的都是类似如下这种: // 获取当前时间 var date new Date();// 格式化输出当前时间 var year date.getFullYear(); var month date.getMonth(); var day date.getDate(); var hour date.getHours(); var minute date.getMinutes(); var second date.…

定制聚四氟乙烯反应容器可配套温度计套管和冷凝管

是谁遇到氟化氢就头疼,是谁看着玻璃装置被强碱性试剂折腾的惨不忍睹。 特氟龙塑料材质可以帮您解决问题,聚四氟乙烯材质是其中的一种材质,耐温250℃,耐受强酸强碱和各种有机溶剂,加工灵活,来样或者图纸或者…

线性代数基础【4】线性方程组

第四章 线性方程组 一、线性方程组的基本概念与表达形式 二、线性方程组解的基本定理 定理1 设A为mXn矩阵,则 (1)齐次线性方程组AX0 只有零解的充分必要条件是r(A)n; (2)齐次线性方程组AX0 有非零解(或有无数个解)的充分必要条件是r(A)<n 推论1 设A为n阶矩阵,则…

Matlab论文插图绘制模板第135期—隐函数曲面图(fimplicit3)

在之前的文章中,分享了Matlab隐函数折线图的绘制模板: 进一步,再来分享一下隐函数曲面图。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。有需要的朋友可以关…

html5+css3+bootstrap+js 新闻网页

新闻网页练习打卡! 一、首页 二、社会 三、财经 四、视频展示 简易新闻网站(期末作业)

使用WAF防御网络上的隐蔽威胁之SSRF攻击

服务器端请求伪造(SSRF)攻击是一种常见的网络安全威胁,它允许攻击者诱使服务器执行恶意请求。与跨站请求伪造(CSRF)相比,SSRF攻击针对的是服务器而不是用户。了解SSRF攻击的工作原理、如何防御它&#xff0…

在众多的材质中选择灰口铸铁铸造划线平台、铸铁平台等的原因——河北北重

使用灰口铸铁制作铸铁平台和划线平台的主要原因有以下几点: 强度高:灰口铸铁具有较高的强度和硬度,能够承受较大的载荷和冲击力。这使得灰口铸铁非常适合制作需要承受重压和磨损的平台和设备。 耐磨性好:灰口铸铁具有较高的耐磨性…

C++结合OpenCV:图像的加法运算

一、图像运算 针对图像的加法运算、位运算都是比较基础的运算。但是,很多复杂的图像处理功能正是借助这些基础的运算来完成的。所以,牢固掌握基础操作,对于更好地实现图像处理是非常有帮助的。本章简单介绍了加法运算、位运算,并…

【java八股文】之Redis基础篇

【java八股文】之JVM基础篇-CSDN博客 【java八股文】之MYSQL基础篇-CSDN博客 【java八股文】之Redis基础篇-CSDN博客 【java八股文】之Spring系列篇-CSDN博客 【java八股文】之分布式系列篇-CSDN博客 【java八股文】之多线程篇-CSDN博客 【java八股文】之JVM基础篇-CSDN博…

OpenHarmony—Docker编译环境

Docker环境介绍 OpenHarmony为开发者提供了两种Docker环境,以帮助开发者快速完成复杂的开发环境准备工作。两种Docker环境及适用场景如下: 独立Docker环境:适用于直接基于Ubuntu、Windows操作系统平台进行版本编译的场景。基于HPM的Docker环…

视频和音频怎么合并在一起?分享3个轻松合并的实用技巧

视频和音频怎么合并在一起?在数字媒体时代,视频和音频是制作多媒体内容不可或缺的元素。有时我们需要将视频和音频合并在一起,以创建更丰富、更有趣的多媒体内容。那么,如何将视频和音频合并在一起呢?下面将介绍一些实…

【C++】__declspec含义

目录 一、__declspec(dllexport)如果这篇文章对你有所帮助,渴望获得你的一个点赞! 一、__declspec(dllexport) __declspec(dllexport) 是 Microsoft Visual C 编译器提供的一个扩展,用于指示一个函数或变量在 DLL(动态链接库&…

scrapy爬虫实战

scrapy爬虫实战 Scrapy 简介主要特性示例代码 安装scrapy,并创建项目运行单个脚本代码示例配置itemsetting 爬虫脚本 代码解析xpath基本语法:路径表达式示例:通配符和多路径:函数:示例: 批量运行附录1&…

自动化测试 - Web自动化测试原理

目前市面上有很多Web UI自动化测试框架,比如WatiN, Selinimu,WebDriver,还有VS2010中的Coded UI等等. 这些框架都可以操作Web中的控件,模拟用户输入,点击等操作,实现Web自动化测试。其实这些工具的原理都一样&#xff…