生信软件14 - bcftools提取和注释VCF文件关键信息

bcftools可用于变异信息的描述性统计,计算,过滤和格式转换。

1. 显示VCF文件的头信息

bcftools view -h sample.vcf

##fileformat=VCFv4.2
##FILTER=<ID=PASS,Description="All filters passed">
##bcftoolsVersion=1.5+htslib-1.5
##bcftoolsCommand=mpileup -f /public/analysis/ucsc.hg19.fasta -Ou /public/analysis/result/sample.bam
##reference=file:///public/analysis/ucsc.hg19.fasta
##contig=<ID=chr1,length=249250621>
##contig=<ID=chr2,length=243199373>
##contig=<ID=chr3,length=198022430>
....

1. 构建VCF文件索引

# 对于分析依赖与vcf索引文件,进行以下操作生成.idx索引
bcftools index sample.vcf

bcftools index sample.vcf.gz

2. 压缩VCF为gz压缩文件

# 2线程输出.vcf.gz压缩文件
bcftools view sample.vcf -Oz -o sample.vcf.gz --threads 2 	

-Oz 表示输出格式为压缩文件gz格式;
-o 后边跟压缩文件名字;
–threads 2 表示2个线程并行压缩vcf文件

3. 压缩VCF为gz压缩文件

# 不压缩vcf
 bcftools sort sample.vcf -o sample.vcf.gz -O v

 bcftools sort sample.vcf -o sample.vcf.gz -O z

# -O 参数
# z: compressed VCF
#  v: uncompressed VCF

3. 提取VCF的等位基因和基因型信息

# 生成A/G的基因型
bcftools query -f '%CHROM %ID %POS %REF %ALT [ %TGT]\n' sample.vcf -o sample.extract.txt
%CHROM 染色体列
%ID 变异位点名称
%POS 变异位点位置
%REF 参考等位基因
%ALT 变异等位基因
%TGT 字符格式如A/G的基因型;%GT为0/1格式的基因型

A/G的基因型结果

# 生成0/1格式的基因型
bcftools query -f '%CHROM %ID %POS %REF %ALT [ %GT]\n' sample.vcf -o sample.extract.txt

0/1格式的基因型结果

4. 变异位点的统计

统计VCF文件的基本信息,比如突变位点的总数,不同类型突变位点的个数等。

# 统计命令
bcftools stats sample.vcf > sample.stas

# 安装plot-vcfstats 依赖库
# pip install matplotlib
# 生成pdf文件还需要pdf-latex, ubuntu使用下列命令安装
# sudo apt-get install texlive-full 

# 统计可视化,输出值statistics文件夹
plot-vcfstats sample.stas -p statistics

statistics信息

5. 替换染色体名称

在这里插入图片描述

# 输出.gz格式
bcftools annotate --rename-chrs chrom_name.txt old.vcf -Oz -o new.vcf.gz --threads 4

6. 使用数据库注释VCF文件

# 注释指定字段
## INFO/TAG可以写TAG
## FORMAT/TAG可以写FMT/TAG

# 注释前需创建.vcf.gz文件索引, annoteate.vcf.gz 为注释压缩结果文件
bcftools index dbsnp.vcf.gz
bcftools annotate -a dbsnp.vcf.gz -c ID annoteate.vcf.gz
# gzip -d annoteate.vcf.gz

bcftools index 1000g.vcf.gz 
bcftools annotate -a 1000g.vcf.gz -c AF annoteate.vcf.gz
bcftools annotate -a 1000g.vcf.gz -c INFO/AF annoteate.vcf.gz

# 使用INFO列的所有字段
bcftools annotate -a 1000g.vcf.gz -c INFO annoteate.vcf.gz
# 使用INFO列除了指定TAG的所有字段
bcftools annotate -a 1000g.vcf.gz -c ^INFO/TAG annoteate.vcf.gz
# 重命名注释
bcftools annotate -a 1000g.vcf.gz -c 1000G_AF:=AF annoteate.vcf.gz
bcftools annotate -a 1000g.vcf.gz -c FMT/AD:=FMT/DV annoteate.vcf.gz

-c 指定使用注释文件中的列

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/499527.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vmware,linux,centos7,NAT模式下的网络配置

centos7的NAT网络配置 NAT模式说明虚拟机网络配置工具本机配置net8网络&#xff08;NAT的网域&#xff09;本机的IP配置(用于net8局域网内解析主机IP和域名对应关系使用)&#xff08;可选&#xff09;虚拟机内的网络配置虚拟机ping不通www.baidu.com的情况下虚拟机ping可以ping…

我劝你不要买29.99万的小米SU7

文 | AUTO芯球 作者 | 雷歌 我在想我是不是贱啊&#xff1f;&#xff01; 我昨晚兴奋得头晕脸热的&#xff0c;身边一众关注车的朋友&#xff0c;也感觉到了车圈过年的气氛。 原因就是小米SU7的价格公布了。 21.59万元起售价格出来以后&#xff0c;就好比新年0点一过的那个…

C++:sizeof关键字(7)

sizeof用于统计数据所占用内存的大小 用法&#xff1a;sizeof( 变量名称 / 变量) 直接上代码&#xff0c;可以在让大家直观的感受到sizeof关键字的用法 #include<iostream> using namespace std;// 语法&#xff1a; sizeof&#xff08;数据类型|变量名&#xff09;// 用…

PS从入门到精通视频各类教程整理全集,包含素材、作业等(2)

PS从入门到精通视频各类教程整理全集&#xff0c;包含素材、作业等 最新PS以及插件合集&#xff0c;可在我以往文章中找到 由于阿里云盘有分享次受限制和文件大小限制&#xff0c;今天先分享到这里&#xff0c;后续持续更新 初级教程素材 等文件 https://www.alipan.com/s/fC…

从0到1利用express搭建后端服务

目录 1 架构的选择2 环境搭建3 安装express4 创建启动文件5 express的核心功能6 加入日志记录功能7 日志记录的好处本节代码总结 不知不觉学习低代码已经进入第四个年头了&#xff0c;既然低代码很好&#xff0c;为什么突然又自己架构起后端了呢&#xff1f;我有一句话叫低代码…

C++——vector类及其模拟实现

前言&#xff1a;前边我们进行的string类的方法及其模拟实现的讲解。这篇文章将继续进行C的另一个常用类——vector。 一.什么是vector vector和string一样&#xff0c;隶属于C中STL标准模板库中的一个自定义数据类型&#xff0c;实际上就是线性表。两者之间有着很多相似&…

安装docker 并搭建出一颗爱心树

1、docker介绍 Docker 是⼀个开源的容器运⾏时软件&#xff08;容器运⾏时是负责运⾏容器的软件&#xff09;&#xff0c;基于 Go 语 ⾔编写&#xff0c;并遵从 Apache2.0 协议开源。 Docker可以让开发者打包⾃⼰的应⽤以及依赖到⼀个轻量的容器中&#xff0c;然后发布到任何…

Python 垃圾回收和弱引用(Weakref)

Python中的赋值语句是建立变量名与对象的引用关系&#xff0c;多个变量可以引用同一个对象&#xff0c;当对象的引用数归零时&#xff0c;可能会被当作垃圾回收。而弱引用即可以引用对象&#xff0c;又不会阻止对象被当作垃圾回收&#xff0c;因此这个特性非常适合用在缓存场景…

值得收藏!2024年人工智能顶级会议投稿信息汇总(计算机视觉领域)

计算机视觉是人工智能领域的重要分支。它融合了图像处理、模式识别、机器学习和人工智能等多个领域的技术&#xff0c;旨在让计算机具备类似甚至超越人类视觉系统的能力。本文将精选介绍计算机视觉领域内的重要会议&#xff0c;包括会议主题、稿件提交的截止日期、会议的时间与…

SpringCloudConfig 使用git搭建配置中心

一 SpringCloudConfig 配置搭建步骤 1.引入 依赖pom文件 引入 spring-cloud-config-server 是因为已经配置了注册中心 <dependencies><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-config-server</…

【软件安装】(十四)Ubuntu22.04安装Psensor硬件监视器

一个愿意伫立在巨人肩膀上的农民...... Ubuntu系统硬件运行查询输入指令太繁琐&#xff0c;终端展示不直观&#xff0c;因此这款具有可视化监控Ubuntu系统下当前电脑的硬件CPU&#xff08;中央处理器&#xff09;、GPU&#xff08;显卡&#xff09;和硬盘等温度等功能&#xff…

2024年妈妈杯数学建模思路B题思路分享

文章目录 1 赛题思路2 比赛日期和时间3 组织机构4 建模常见问题类型4.1 分类问题4.2 优化问题4.3 预测问题4.4 评价问题 5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 比赛日期和时间 报名截止时间&#xff1a;2024…

MySQL进阶——锁

锁 概述 全局锁 表级锁 行级锁 概述 同Java中的锁。目的是为了保证数据一致性、完整性&#xff0c;提高并发安全、控制访问顺序。 分类 在MySQL中&#xff0c;根据锁的粒度分&#xff0c;分为以下3种&#xff1a; 全局锁&#xff1a;锁定数据库种的所有表 表级锁&#…

『大模型笔记』提示工程、微调和RAG之间对比

提示工程、微调和RAG之间对比 文章目录 一. 提示工程、微调和RAG之间对比二. 参考文章文章:Prompt Engineering vs Finetuning vs RAG一. 提示工程、微调和RAG之间对比 Prompt EngineeringFinetuning

截图识别对比:CnOCR与PaddleOCR

1、需求 想使用PyAutoGUI做界面自动化&#xff0c;需要一个ocr库识别压测软件的文字&#xff0c;然后获取定位。现在找到了CnOCR与PaddleOCR&#xff0c;都安装来试试看&#xff0c;哪一个更适合我的需求&#xff0c;这里对这俩库进行对比。 本机环境&#xff1a; win11python…

说说HTTP 常见的状态码有哪些,适用场景?

一、是什么 HTTP状态码&#xff08;英语&#xff1a;HTTP Status Code&#xff09;&#xff0c;用以表示网页服务器超文本传输协议响应状态的3位数字代码 它由 RFC 2616规范定义的&#xff0c;并得到 RFC 2518、RFC 2817、RFC 2295、RFC 2774与 RFC 4918等规范扩展 简单来讲…

【C++】 vector 数组/向量

文章目录 【 1. vector 的声明与初始化 】1.1 vector 的声明1.2 vector 的初始化1.2.1 构造一个空的 vector1.2.2 指定数量初值的方式初始化 vector1.2.3 迭代器的方式初始化1.2.4 构造一个相同的 vector 【 2. vector 的相关操作 】2.1 插入元素2.1.1 在vector的末尾插入新元素…

Docker搭建FastDFS + Ngnix图片文件服务器

安装教程 一、环境与备件安装&#xff08;安装Docker&#xff09; 更新系统&#xff1a;首先&#xff0c;确保系统已更新到最新版本。 a. 更新Ubuntu系统命令&#xff1a; sudo apt update sudo apt upgradeb. 更新CentOS系统命令&#xff1a; sudo yum update安装依赖项&…

GESP Python编程二级认证真题 2024年3月

Python 二级 2024 年 03 月 1 单选题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09; 第 1 题 小杨的父母最近刚刚给他买了一块华为手表&#xff0c;他说手表上跑的是鸿蒙&#xff0c;这个鸿蒙是&#xff1f;&#xff08; &#xff09; A. 小程序 B. 计时器 C. 操作系统…

重磅:2024中国国际信息通信展览|通信展览会

2024中国国际信息通信展览|通信展览会 让我们一起怀揣激情与期待&#xff0c;相聚2024中国信息通信展&#xff01;这场盛大的展览将于9月25日-27日在北京.国家会议中心隆重举行&#xff0c;展会向世界展示中国信息通信行业在工信部“十四五”规划中迎来的新时代。 2024年中国…