一、
## 统计基因组整体信息
srun -A 2022099 -p Debug -n 2 -N 1 seqkit stats ~/yiyaoran/workspace/06.BSRseq/guo_BSR_pipline/ref/genome.fasta > genome.allstat
cat genome.allstat
文件名 格式 类型 序列数量 总长度 最小长度 平均长度 最大长度
file format type num_seqs sum_len min_len avg_len max_len
genome.fasta FASTA DNA 685 2,182,075,994 30,084 3,185,512.4 308,452,471
file format type num_seqs sum_len min_len avg_len max_len
genome.fasta FASTA DNA 685 2,182,075,994 30,084 3,185,512.4 308,452,471
## 统计每条序列长度
srun -A 2022099 -p Debug -n 2 -N 1 seqkit fx2tab -g -l -n -i ~/yiyaoran/workspace/06.BSRseq/guo_BSR_pipline/ref/genome.fasta > genome.seqstat
cat genome.seqstat |head -n 10
序列的长度(单位为碱基数) GC 含量
1 308452471 46.84
2 243675191 46.75
3 238017767 46.69
4 250330460 46.42
5 226353449 46.76
6 181357234 46.83
7 185808916 46.63
8 182411202 46.87
9 163004744 46.81
10 152435371 46.85
## 统计编码基因信息
srun -A 2022099 -p Debug -n 2 -N 1 \
awk -F "\t" '
# 检查第3列是否为"gene"且最后一列包含"protein_coding"(蛋白编码基因)
$3=="gene" && $NF ~ /protein_coding/ {
num += 1; # 统计符合条件的基因数量
total += $5 - $4 + 1; # 累加基因的长度,长度为结束位置减去开始位置再加1
}
END {
# 输出基因总数、总长度和平均长度
print "number: " num "\ntotal_len: " total "\navg_len: " total / num
}
' ~/yiyaoran/workspace/06.BSRseq/guo_BSR_pipline/ref/Zea_mays.Zm-B73-REFERENCE-NAM-5.0.60.gtf > gene.stat
cat gene.stat
基因数量 (number): 39756
基因总长度 (total_len): 177979203
基因平均长度 (avg_len): 4476.79
## 统计编码转录本信息
srun -A 2022099 -p Debug -n 2 -N 1 awk -F "\t" '
# 条件:筛选出类型为“transcript”且蛋白质编码的条目
$3=="transcript" && $NF ~ /protein_coding/ {
# 统计符合条件的转录本数量
num += 1;
# 累加转录本的总长度
total += $5 - $4 + 1;
}
# 输出结果
END {
# 输出符合条件的转录本数量
print "number: " num "\n" \
# 输出所有转录本的总长度
"total_len: " total "\n" \
# 计算并输出平均长度
"avg_len: " total / num
}' ~/yiyaoran/workspace/06.BSRseq/guo_BSR_pipline/ref/Zea_mays.Zm-B73-REFERENCE-NAM-5.0.60.gtf > transcript.stat
cat transcript.stat
转录本数量 (number): 72539
转录本总长度 (total_len): 390041762
平均转录本长度 (avg_len): 5376.99
功能注释
eggnog-mapper(http://eggnog-mapper.embl.de/) 进行 eggnog 数据库注释,需要注意的是在线版 eggnog-mapper 单次输入序列条数不能超 10 万条,如果序列条数超过 10 万条,需要进行切分。
提交
邮件中run
邮件查看结果
准备好out.emapper.annotations
蛋白序列Zea_mays.Zm-B73-REFERENCE-NAM-5.0.pep.all.fa
srun -A 2022099 -p Debug -n 2 -N 1 Rscript ../script/emcp/emapperx.R out.emapper.annotations Zea_mays.Zm-B73-REFERENCE-NAM-5.0.pep.all.fa