目录
OrthoFinder工具介绍
OrthoFinder的安装方法
OrthoFinder使用方法
参数介绍
输入与输出
OrthoFinder结果解读
Comparative_Genomics_Statistics:
Gene_Duplication_Events:
Gene_Trees:
Orthogroups:
Orthogroup_Sequences:
Species_Tree:
WorkingDirectory:
MultipleSequenceAlignments:
Reference
OrthoFinder工具介绍
OrthoFinder:
- 它是一个快速、准确和全面的比较基因组学工具。可以找到直系同源基因群和直系同源基因,为所有直系同源基因群推导出有根的基因树,并确定这些基因树中的所有基因复制事件。
- 它还为被分析的物种推导出有根的物种树,并将基因树上的基因复制事件映射到物种树的分支上,为比较基因组分析提供全面的统计数据。
- 它使用简单,运行它所需要的只是一组FASTA格式的蛋白质序列文件(每个物种一个)
- 它与其他直系同源推断软件不同,OrthoFinder使用基因树。这意味着你可以在它所来自的基因树中检查每个直系同源关系。基因树的使用使得直系同源推断的准确性非常高。
OrthoFinder的安装方法
方法一:使用Conda安装(推荐,简单省事),命令如下:
conda install orthofinder
方法二:从GitHub下载安装包安装,流程如下:
# 从github下载最新版本的安装包
wget https://github.com/davidemms/OrthoFinder/releases/download/2.5.5/OrthoFinder.tar.gz
# 解压安装包
tar -xzf OrthoFinder.tar.gz
# 测试运行,如能弹出如图1所示的帮助信息则代表安装成功
python ./OrthoFinder/orthofinder.py -h
./OrthoFinder/orthofinder -h
OrthoFinder使用方法
在做比较基因组学分析过程中常用的命令行如下所示:
./orthofinder -f inputdir/ -S diamond -M msa -T fasttree -t 8 -a 8
如果只进行同源基因鉴定,不进行比较基因组学分析,可以直接使用下面命令:
./orthofinder -f monocots/ -t 80 -og -n name
参数介绍
-f 表示输入目录,包括所有需要分析物种的蛋白质组文件,每个物种的蛋白质组文件用物种名命名,但长度最好不要超过九个字符。
-S 指定序列搜索程序(可选择:blast、mmseqs、blast_gz、diamond。推荐使用diamond,速度快准确率也比较高)
-M msa 基因树推断方法。
-T选择建树方法,可以选择fasttree(默认), iqtree, raxml, raxml-ng。
-t 序列搜索时的线程数
-a 序列搜索后分析的线程数
-n 输出文件slide名称
输入与输出
需要分析的物种的蛋白质作为输入,每个物种使用一个文件,OrthorFinder 将查找具有(.fa、.faa、.fasta、.fas、.pep)扩展名的文件作为Fasta输入 文件。
-
推断出物种的直系同源群
-
推断出一套完整的有根基因树
-
推断出一个有根的物种树
-
利用基因树推断出基因之间的所有直系同源关系
-
推断基因复制事件,并将其与基因树和物种树上的相应节点相互参照
-
为物种提供比较基因组学的统计数据
OrthoFinder结果解读
运行结束后,会在输入目录下生成一个名为:OrthoFinder/Results_**的文件夹,分析得到的所有结果都在这里面,当运行命令加上-M msa,则会多出一个MultipleSequenceAlignments目录。
Comparative_Genomics_Statistics:
Duplications_per_Species_Tree_Node.tsv:物种树中每个节点发生的基因重复事件的数量。
Duplications_per_Orthogroup.tsv:每个直系同源组(Orthogroup)中推断出的基因重复事件数量。
Statistics_Overall.tsv:关于直系同源群大小和分配到直系同源群的基因比例的一般统计信息。
Statistics_PerSpecies.tsv:统计了每个物种的情况。
Orthogroups_SpeciesOverlaps.tsv:物种间共享的直系同源组。
OrthologuesStats _ *.tsv:物种之间一对一、一对多和多对多的直系同源基因数量
OrthologuesStats_one-to-one.tsv是每个物种对之间一对一的直系同源基因的数量。
OrthologuesStats_many-to-many.tsv包含了每个物种对之间多对多关系的直系同源基因的数量(由于物种演化后两个系的基因复制事件)。条目(i,j)是物种i中与物种j中的基因有多对多直系同源关系的基因数量。
OrthologuesStats_one-to-many.tsv:条目(i,j)给出了物种i中与物种j的基因有一对多直系同源关系的基因数量。
OrthologuesStats_many-to-one.tsv:条目(i,j)给出了物种i中与物种j的基因有多对一直系同源关系的基因数量。
OrthologuesStats_Total.tsv包含了每个物种对任何倍数的直系同源基因的总数。条目(i,j)是物种i中在物种j中有直系同源关系的基因的总数。
一些字段的补充理解:
Species-specific orthogroup:完全由一个物种的基因组成的直系同源群。
G50:直系同源群中的基因数量,使50%的基因处于该大小的直系同源群中或更大。
O50:最小的直系同源群数,使50%的基因在该大小的直系同源群中或更大。
Single-copy orthogroup:一个直系同源群,每个物种正好有一个基因(而不是更多)。这些直系同源群是推断物种树和许多其他分析的理想选择。
Unassigned gene:一个没有与任何其他基因放在一个直系同源群中的基因。
Gene_Duplication_Events:
Duplications.tsv:OrthoFinder推测出的所有基因复制事件的信息。
SpeciesTree_Gene_Duplications_0.5_Support.txt:基因复制事件的总和。其中每个节点显示节点名称,后跟一个下划线,后面为每个节点充分支持的基因复制事件的数量。每个节点或物种名称后面的数字是导致该节点/物种的分支上发生的支持率至少为50%的基因复制事件的数量。分支长度是标准的分支长度,如Species_Tree/SpeciesTree_rooted.txt中给出的。
一些字段的理解:
列是 "Orthogroup","Species Tree node":发生复制的物种树的分支,见Species_Tree/SpeciesTree_rooted_node_labels. txt,
"基因树节点":与基因复制事件相对应的节点,见Resolved_Gene_Trees/中相应的直系同源群树;
"支持度":复制基因的两个拷贝都存在的预期物种的比例;
"类型":
"末端":在物种树的末端分支上的复制,
"非末端":在物种树的内部分支上的复制,因此被一个以上的物种共享,"非末端-STRIDE"。非末端重复,也通过了非常严格的STRIDE检查,即基因树的拓扑结构在复制后应该是什么;
"基因1":重复基因的一个拷贝的后代基因列表,
"基因2":重复基因的另一个拷贝的后代基因列表。
Gene_Trees:
为每个具有4个或更多序列的直系同源群推断的有根的系统发育树(4个序列是大多数树推断程序进行树推断所需的最小数量)。
Orthogroups:
Orthogroups.GeneCount.tsv:每个物种在每个直系同源组中所含的基因数目。在进行基因家族扩张与收缩分析过程中会用到这个文件。
Orthogroups.tsv:每个物种在每个直系同源组中所含的基因ID。这个文件可以用于基因家族分析,找到自己感兴趣的基因家族。
Orthogroups.txt:类似于Orthogroups.tsv,只不过是OrhtoMCL的输出格式。
Orthogroups_UnassignedGenes.tsv:记录了MCL中未成功聚类(直系同源组中基因数 >= 1)的离散基因。
Orthogroups_SingleCopyOrthologues.txt:单拷贝的直系同源组。
Orthogroup_Sequences:
包含了每个Orthogroup中所包含的蛋白的序列信息,Fasta格式。
Single_Copy_Orthologue_Sequences:包含了每个单拷贝Orthogroup中所包含的蛋白的序列信息,Fasta格式。
Species_Tree:
SpeciesTree_rooted.txt:在指定建树方法下得到的有根物种树,可以用于后续物种分歧时间预测分析。
SpeciesTree_rooted_node_labels.txt:节点处包含标签的有根物种树(N0 , N1 , . . . , Nm)。
Orthogroups_for_concatenated_alignment.txt:仅在 -M msa 模式下输出,列出了所有串联起来用于推断物种树的Orthogroup ID。
WorkingDirectory:
OrthoFinder 运行时必须的中间文件,包括DIAMOND 比对结果和STAG 输出的无根物种树等。当程序中断时可以在这个目录下从中断位置继续运行。
MultipleSequenceAlignments:
此目录仅在 -M msa 模式下输出,均为 FASTA 格式文件。其中包含的多序列比对文件SpeciesTreeAlignment.fa,可以用于后续用别的建树方法进行系统发育基因组学分析。
后续如果笔者有更深入的应用会持续更新......
Reference
https://github.com/davidemms/OrthoFinder
https://davidemms.github.io/
Emms, D.M., Kelly, S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol 20, 238 (2019)
https://mp.weixin.qq.com/s/wi0O9wfwUidhMYYHQawwpw