Pathview包:整合表达谱数据可视化KEGG通路

Pathview是一个用于整合表达谱数据并用于可视化KEGG通路的一个R包,其会先下载KEGG官网上的通路图,然后整合输入数据对通路图进行再次渲染,从而对KEGG通路图进行一定程度上的个性化处理,并且丰富其信息展示。(KEGG在线数据库使用攻略)

Pathview的安装

一种方法是通过Bioconductor安装,需要Bioconductor版本3.9,R的版本3.6 (推荐)。

if (!requireNamespace("BiocManager", quietly=TRUE))  install.packages("BiocManager")
BiocManager::install("pathview")

另一种方法是去网上下载包的压缩包,https://bioconductor.org/packages/release/bioc/html/pathview.html。
下载完压缩包之后,进入Rstudio,选择Tools——Install Packages——Browse,找到下载压缩包的位置,安装即可。

图片

图片

什么是KEGG pathway?

KEGG (Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息的数据库。它有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG将基因组信息和基因功能信息有机地结合起来,通过对细胞内已知生物学过程进行计算机化处理和将现有的基因功能解释标准化,对基因的功能进行系统化的分析。KEGG的另一个用途是将基因组中的一系列基因用一个细胞内的分子相互作用网络连接起来,如一个通路或是一个复合物,通过它们来展现更高一级的生物学功能。

为什么要用KEGG的代谢通路?KEGG提供的整合代谢途径(pathway)查询十分出色,包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行了全面的注解,包含有氨基酸序列、PDB库的链接等等。(没钱买KEGG怎么办?REACTOME开源通路更强大)

KEGG是进行生物体内代谢分析、代谢网络研究的强有力工具。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系。

KEGG中有两种代谢图。

  1. 参考代谢通路图 reference pathway,是根据已有的知识绘制的具有一般参考意义的代谢图;这种图上所有小框都是无色的,不会有绿色的小框,并且都可以点击查看更详细的信息;

  2. 特定物种的代谢图 species-specific pathway,会用绿色来标出这个物种所有的基因或酶,只有这些绿色的框点击以后才会给出更详细的信息。

这两种图很好区分,reference pathway 在KEGG中的名字是以map开头的,比如map00010,就是糖酵解途径的参考图;而特定物种的代谢通路图开头三个字符不是map而是种属英文单词的缩写(一个属的首字母+2个种的首字母)比如酵母的糖酵解通路图,就是sce00010,大肠杆菌的糖酵解通路图就应该是eco00010吧。

对差异基因进行pathway分析 (代谢通路),就是把基因表达变化映射到具体的代谢网络中,可以研究某个实验条件下显著改变的代谢通路,在机制研究中显得尤为重要。

研究pathway的原因是:生物学问题中设定一个“蝴蝶效应”假设,1个Pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达。

准备开始

Pathview主要用于可视化pathway图上的数据。pathview可以生成KEGG视图Graphviz视图,前者将用户数据呈现在原生KEGG pathway图上,更自然,更易于阅读。后者使用Graphviz引擎对pathway图进行布局,可以更好地控制节点或边缘属性和pathway拓扑。

首先我们在R里面调用该包,使用该包自带的数据集。这是一个乳腺癌数据集,可以查看下演示数据是什么格式的。

列名是每个样本名,行名是每个基因的entrez id。自己准备的数据要符合这个格式,因为entrez id是行名字,而entrez id都是数字,读取需设置check.names=F。其它类型的ID也支持,需要做一些参数设置或转换,具体文后有介绍。

library(pathview)
data(gse16873.d)
head(gse16873.d)

# 读取自己的文件可以使用类似下面的命令
# gse16873.d <- read.table("filename", sep="\t", row.names=1, check.names=F, header=T)

图片

先看下Pathview最常见的一种用法:将某个样本的表达量(读入的数据需要是归一化后的表达量);其实也可以任何列数据,不仅仅是表达量数据,也可以是fold change, p-value, 组蛋白修饰数据等,人为指定的数值型数据也行 (关键是要懂需要展示什么数据、说明什么问题,原理最重要,就像GSEA基因集富集分析也是一样);最后以color bar的形式在KEGG通路图上的对应节点 (一定注意节点名字的匹配)展示;

如下例子所示,我们通过指定gene.datapathway.id来观察单个样本在典型信号通路细胞周期上的表达变化。该基因芯片是在人体组织上进行的,因此species=“hsa”

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873", kegg.native = T)

图片

如何获取自己关注的通路的ID呢? 如下动图,可以得到Cell cyle的ID04110

图片

该例子中的图只有一个单层,在原始图层修改节点颜色,保留原始KEGG节点标签 (节点名)。这样输出的文件大小与原始的KEGG PNG文件一样小,但是计算时间相对较长。如果我们想要一个快速的视图,并且不介意将输出文件大小,我们可以通过same.layer = F使用两层图。通过这种方式,节点颜色和标签被添加到原始KEGG的额外图层上。原来的KEGG基因标签(或EC编号)被替换为官方基因符号。

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873.2layer", kegg.native = T, same.layer = F)

图片

上面的两个例子中,我们查看了KEGG pathway图的数据,在KEGG图上我们可以得到所有注释和meta-data,因此数据更具可读性和解释性。然而输出的是PNG格式的栅格图像。我们也可以使用Graphviz engine重新绘制pathway图来查看数据,这样我们对节点和边缘属性能有更多的控制,更重要的是可以保存为PDF格式的矢量图像。

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873", kegg.native = F, sign.pos="bottomleft")

图片

该图的主图和图例都在一个图层或者说一个页面中,我们只列出KEGG边的类型,忽略图例中的节点类型,以节省空间。如果我们想要完整的图例,我们可以使用两个层来创建Graphviz视图: 第1页是主图,第2页是图例。

注意,对于Graphviz视图 (PDF文件),“层”的概念与KEGG视图 (PNG文件)略有不同。在这两种情况下,我们都为两层图设置参数same.layer=F

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873.2layer", kegg.native = F, sign.pos="bottomleft", same.layer = F)

图片

图片

图形布局样式调整

Graphviz视图中,我们对图形布局有更多的控制,比如可以将节点组拆分为独立的节点,甚至可以将多基因节点扩展为单个基因。分裂的节点或扩展的基因可能从未分裂的组或未扩展的节点继承边。这样我们就可以得到一个基因/蛋白-基因/蛋白相互作用网络。

  • 生信宝典之傻瓜式 (四) 蛋白蛋白互作网络在线搜索

  • 生信宝典之傻瓜式 (五) 文献挖掘查找指定基因调控网络

可以更好地查看网络特性(模块化等)和基因方面(而不是节点方面)的数据。注意在KEGG视图中,一个基因节点可能代表多个功能相似或重复的基因/蛋白。成员基因的数量从1到几十不等。

为了更好的清晰度和可读性,一般将它们作为路径图上的单个节点放在一起。因此,默认情况下,我们不分割节点并单独标记每个成员基因。但是,我们可以通过总结基因数据来可视化节点数据,用户可以使用node.sum参数指定摘要方法。

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873.split", kegg.native = F, sign.pos="bottomleft",
     split.group = T)

图片

下面的图更复杂了,对简单通路适用,复杂通路就头秃了!!

p <- pathview(gene.data = gse16873.d[, 1], pathway.id = "04110", species = "hsa",
     out.suffix = "gse16873.split.expanded", kegg.native = F, sign.pos="bottomleft",
     split.group = T, expand.node = T)

图片

数据整合

Pathview为数据集成提供了强大的支持。它可以用来整合、分析和可视化各种各样的生物数据:基因表达、遗传关联、代谢产物、基因组数据、文献和其他可映射到通路的数据类型。当数据映射到KEGG ortholog pathways时,它可以直接用于宏基因组、微生物组或未知物种的数据。

化合物和基因集同时绘制在通路上

在上面的例子中,我们查看了具有典型的信号通路的基因数据。有时候我们也想研究代谢通路。除了基因节点外,这些通路还有复合节点。因此,我们可以将基因数据和化合物数据与代谢途径进行整合或可视化。这里的基因数据是一个广泛的概念,包括基因、转录本、蛋白质、酶及其表达、修饰和任何可测量的属性。化合物数据也是如此,包括代谢物、药物、它们的测量值和属性。这里我们仍然使用乳腺癌微阵列数据集作为基因数据。然后生成模拟的化合物或代谢组数据,并加载适当的化合物ID类型(具有足够数量的惟一条目)进行演示。

sim.cpd.data=sim.mol.data(mol.type="cpd", nmol=3000)
data(cpd.simtypes)
head(sim.cpd.data)

我们查看该数据部分内容如下:

   C00232      C01881      C02424      C07418      C13756      C07378
-1.09759772  0.12891537  2.07851027  0.93299245 -0.00786048 -0.09023300

我们生成了一个包含基因数据和化合物数据的KEGG视图。pathview生成的代谢通路图与原始KEGG图相同,只是为了更好地查看颜色,将复合节点放大。

 p <- pathview(gene.data = gse16873.d[, 1], cpd.data = sim.cpd.data,
      pathway.id ="00640", species = "hsa", out.suffix = "gse16873.cpd",
      keys.align = "y", kegg.native = T, key.pos = "topright")

图片

我们还生成了相同pathway和数据的Graphviz视图。Graphviz视图更好地显示了层次结构。对于代谢通路,解析xml文件中的反应条目,并将其转换为基因和复合节点之间的关系。对复合节点使用省略号。标签是从CHEMBL数据库中检索到的标准化合物名称 (KEGG在pathway数据库文件中没有提供它)。化学名称是长字符串,我们需要对它们进行换行,以使其符合图上指定的宽度。

 p <- pathview(gene.data = gse16873.d[, 1], cpd.data = sim.cpd.data, pathway.id ="00640",
      species = "hsa", out.suffix = "gse16873.cpd", keys.align = "y", kegg.native = F,
      key.pos = "bottomright", sign.pos ="topright", cpd.lab.offset =-0.8)

图片

多状态或样本同时或分开绘制

在前面的所有示例中,我们查看了单个样本数据,这些数据要么是向量,要么是单列矩阵。Pathview还可以处理多个样本数据,用于为每个样本生成图形。从1.1.6版开始,Pathview就可以整合并绘制多状态或样本到一个图中。

set.seed(10)
sim.cpd.data2 = matrix(sample(sim.cpd.data, 18000,  replace = T), ncol = 6)
rownames(sim.cpd.data2) = names(sim.cpd.data)
colnames(sim.cpd.data2) = paste("exp", 1:6, sep = "")
head(sim.cpd.data2, 3)

图片

在下面的例子中,gene.data有三个样本,而cpd.data有两个。我们可以把所有这些样品放在一张图里,绘制KEGG视图或Graphviz视图。在这些图中,我们看到基因节点和化合物节点被分割成多个对应于不同状态或样本的片段 (注意颜色块,之前是一个节点一个颜色,现在一个节点是有多个颜色,每个对应一个样本,基因有3个,化合物有2个,注意下面代码中的1:31:2)。如果两种数据类型中的样本实际配对,需要选择匹配数据,即gene.datacpd.data的第一列来自同一个实验/样本,等等。

# KEGG view
p <- pathview(gene.data = gse16873.d[, 1:3],  cpd.data = sim.cpd.data2[, 1:2],
     pathway.id = "00640",  species = "hsa", out.suffix = "gse16873.cpd.3-2s",
     keys.align = "y", kegg.native = T, match.data = F, multi.state = T,
     same.layer = T)

图片

查看下绘图的数据

head(p$plot.data.cpd)

图片

基因表达和化合物都展示前3个样品,一一对应。

#KEGG view with data match
p <- pathview(gene.data = gse16873.d[, 1:3],  cpd.data = sim.cpd.data2[, 1:2],
     pathway.id = "00640",  species = "hsa", out.suffix = "gse16873.cpd.3-2s.match",
     keys.align = "y", kegg.native = T, match.data = T, multi.state = T, same.layer = T)

图片

同样,也可以使用graphviz view

#graphviz view
p <- pathview(gene.data = gse16873.d[, 1:3],  cpd.data = sim.cpd.data2[, 1:2],
     pathway.id ="00640",  species = "hsa", out.suffix = "gse16873.cpd.3-2s",
     keys.align = "y", kegg.native = F, match.data = F, multi.state = T,
     same.layer = T,  key.pos = "bottomright", sign.pos = "topright")

图片

同样,我们可以选择分别绘制样本,即每个图形一个样本。请注意,在这种情况下,必须匹配gene.datacpd.data中的样本,以便将其分配给同一图表。因此,参数match.data在这里并不是很有效。(图3就没有化合物的映射了)

#plot samples/states separately
p <- pathview(gene.data = gse16873.d[, 1:3],  cpd.data = sim.cpd.data2[, 1:2],
     pathway.id = "00640", species = "hsa", out.suffix = "gse16873.cpd.3-2s",
     keys.align = "y", kegg.native = T, match.data = F, multi.state = F, same.layer = T)

图片

图片

图片

如上所述,同一层上的KEGG视图可能需要一些时间。同样,如果我们不介意丢失原始的KEGG基因标签(或EC编号),我们可以选择使用两层的KEGG视图来加快这个过程。

p <- pathview(gene.data = gse16873.d[, 1:3],  cpd.data = sim.cpd.data2[, 1:2],
     pathway.id = "00640",  species = "hsa", out.suffix = "gse16873.cpd.3-2s.2layer",
     keys.align = "y", kegg.native = T, match.data = F, multi.state = T,  same.layer = F)

图片

离散数据标记上下调或是否存在

到目前为止,我们一直在处理连续数据。但我们也经常处理离散数据。例如,我们根据一些统计数据(p值、折叠变化等)选择显著基因或化合物列表。输入数据可以命名为两个层次的向量,1或0(显着或不显着),也可以是一个更短的显着基因/化合物名称列表。在接下来的两个例子中,我们只使gene.datacpd.datagene.data离散。

require(org.Hs.eg.db)
gse16873.t <- apply(gse16873.d, 1, function(x) t.test(x, alternative = "two.sided")$p.value)
sel.genes <- names(gse16873.t)[gse16873.t < 0.1]
sel.cpds <- names(sim.cpd.data)[abs(sim.cpd.data) > 0.5]

我们分别查看下sel.genessel.cpds的数据结构:

选择高亮的基因

head(sel.genes)
[1] "10000"     "10003"
[3] "10007"     "100128414"
[5] "100129271" "100129762"

选择高亮的化合物

head(sel.cpds)
[1] "C00232" "C02424" "C07418"
[4] "C06633" "C00251" "C01059"
p <- pathview(gene.data = sel.genes, cpd.data = sel.cpds,  pathway.id ="00640",
     species = "hsa", out.suffix = "sel.genes.sel.cpd", keys.align = "y", kegg.native = T,
     key.pos = "topright",  limit = list(gene = 1, cpd = 1), bins = list(gene = 1, cpd = 1),
     na.col = "gray", discrete = list(gene = T, cpd = T))

图片

p <- pathview(gene.data = sel.genes, cpd.data = sim.cpd.data,  pathway.id = "00640",
     species = "hsa", out.suffix = "sel.genes.cpd",  keys.align = "y", kegg.native = T,
     key.pos = "topright",  limit = list(gene = 1, cpd = 1), bins = list(gene = 1, cpd = 10),
     na.col = "gray", discrete = list(gene = T, cpd = F))

图片

不同来源的ID的转换和映射

pathview的一个显著特点是它强大的ID映射能力。集成的Mapper模块将10多种基因或蛋白ID、20多种化合物或代谢物ID映射到标准KEGG基因或化合物ID。换句话说,使用这些不同ID类型命名的用户数据可以精确地映射到目标KEGG路径。Pathview适用于大约4800个物种的路径,物种可以以多种格式指定:KEGG代码科学名称常用名称

cpd.cas <- sim.mol.data(mol.type = "cpd", id.type = cpd.simtypes[2],  nmol = 10000)
gene.ensprot <- sim.mol.data(mol.type = "gene", id.type = gene.idtype.list[4], nmol = 50000)

同样查看cpd.simtypescpd.casgene.ensport的数据结构:

head(cpd.simtypes)
[1] "Beilstein Registry Number"
[2] "CAS Registry Number"
[3] "ChEMBL COMPOUND"
[4] "KEGG COMPOUND accession"
[5] "KEGG DRUG accession"
[6] "Patent accession"
head(cpd.cas)

是一个named vactor128470-16-6465-42-925812-30-0 为化合物名字,下面的数字0.9594129是含量。(不知道为什么会模拟出负值?可能是归一化(scale)后的数据。具体见R语言 - 热图美化)。

128470-16-6    465-42-9
  0.9594129   0.6882760
 25812-30-0   4790-08-3
 -1.5775357   1.2579969
 95789-30-3    138-14-7
 -1.9112655  -0.1616219
head(gene.ensprot)

是一个named vactorENSP00000414006是基因名字,-0.1609490基因表达量

ENSP00000414006 ENSP00000403857
     -0.1609490       1.5800692
ENSP00000444905 ENSP00000434312
      0.2108686      -0.6047296
ENSP00000493916 ENSP00000338796
     -0.9955757       0.5357721

注意参数中的gene.idtypecpd.idtype,用来指定基因和化合物的ID类型。

p <- pathview(gene.data = gene.ensprot, cpd.data = cpd.cas,  gene.idtype = gene.idtype.list[4],
     cpd.idtype = cpd.simtypes[2],  pathway.id = "00640", species = "hsa", same.layer = T,
     out.suffix = "gene.ensprot.cpd.cas", keys.align = "y", kegg.native = T,
     key.pos ="bottomright", sign.pos = "topright", limit = list(gene = 3, cpd = 3),
     bins = list(gene = 6, cpd = 6))

图片

对于不在自动映射列表中的外部ID,我们可以使用mol.sum函数 (也是Mapper模块的一部分)显式地进行ID和数据映射。这里我们需要提供id.map (外部ID和KEGG标准ID之间的映射矩阵)。我们使用ID映射函数id2egcpdidmap等来得到id.map矩阵。注意,这些ID映射函数可以独立于pathview 主函数使用。

id.map.cas <- cpdidmap(in.ids = names(cpd.cas), in.type = cpd.simtypes[2],
               out.type = "KEGG COMPOUND accession")
cpd.kc <- mol.sum(mol.data = cpd.cas, id.map = id.map.cas)
id.map.ensprot <- id2eg(ids = names(gene.ensprot), category = gene.idtype.list[4], org = "Hs")
gene.entrez <- mol.sum(mol.data = gene.ensprot, id.map = id.map.ensprot)
p <- pathview(gene.data = gene.entrez, cpd.data = cpd.kc, pathway.id = "00640",
     species = "hsa", same.layer = T, out.suffix = "gene.entrez.cpd.kc", keys.align = "y",
     kegg.native = T,  key.pos ="bottomright", sign.pos = "topright",
     limit = list(gene = 3, cpd = 3), bins = list(gene = 6, cpd = 6))

图片

不同物种使用时名称的处理

当对KEGG处理时,物种是一个棘手但重要的问题。KEGG拥有自己的物种专用命名法和数据库,其中包括大约4800个基因组完整的生物体。换句话说,这些生物体的基因数据都可以通过pathview进行映射、可视化和分析。这种全面的物种覆盖是pathview数据集成能力的一个突出特点。然而,KEGG并不以同样的方式对待所有这些生物体/基因组。KEGG使用NCBI GeneID(或Entrez基因)作为最常见的模型动物的默认ID,包括人类、小鼠、大鼠等,以及一些作物,如大豆、葡萄和玉米。另一方面,KEGG对所有其他生物体使用 Locus 标记和其他id,包括动物、植物、真菌、原生生物以及细菌和古生菌。

Pathview带有一个数据矩阵korg,其中包括支持的KEGG物种数据和默认基因ID的完整列表。让我们探索korg数据矩阵,以便对KEGG物种及其Gene ID的使用有所了解。

data(korg)
head(korg)
 ktax.id  tax.id  kegg.code scientific.name           common.name                     entrez.gnodes kegg.geneid
[1,] "T01001" "9606"  "hsa"     "Homo sapiens"            "human"                         "1"           "374659"
[2,] "T01005" "9598"  "ptr"     "Pan troglodytes"         "chimpanzee"                    "1"           "474020"
[3,] "T02283" "9597"  "pps"     "Pan paniscus"            "bonobo"                        "1"           "100989900"
[4,] "T02442" "9595"  "ggo"     "Gorilla gorilla gorilla" "western lowland gorilla"       "1"           "101125212"
[5,] "T01416" "9601"  "pon"     "Pongo abelii"            "Sumatran orangutan"            "1"           "100172878"
[6,] "T03265" "61853" "nle"     "Nomascus leucogenys"     "northern white-cheeked gibbon" "1"           "105739221"
     ncbi.geneid ncbi.proteinid uniprot
[1,] "374659"    "NP_001273380" "Q8N4P3"
[2,] "474020"    "XP_001140087" "Q1XHV8"
[3,] "100989900" "XP_003811308" NA
[4,] "101125212" "XP_018886437" "G3QNH0"
[5,] "100172878" "NP_001125944" "Q5R9G0"
[6,] "105739221" "XP_012359712" "G1RK33"
#number of species which use Entrez Gene as the default ID
sum(korg[,"entrez.gnodes"]=="1",na.rm=T)  #204

#number of species which use other ID types or none as the default ID
sum(korg[,"entrez.gnodes"]=="0",na.rm=T)  #5041

#new from 2017: most species which do not have Entrez Gene annotation any more
na.idx=is.na(korg[,"ncbi.geneid"])
sum(na.idx)  #4674

从上面的korg的探索中,我们看到4800个KEGG物种中,只有少数没有NCBI(Entrez)基因ID或基因ID(注释)其中的一个。几乎所有物种都具有默认的KEGG基因ID(通常是Locus标签)和Entrez Gene ID注释。因此,pathview接受所有这些物种的gene.idtype =“kegg”或“Entrez”(不区分大小写)。用户需要确保正确的gene.idtype是特定的,因为除了35种常见物种外,KEGGEntrez基因ID不同。对于19种,Bioconductor提供基因注释包。用户可以自由地输入gene.data和其他gene.idtype。有关这些Bioconductor注释物种和额外基因ID类型的列表允许:

data(bods)
bods
package             species               kegg code id.type
 [1,] "org.Ag.eg.db"      "Anopheles"           "aga"     "eg"
 [2,] "org.At.tair.db"    "Arabidopsis"         "ath"     "tair"
 [3,] "org.Bt.eg.db"      "Bovine"              "bta"     "eg"
 [4,] "org.Ce.eg.db"      "Worm"                "cel"     "eg"
 [5,] "org.Cf.eg.db"      "Canine"              "cfa"     "eg"
 [6,] "org.Dm.eg.db"      "Fly"                 "dme"     "eg"
 [7,] "org.Dr.eg.db"      "Zebrafish"           "dre"     "eg"
 [8,] "org.EcK12.eg.db"   "E coli strain K12"   "eco"     "eg"
 [9,] "org.EcSakai.eg.db" "E coli strain Sakai" "ecs"     "eg"
[10,] "org.Gg.eg.db"      "Chicken"             "gga"     "eg"
[11,] "org.Hs.eg.db"      "Human"               "hsa"     "eg"
[12,] "org.Mm.eg.db"      "Mouse"               "mmu"     "eg"
[13,] "org.Mmu.eg.db"     "Rhesus"              "mcc"     "eg"
[14,] "org.Pf.plasmo.db"  "Malaria"             "pfa"     "orf"
[15,] "org.Pt.eg.db"      "Chimp"               "ptr"     "eg"
[16,] "org.Rn.eg.db"      "Rat"                 "rno"     "eg"
[17,] "org.Sc.sgd.db"     "Yeast"               "sce"     "orf"
[18,] "org.Ss.eg.db"      "Pig"                 "ssc"     "eg"
[19,] "org.Xl.eg.db"      "Xenopus"             "xla"     "eg"
data(gene.idtype.list)
gene.idtype.list
 "SYMBOL"       "GENENAME"     "ENSEMBL"      "ENSEMBLPROT"  "UNIGENE"      "UNIPROT"      "ACCNUM"      "ENSEMBLTRANS" "REFSEQ"       "ENZYME"       "TAIR"         "PROSITE"      "ORF"

所有先前的例子用了人类数据,其中Entrez GeneKEGG的默认基因ID。Pathview现在(从版本1.1.5开始)显式处理使用Locus标签或其他基因ID作为KEGG默认ID的物种。以下是大肠杆菌菌株K12数据的几个例子。首先,我们使用大肠杆菌K12的默认KEGG ID(基因座标签)处理基因数据。

eco.dat.kegg <- sim.mol.data(mol.type="gene",id.type="kegg",species="eco",nmol=3000)
head(eco.dat.kegg)

查看部分eco.dat.kegg数据:

 b3649      b0486      b3312      b3566      b3945      b2936
 0.3116743  0.9873035 -1.5734323  1.8890136  0.2399454  0.4556519
p <- pathview(gene.data = eco.dat.kegg, gene.idtype="kegg",  pathway.id = "00640",
     species = "eco", out.suffix = "eco.kegg", kegg.native = T, same.layer=T)

图片

我们也可以用与人类相同的方法对大肠杆菌K12的Entrez Gene ID进行基因数据处理。

eco.dat.entrez <- sim.mol.data(mol.type="gene",id.type="entrez",species="eco",nmol=3000)
head(eco.dat.entrez)

查看部分eco.dat.entrez数据:

 948629     945263     948265     948536     948973     947881
-0.2516281  0.3116743  0.9873035 -1.5734323  1.8890136  0.2399454
p <- pathview(gene.data = eco.dat.entrez, gene.idtype="entrez",  pathway.id = "00640",
     species = "eco", out.suffix = "eco.entrez", kegg.native = T, same.layer=T)

图片

基于上述bods数据,大肠杆菌K12在Bioconductor中有注释。因此,我们可以进一步研究其基因数据与其他ID类型,例如,官方基因符号。在调用pathview时,首先需要将这些数据映射到Entrez Gene ID(如果还没有),然后再映射到默认的KEGG ID(Locus标签)。因此,它比上一个例子花费更长的时间。

egid.eco=eg2id(names(eco.dat.entrez), category="symbol", pkg="org.EcK12.eg.db")
eco.dat.symbol <- eco.dat.entrez
names(eco.dat.symbol) <- egid.eco[,2]
head(eco.dat.kegg)
p <- pathview(gene.data = eco.dat.symbol, gene.idtype="symbol", pathway.id = "00640", species = "eco", out.suffix = "eco.symbol.2layer", kegg.native = T, same.layer=F)

图片

图片

未注释物种的处理 (直接用于宏基因组或微生物组数据)

重要的是,当数据被映射到KEGG ortholog pathways时,pathview可以直接用于宏基因组或微生物组数据。来自KEGG中未注释和未包含的任何新物种(非KEGG物种)的数据也可以通过pathview用同样的方法映射到KEGG ortholog pathways中进行分析和可视化。在下一个例子中,我们首先模拟映射的KEGG ortholog基因数据。然后将数据作为gene.data输入,其中species =“ko”

ko.data=sim.mol.data(mol.type="gene.ko", nmol=5000)
head(ko.data)

查看一下ko.data数据

  K01859     K15874     K04035     K16205     K16093     K09447
-0.5198690  0.5832773 -1.3411454  0.5746940  0.2157879 -1.1339828
p <- pathview(gene.data = ko.data, pathway.id = "04112", species = "ko", out.suffix = "ko.data", kegg.native = T)

图片

参考

  1. https://academic.oup.com/nar/article/45/W1/W501/3804420

  2. https://bioconductor.org/packages/release/bioc/html/pathview.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/952492.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构:DisjointSet

Disjoint Sets意思是一系列没有重复元素的集合。一种常见的实现叫做&#xff0c;Disjoint-set Forest可以以接近常数的时间复杂度查询元素所属集合&#xff0c;用来确定两个元素是否同属一个集合等&#xff0c;是效率最高的常见数据结构之一。 Wiki链接&#xff1a;https://en…

更好的世界:用定制托管对象上下文(NSManagedObjectContext)防止产生“空白”托管对象(下)

概述 用 SwiftUI CoreData 这对“双剑合璧”的强力开发组合&#xff0c;我们可以事倍功半、非常 easy 的开发出界面元素丰富且背后拥有持久数据库支持的 App。 不过&#xff0c;在某些情况下它们被误用或错用也可能带来一些“藏形匿影”的顽疾。 在本篇博文中&#xff0c;您…

个人在技术领导力方面的自我反思与提升

大家好&#xff01;我是 [数擎 AI]&#xff0c;一位热爱探索新技术的前端开发者&#xff0c;在这里分享前端和 Web3D、AI 技术的干货与实战经验。如果你对技术有热情&#xff0c;欢迎关注我的文章&#xff0c;我们一起成长、进步&#xff01; 开发领域&#xff1a;前端开发 | A…

Win10本地部署大语言模型ChatGLM2-6B

鸣谢《ChatGLM2-6B&#xff5c;开源本地化语言模型》作者PhiltreX 作者显卡为英伟达4060 安装程序 打开CMD命令行&#xff0c;在D盘新建目录openai.wiki if not exist D:\openai.wiki mkdir D:\openai.wiki 强制切换工作路径为D盘的openai.wiki文件夹。 cd /d D:\openai.wik…

排列高手

这篇主要是求再排位为 {1&#xff0c;3&#xff0c;4&#xff0c;....&#xff0c;n&#xff0c;2}的最优顺序下求mex。 但不知道为什么这样是最优 子数列的个数公式&#xff1a; 对于一个长度为N的数组&#xff0c; #include <bits/stdc.h> using namespace std; lon…

公众号如何通过openid获取unionid

通过接口 https://api.weixin.qq.com/cgi-bin/user/info?access_tokenxxxxxxx&langzh_CN 返回的数据如下&#xff1a; 前提是必须绑定 微信开放平台 token如何获取呢 代码如下&#xff1a; String tokenUrl "https://api.weixin.qq.com/cgi-bin/token"; …

软件测试预备知识④—NTFS权限管理、磁盘配额与文件共享

在软件测试的实际环境搭建与管理过程中&#xff0c;了解和掌握NTFS权限管理、磁盘配额以及文件共享等知识至关重要。这些功能不仅影响系统的安全性和稳定性&#xff0c;还对测试数据的存储、访问以及多用户协作测试有着深远的影响。 一、NTFS权限管理 1.1 NTFS简介 NTFS&am…

类结构——构造方法

类结构——构造方法 构造方法的基本特性默认构造方法构造方法重载使用this关键字私有构造方法总结 构造方法&#xff08;Constructor&#xff09;是Java编程语言中的一个重要概念&#xff0c;用于初始化新创建的对象。在对象实例化时被调用&#xff0c;并负责设置对象的初始状态…

【linux系统之redis6】redis的安装与初始化

下载redis的linux对应的安装包&#xff0c;并上传到linux虚拟机里面 解压压缩包 tar -zxzf redis-6.2.6.tar.gz解压后&#xff0c;进入redis文件 cd redis-6.2.6执行编译 make && make install看到下图&#xff0c;就说明redis安装成功了 默认的安装路径&#xff0c…

STM32-笔记40-BKP(备份寄存器)

一、什么是BKP&#xff08;备份寄存器&#xff09;&#xff1f; 备份寄存器是42个16位的寄存器&#xff0c;可用来存储84个字节的用户应用程序数据。他们处在备份域里&#xff0c;当VDD电源被切断&#xff0c;他们仍然由VBAT维持供电。当系统在待机模式下被唤醒&#xff0c;或…

MobaXterm界面的简单介绍

界面全局 “命令行界面”&#xff08;Command Line Interface&#xff0c;简称CLI&#xff09;或“终端”&#xff08;Terminal&#xff09; 在这个界面中&#xff0c;用户可以输入命令来与操作系统进行交互,灰色光标是输入命令的位置 标签栏&#xff08;Tab Bar&#xff09; …

有收到腾讯委托律师事务所向AppStore投诉带有【水印相机】主标题名称App的开发者吗

近期&#xff0c;有多名开发者反馈&#xff0c;收到来自腾讯科技 (深圳) 有限公司委托北京的一家**诚律师事务所卞&#xff0c;写给AppStore的投诉邮件。 邮件内容主要说的是&#xff0c;腾讯注册了【水印相机】这四个字的商标&#xff0c;所以你们这些在AppStore上的app&…

UI自动化测试保姆级教程①

欢迎来到阿妮莫的学习小屋慢也好&#xff0c;步子小也好&#xff0c;在往前走就好 目录 自动化测试 简介 作用 分类 优缺点 优点 缺点(误区) UI自动化测试 自动化测试使用场景 自动化测试实现时间 Selenium框架 特点 Web自动化测试环境部署 Selenium包安装 浏览…

Linux 下信号的保存和处理

信号的几个状态 信号抵达: 当接收到的信号被处理时, 此时就成为信号的抵达信号的未决: 从信号的产生到信号抵达这个时间段之间, 称为信号未决信号阻塞: 当进程设置了某个信号为阻塞后, 这个进程就不会在接收到这个信号信号忽略: 将信号设置为忽略后, 接收到这个信号, 对这个信…

IntelliJ IDEA中Maven项目的配置、创建与导入全攻略

大家好&#xff0c;我是袁庭新。 IntelliJ IDEA是当前最流行的Java IDE&#xff08;集成开发环境&#xff09;之一&#xff0c;也是业界公认最好用的Java开发工具之一。IntelliJ IDEA支持Maven的全部功能&#xff0c;通过它我们可以很轻松地实现创建Maven项目、导入Maven项目、…

深度学习笔记11-优化器对比实验(Tensorflow)

&#x1f368; 本文为&#x1f517;365天深度学习训练营中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目录 一、导入数据并检查 二、配置数据集 三、数据可视化 四、构建模型 五、训练模型 六、模型对比评估 七、总结 一、导入数据并检查 import pathlib,…

JavaEE之定时器及自我实现

在生活当中&#xff0c;有很多事情&#xff0c;我们不是立马就去做&#xff0c;而是在规定了时间之后&#xff0c;在到该时间时&#xff0c;再去执行&#xff0c;比如&#xff1a;闹钟、定时关机等等&#xff0c;在程序的世界中&#xff0c;有些代码也不是立刻执行&#xff0c;…

Qt学习笔记第81到90讲

第81讲 串口调试助手实现自动发送 为这个名叫“定时发送”的QCheckBox编写槽函数。 想要做出定时发送的效果&#xff0c;必须引入QT框架下的毫秒级定时器QTimer&#xff0c;查阅手册了解详情。 在widget.h内添加新的私有成员变量&#xff1a; QTimer *timer; 在widget类的构造…

【LeetCode】力扣刷题热题100道(16-20题)附源码 容器 子数组 数组 连续序列 三数之和(C++)

目录 1.盛最多水的容器 2.和为K的子数组 3.最大子数组和 4.最长连续序列 5.三数之和 1.盛最多水的容器 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴…

AI多模态技术介绍:视觉语言模型(VLMs)指南

本文作者&#xff1a;AIGCmagic社区 刘一手 AI多模态全栈学习路线 在本文中&#xff0c;我们将探讨用于开发视觉语言模型&#xff08;Vision Language Models&#xff0c;以下简称VLMs&#xff09;的架构、评估策略和主流数据集&#xff0c;以及该领域的关键挑战和未来趋势。通…