HPA数据库及HPAanalyze包使用

关于HPA数据库的介绍:Human Protein Atlas 数据库 – 王进的个人网站 (jingege.wang)

The Human Protein Atlas


文献

HPAanalyze: an R package that facilitates the retrieval and analysis of the Human Protein Atlas data | BMC Bioinformatics | Full Text (biomedcentral.com)

HPAanalyze 是一个 R 包,用于检索和执行来自 HPA 的数据的探索性分析。HPAanalyze提供了从HPA导入数据表和xml文件、导出和可视化数据以及下载所有感兴趣的染色图像的功能。

不同的 HPA 数据格式

HPA 项目通过两种主要机制提供数据:以可下载的压缩制表符分隔值 (TSV) 文件形式提供完整数据集,以及可扩展标记语言 (XML)、资源描述框架 (RDF) 和 TSV 格式的单个条目。完整的可下载数据集包括正常组织、病理学(癌症)、亚细胞位置、RNA 基因和 RNA 亚型数据。对于单个条目,XML 格式是最全面的:它提供有关靶蛋白、抗体和每个组织的摘要的信息。此外,还提供了每个样本的详细数据,包括临床信息、免疫组织化学 (IHC) 评分和图像下载链接。

HPAanalyze 概述

HPAanalyze 旨在完成三个主要任务:(1) 导入、子集和导出可下载数据集;(2)用于探索性分析的可下载数据集的可视化;(3)促进单个XML文件的工作(图1)。1). 该软件包旨在为编程经验不足的研究人员提供服务,同时也允许高级用户根据需要使用导入的数据。

(1) 用于可下载数据集的 hpaDownload;(2) hpaVis,用于快速和可定制的可视化;(3) hpaXml,用于从单个 XML 文件中提取信息。显示的图像是生成的示例数据或可从 HPA 下载的图像。

原文还提供了许多示例进行分析


HPAanalyze包下载病理切片数据

由于HPA在线网站上的病理切片数据下载不方便,遂采用R包进行相关数据的下载。其他数据下载在教程中有详细介绍,这里测试病理数据的下载。

Bioconductor - HPAanalyze

HPAanalyze: HPA数据库使用 (gitee.com)

rm(list = ls())
#包安装##
if (!require("BiocManager", quietly = TRUE))
  install.packages("BiocManager")
BiocManager::install("HPAanalyze")
BiocManager::install("BiocStyle")##还需要辅助安装

#加载包 Update all/some/none? [a/s/n]: n
library(BiocStyle)
library(HPAanalyze)
library(dplyr)

例子从NCBI查找需要的基因:CCNB1

Search: ENSG00000134057 - NLM (nih.gov)

解决网络问题方案:什么鬼,你才60秒? - 知乎 (zhihu.com)

查看信息技巧:R语言将list转变为dataframe(常用)_r list 转换成 dataframe-CSDN博客


病理数据下载

## -----------------------------------------------------------------------------
?hpaXmlGet
CCNB1xml <- hpaXmlGet("ENSG00000134057")
##网络问题#
#In download.file(url = version_to_xml_url(targetEnsemblId, version),  :
#URL 'https://www.proteinatlas.org/ENSG00000134057.xml': Timeout of 60 seconds was reached
#多次尝试测试#

CCNB1_ab <- hpaXmlAntibody(CCNB1xml)#提取用于特定蛋白质的抗体的信息
CCNB1_ab##查看蛋白结果信息

CCNB1_expr <- hpaXmlTissueExpr(CCNB1xml)
#从hpaXmlGet()生成的导入xml文档中提取每个样本的组织表达信息和url以下载图像
str(CCNB1_expr[[1]])
data <- CCNB1_expr[[1]]
##查看该抗的样本具体信息(很重要,也可以直接通过具体信息下载需要的图片)


dir.create("img")
for (i in 1:nrow(CCNB1_expr[[1]])) {
     download.file(CCNB1_expr[[1]]$imageUrl[i],
                    destfile = paste0("img/", CCNB1_ab$id[1], "_",
                                      CCNB1_expr[[1]]$patientId[i], "_",
                                      CCNB1_expr[[1]]$tissueDescription2[i],
                                      ## the extra i below ensures unique file name
                                      i, ".jpg"),
                    mode = "wb")
  }


hpaXml 函数系列支持从 HPA 为每种蛋白质提供的单个 XML 文件中导入和提取数据。使用 XML 文件的典型工作流包括以下步骤:

  1. 使用 hpaXmlGet 下载并导入 XML 文件。

  2. 使用其他 hpaXml 函数提取所需的信息。

  3. 下载 hpaXmlTissurExpr 和 hpaXmlTissueExprSum 函数当前支持的组织学染色图像。该函数返回一个列表,其中包含一个摘要字符串,它是对蛋白质的一个非常简短的描述,还有一个由两列组成的表:组织(可用组织的名称)和imageUrl(下载透视图像的链接)

hpaXmlGet 函数采用一个 HGNC 符号或 Ensembl ID(以 ENSG 开头),并将透视 XML 文件导入到 R 中。此函数在后台调用 xml2::read_xml 函数,因此如果需要,可以使用 xml2 包中的函数进一步处理生成的对象。可以使用 hpaXmlProtClass 从导入的 XML 中提取查询蛋白质的蛋白质类。函数 hpaXmlTissueExprSum 提取目标蛋白在正常组织中的表达摘要。该函数的输出是 (1) 包含一句话摘要的字符串,以及 (2) 蛋白质阳性染色的所有组织的数据框以及这些组织的图像。

XML 文件是唯一可编程访问的 HPA 数据格式,其中包含有关项目中使用的每种抗体和每个组织样本的信息。hpaXmlAntibody 提取抗体信息,并返回一个数据框,每个抗体有一行。hpaXmlTissueExpr 提取上述每种抗体的所有样本信息,并返回数据帧列表。如果抗体尚未用于 IHC 染色,则返回的数据框将为空。每个数据框包含临床数据(患者 ID、年龄、性别)、组织信息(snomedCode、tissueDescription)、染色结果(染色、强度、位置)和每个样本的一个 imageUrl

方法一:通过代码批量下载病理数据

方法二:可以直接通过图片信息链接下载保存图片

http://images.proteinatlas.org/115/2043_B_2_8.jpg


qupath进一步半定量分析

下载一张ki67 染色IHC进行半定量分析测试:明天在写

数字病理图像分析的开源软件qupath学习 ①-CSDN博客

Projects — QuPath 0.5.1 documentation


参考文献:

1:HPAanalyze: an R package that facilitates the retrieval and analysis of the Human Protein Atlas data

2:Bioconductor - HPAanalyze

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/459975.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

H5 流光分割个人主页源码

源码名称&#xff1a;流光分割个人主页源码 源码介绍&#xff1a;一款流光分割特效个人主页源码&#xff0c;源码带大量跳转个人联系方式按钮和朋友按钮。同时带有个人介绍。 需求环境&#xff1a;H5 下载地址&#xff1a; https://www.changyouzuhao.cn/10241.html

LeetCode每日一题 将有序数组转换为二叉搜索树(分治)

题目描述 给你一个整数数组 nums &#xff0c;其中元素已经按 升序 排列&#xff0c;请你将其转换为一棵平衡二叉搜索树。 示例 1&#xff1a; 输入&#xff1a;nums [-10,-3,0,5,9] 输出&#xff1a;[0,-3,9,-10,null,5] 解释&#xff1a;[0,-10,5,null,-3,null,9] 也将被视…

林木园区改造VR仿真培训课件提高人们的专业素质

森林经营VR模拟体验摆脱了传统森林经营周期长、实践难及耗材大等问题&#xff0c;借助VR虚拟仿真技术为人们提供一种全新的、沉浸式的森林经营体验&#xff0c;让人们更好地了解森林经营的全周期。 提高人们的环保意识 通过亲身参与森林经营的过程&#xff0c;人们可以更直观地…

mysql: 如何开启慢查询日志?

1 确认慢查询日志功能已开启 执行以下sql语句&#xff0c;查看慢查询功能是否开启&#xff1a; show VARIABLES like slow_query_log;如果为ON&#xff0c;表示打开&#xff1b;如果为OFF&#xff0c;表示没有打开&#xff0c;需要开启慢查询功能。 执行以下sql语句&#xff0…

【MATLAB源码-第163期】基于matlab的BPSK+瑞利(rayleigh)信道下有无波束成形误码率对比仿真。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 在通信系统中&#xff0c;波束成形&#xff08;Beamforming&#xff09;技术是一种广泛使用的信号处理技术&#xff0c;通过调整天线阵列中各个元素的相位和幅度&#xff0c;使得信号在特定方向上增强&#xff0c;在其他方向…

CC连接过程

1、CC线连接过程 DFP和UFP会实时监控CC1和CC2引脚的电压&#xff0c;来评估DFP和UFP是否都已经在位。同时DFP可以根据电压确定自己所能提供的电流的大小 2、连接过程 Source端使用一个MOS管去控制Vbus&#xff0c;初始状态下&#xff0c;FET为关闭状态&#xff0c;Vbus不通。S…

Transformer的前世今生 day01(预训练

预训练 在相似任务中&#xff0c;由于神经网络模型的浅层是通用的&#xff0c;如下图&#xff1a; 所以当我们的数据集不够大&#xff0c;不能产生性能良好的模型时&#xff0c;可以尝试让模型B在用模型A的浅层基础上&#xff0c;深层的部分自己生成参数&#xff0c;减小数据集…

SQL面试学习 行列转换

行列转换 多行转多列 concat_ws&#xff1a;把集合中的值用指定分隔符连接 collect_set&#xff08;&#xff09;&#xff1a;收集唯一值并返回一个集合 SQL字符串拼接函数concat()、collect_set()、collect_list()和concat_ws()用法 cast&#xff08;&#xff09;将任何类型…

微信小程序开发学习笔记《21》uni-app框架-楼层图片跳转

微信小程序开发学习笔记《21》uni-app框架-楼层图片跳转 博主正在学习微信小程序开发&#xff0c;希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读uni-app对应官方文档 一、创建新的分包goods_list 二、将请求到的楼层数据url调整为本地的 可以看到上图是请求…

14 stack和queue的使用

stack的介绍 stack文档 1.stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行元素的插入和提取操作 2.stack是作为容器适配器被实现的&#xff0c;容器适配器是对特定类封装作为其底层的容器&#xff0c;并提供…

使用 Docker Compose 快速搭建监控网站 uptime-kuma

有时候需要监控自己搭建的一些网站、服务是否正常运行&#xff0c; 这时候可以考虑使用一个监控网站&#xff0c; 定时的进行检测&#xff0c; 记录网站、服务的运行状态&#xff0c; 在这推荐使用 uptime-kuma。 博主博客 https://blog.uso6.comhttps://blog.csdn.net/dxk539…

计算机毕业设计-基于大数据分析的服装定制网的设计与实现

概要 人民的日常生活离不开“衣食住行”&#xff0c;四者之中“食住行”发展迅猛&#xff0c;突飞猛进的发展推动了产业的升级更新。而与之形成鲜明对比的是&#xff0c;服装行业作为传统古老的行业&#xff0c;因为产业结构特征、个性化需求等问题&#xff0c;难以出现推动行业…

支小蜜AI校园防欺凌系统可以使用在宿舍吗?

随着人工智能技术的快速发展&#xff0c;AI校园防欺凌系统已成为维护校园安全的重要手段。然而&#xff0c;关于这一系统是否适用于宿舍环境&#xff0c;仍存在一些争议和讨论。本文将探讨AI校园防欺凌系统在宿舍中的适用性&#xff0c;分析其潜在的优势与挑战&#xff0c;并提…

iptables详细介绍

在 CentOS 中,iptables 是一种用于配置和管理网络防火墙的工具,它提供了一种灵活和强大的方式来控制进出服务器的网络流量。以下是 CentOS 中 iptables 的主要内容: 规则链(Chains): iptables 使用规则链来组织规则,常见的链包括: INPUT:处理进入服务器的数据包。OUTP…

蓝桥杯2022年第十三届省赛真题-裁纸刀

443 对于m行n列 次数 4 m - 1 (n-1)*m 其中4是裁掉边缘&#xff1b;行需要裁m-1次&#xff1b;每个小长条需要裁n-1次&#xff0c;一共有m个小长条

代码学习记录20--回溯算法开始

随想录日记part20 t i m e &#xff1a; time&#xff1a; time&#xff1a; 2024.03.15 主要内容&#xff1a;今天开始就要开始学习回溯算法了&#xff0c;今天主要学习其基本理论以及在组合问题中的应用。 理论基础第77题. 组合 Topic1理论基础 1.回溯算法的题目分类&#…

Transformer模型的Pytorch实现

Transformer的Pytorch实现有多个开源版本&#xff0c;基本大同小异&#xff0c;我参考的是这份英译中的工程。 为了代码讲解的直观性&#xff0c;还是先把Transformer的结构贴上来。 针对上述结构&#xff0c;我们从粗到细地来看一下模型的代码实现。 1. 模型整体构造 clas…

湖北省建筑安全员C证考试通过后,如何在各平台快速查询

湖北省建筑安全员C证考试通过后&#xff0c;如何在各平台快速查询&#xff1f; 2024年湖北省建筑安全员C证&#xff08;建安C&#xff09;证书查询 蛮多人考过建筑安全员C证不知道在哪里查询&#xff0c;建筑行业的安全员C证也称之为专职安全员&#xff0c;建筑安全员ABC /三…

Flutter对uniapp是碾压?快算了吧,至少在中国不是。

有些技术流氓&#xff0c;不考虑场景就大放厥词&#xff0c;谁碾压谁&#xff0c;谁替代谁脱口而出。不否认flutter优秀&#xff0c;但这个优秀是有限定条件的&#xff0c;不是说所有场景下它都优秀&#xff0c;如果不分青红皂白的大厂赞歌&#xff0c;和无脑僵尸&#xff0c;让…

人大金仓大小写敏感处理

人大金仓安装的时候&#xff0c;不管是否选择大小写敏感&#xff1b;查询的时候加和不加双引号&#xff0c;查询出来的都是小写 针对人大金仓大小写&#xff0c;我们实际引用全是大写的情况&#xff0c;解决方案如下 添加配置&#xff0c;将查询结果全都转成大写 1、本地打开…