如何快速下载GEO数据并获取其表达矩阵与临床信息 | 附完整代码 + 注释

GEO数据库可以说是大家使用频率贼高的数据库啦!那它里面的数据怎么下载大家知道嘛!今天给大家展示一种快速获取它的表达矩阵和临床信息的方法!

话不多说!咱们直接开始!

GEO编号获取

在GEO数据库中,你找到了你需要的数据,接下来怎么办嘞!下载它!处理它!

比如,咱们今天需要的数据是这个:

GEO编号这不就有咯!咱们开始下载!噢对,提前吱一声,芯片数据和非芯片数据进行ID转换的时候方法不太一样,大家要注意噢!我今天会都给大家演示一下!

GEO数据库今天咱就不介绍了哈!我后面再专门出一期超级详细地介绍它!迫切的小伙伴可以在后台或群里催我哈哈哈哈哈哈哈哈!

另外注意:不是所有的GEO数据集都可以使用这种方法下载。不过通常来说,大部分的GEO数据集都可以通过getGEO函数进行下载,但也有一些例外情况,特别是单细胞数据[无奈脸]!多数情况下,应该是数据集可能不是以类似的格式存储,或者有的作者上传格式不对等等,所以就需要找其他办法或者手动下载啦!

建议就是先试试这种方法,要是里面是空的,就去手动或者其他!

数据下载

芯片数据

#################### GEO数据下载及表达矩阵与临床信息获取 #######################

# 加载包,没有安装的记得安装一下哟!
library(tidyverse)
library(GEOquery)
library(tinyarray)

# 芯片数据

# GEO编号,替换成你自己的就好啦!
geo_number = "GSE66360"

# 这一步啊,看运气!网络时好时坏,是个玄学!一次不行不要慌!咱多跑几次!总会成功的!
geo_data <- getGEO(geo_number, destdir = './', getGPL = F) # 自己设置想保存的路径
geo_data0 <- geo_data[[1]]

数据长这样!

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675    99

exp[1:4, 1:4]
#           GSM1620819 GSM1620820 GSM1620821 GSM1620822
# 1007_s_at   5.866378   4.948736   5.148384   5.064419
# 1053_at     8.225790   7.525865   7.764637   7.198461
# 117_at      6.179732   6.628137   5.859151   5.974135
# 121_at      6.179478   6.582889   6.602135   6.545905

# 可以看到这里还是探针ID,咱们后给它面转换为基因symbol!

# 可以自行判断是否需要log
exp <- log2(exp + 0.01)

# 接下来我们进行ID转换

# 探针注释获取
gpl_number <- geo_data0@annotation
ids <- AnnoProbe::idmap(gpl_number)
head(ids)
#         probe_id symbol
# 193731   1053_at   RFC2
# 193732    117_at  HSPA6
# 193733    121_at   PAX8
# 193734 1255_g_at GUCA1A
# 193735   1316_at   THRA
# 193736   1320_at PTPN21

# ID转换
exp <- as.data.frame(exp)
exp$probe_id <- rownames(exp)
exp <- inner_join(ids, exp, by = "probe_id")
exp <- exp[!duplicated(exp$symbol), ] # 关于重复基因去重的问题,咱们后面专门出一期介绍!这里先用最大道至简的方法!
rownames(exp) <- exp$symbol
exp <- exp[ , -c(1,2)]
head(exp)[1:4, 1:4]
#        GSM1620819 GSM1620820 GSM1620821 GSM1620822
# RFC2     3.041907   2.913773   2.958775   2.849691
# HSPA6    2.629877   2.730778   2.553152   2.581143
# PAX8     2.629818   2.720911   2.725116   2.712795
# GUCA1A   1.486482   1.436010   1.373053   1.444733

# 提取临床信息
cli <- pData(geo_data0)
head(cli)[1:4, 1:6]
#                               title geo_accession                status submission_date last_update_date type
# GSM1620819 Muse_1_DISCOVERY_Control    GSM1620819 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620820 Muse_2_DISCOVERY_Control    GSM1620820 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620821 Muse_3_DISCOVERY_Control    GSM1620821 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA
# GSM1620822 Muse_4_DISCOVERY_Control    GSM1620822 Public on Feb 28 2015     Feb 27 2015      Feb 28 2015  RNA

# 为了后续分析,咱还可以给它进一步调整,使表达矩阵列名和临床信息的行名完全一致
p <- identical(rownames(cli), colnames(exp))
p
# [1] TRUE

# 噢啦!

# 噢不!还没结束!那万一不是芯片数据怎么办呢!咱们再演示一个!

非芯片数据

# 非芯片数据

# 比如这个GEO数据集
geo_number = "GSE16561"

# 这一步啊,看运气!网络时好时坏,是个玄学!一次不行不要慌!咱多跑几次!总会成功的!
geo_data <- getGEO(geo_number, destdir = './', getGPL = F)
geo_data0 <- geo_data[[1]]

# 提取表达矩阵
exp <- exprs(geo_data0)
dim(exp)
# [1] 54675    99

exp[1:4, 1:4]
#                GSM416528  GSM416529  GSM416530   GSM416531
# ILMN_1343291  0.22550488  0.7348099  0.7431908  0.63261986
# ILMN_1651209 -0.03326082  0.5184302  0.5990343  0.25144434
# ILMN_1651228 -0.20895290 -0.9036322 -0.3511963 -0.06179523
# ILMN_1651229  0.18835354  0.3693209  0.3938241  0.14767408

# # 可以自行判断是否需要log
# exp <- log2(exp + 1)

# 大家可以看到这玩意儿不是探针,那咱们怎么办呢!

接下来我们进行非芯片数据的ID转换!

在你的GEO数据集的主页,可以看见下面这个红框框的地方!这里代表测序平台(咱们后面会在超详细介绍GEO数据库的时候给大家进行介绍这部分内容),直接点进去就好!

长这样!别急!往下滑滑!

哎对!就是这里!点红框框的地方!下载下来!

来!咱们继续看看怎么搞!

# 文件下载地址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6883
ids <- data.table::fread("./GPL6883-11606.txt")

# ID转换
exp <- as.data.frame(exp)
exp$ID <- rownames(exp)
ids <- ids[ , c(1,12)] # 注意:这里选择的是与表达矩阵行名相匹配的列和基因symbol列
exp <- inner_join(ids, exp, by = "ID")
exp <- exp[!duplicated(exp$Symbol), ]
exp <- as.data.frame(exp)
rownames(exp) <- exp$Symbol
exp <- exp[ , -c(1,2)]
head(exp)[1:4 ,1:4]
#              GSM416528  GSM416529   GSM416530  GSM416531
# JMJD1A    -0.401840200 -0.2110777 -0.42790460 -0.4261866
# NCOA3      0.296299930 -0.3155098 -0.01228809  0.5331011
# LOC389834 -0.001213074  0.5300436  0.55930424  0.2009177
# SPIRE2     0.127047540  0.5759945  0.45181800  0.4050984

# 噢啦!

# 老步骤!

# 提取临床信息
cli <- pData(geo_data0)
head(cli)[1:4, 1:6]
#                    title geo_accession                status submission_date last_update_date type
# GSM416528 3100083_Stroke     GSM416528 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416529 3100191_Stroke     GSM416529 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416530 3100068_Stroke     GSM416530 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA
# GSM416531 3100060_Stroke     GSM416531 Public on Jun 01 2010     Jun 11 2009      Jun 11 2009  RNA

# 为了后续分析,咱还可以给它进一步调整,使表达矩阵列名和临床信息的行名完全一致
p <- identical(rownames(cli), colnames(exp))
p
# [1] TRUE

这回是真的噢啦!

一般使用GEO数据库很可能是多个数据集合并使用,那这个时候,由于数据来源不一样,肯定会有批次效应存在,那大家一定要记得进行批次处理噢!有兴趣的小伙伴们可以查看:数据挖掘 | 批次效应的鉴定与处理 | 附完整代码 + 注释 | 看完不会来揍我

在获取表达矩阵和临床信息后,我们还可以进行生存分析:看完不会来揍我 | 生存分析详解 | 从基础概念到生存曲线绘制 | 代码注释 + 结果解读

还有差异分析:看完还不会来揍/找我 | 差异分析三巨头 —— DESeq2、edgeR 和 limma 包 | 附完整代码 + 注释

还有富集分析:看完还不会来揍我 | GSEA富集分析详解(一)—— 代码实操 | MSigDB数据库介绍 | 附完整代码 + 注释

哎呀,还有好多好多!大家需要什么,都可以随时搜索!像这样:

暂时还没有的,也可以催更我!!!

文末碎碎念

那今天的分享就到这里啦!我们下期再见哟!

最后顺便给自己推荐一下嘿嘿嘿!

如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!

蟹蟹你们的喜欢和支持!!!

如果小伙伴们有需求的话,可以加入我们的交流群:一定要知道 | 永久免费的生信交流群终于来啦!!在这里,你可以稍有克制地畅所欲言!

超级建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看!

如果有需要个性化定制分析服务的小伙伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属解决方案!全程1v1答疑!!绝对包你满意!

入群链接后续可能会不定期更新,主要是因为群满换码或是其他原因,如果小伙伴点开它之后发现,咦,怎么失效啦!不要慌!咱们辛苦一下动动小手去主页的要咨询那里,点击进交流群即可入群!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/490528.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot善筹网(众筹)前后台实现设计(带源码)

信息数据从传统到当代&#xff0c;是一直在变革当中&#xff0c;突如其来的互联网让传统的信息管理看到了革命性的曙光&#xff0c;因为传统信息管理从时效性&#xff0c;还是安全性&#xff0c;还是可操作性等各个方面来讲&#xff0c;遇到了互联网时代才发现能补上自古以来的…

36.网络游戏逆向分析与漏洞攻防-游戏网络通信数据解析-数据解码器的实现

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 如果看不懂、不知道现在做的什么&#xff0c;那就跟着做完看效果 内容参考于&#xff1a;易道云信息技术研究院VIP课 上一个内容&#xff1a;35.登录成功数据…

Oracle 19cADG集群补丁升级

Oracle 19cADG集群补丁升级 文章目录 Oracle 19cADG集群补丁升级1.备库备份2.备库升级Opatch3.备库应用补丁4.主库备份 oracle_home目录5.主库升级Opatch6.注册补丁7.编译无效对象8.检查主库的补丁注册情况9.备库切换主库完成补丁注册 1.备库备份 su - oracle cd $ORACLE_HOME…

3、创建项目,什么是路由

一、创建项目 第一次全局安装脚手架 npm install -g vue/clivue create 项目名 二、什么是路由&#xff1f; 路由就是一组 key-value 的对应关系多个路由&#xff0c;需要经过路由器的管理 1、后端路由&#xff1a; 每个url地址都对应着不同的静态资源对于普通的网站。所有…

【Godot4自学手册】第二十九节使用Shader来实现敌人受伤的闪白效果

在Godot 4中&#xff0c;Shader是用来为材质提供自定义渲染效果的程序。材质可以应用于MeshInstance、CanvasItem和ParticleEmitter等节点。Shader可以影响顶点的变换、片段&#xff08;像素&#xff09;的颜色&#xff0c;以及光照与物体的交互。 在Godot中&#xff0c;Shader…

ROS 2边学边练(1)-- 安装Iron Irwini

其实是从去年的一个机缘巧合才开始了解到ROS&#xff0c;但也仅限于此了&#xff08;看了古月居的入门21讲&#xff09;&#xff0c;今年买了几本关于ROS相关的书籍&#xff0c;比如《精通ROS机器人编程 Lentin Joseph&Jonathan Cacace》、《ROS 2机器人编程实战-基于现代C…

AI入侵游戏业:是颠覆者还是创新助手?揭秘未来游戏新趋势!

在科技日新月异的今天&#xff0c;人工智能&#xff08;AI&#xff09;已经成为各行各业的关注焦点。而在娱乐产业中&#xff0c;AI技术的引入也让人们对电子游戏的未来发展产生了无限遐想。那么&#xff0c;AI究竟会给电子游戏行业带来怎样的变革&#xff1f;它会成为行业的颠…

【消息队列开发】 实现BrokerServer类——本体服务器

文章目录 &#x1f343;前言&#x1f38b;创建 BrokerServer 类&#x1f38d;启动与停止服务器&#x1f340;实现处理连接&#x1f384;实现 readRequest 与 writeResponse&#x1f334;实现处理请求&#x1f332;实现 clearClosedSession⭕总结 &#x1f343;前言 本次开发任…

java的ArrayList类

ArrayList<E>E是自定义数据类型 ArrayList类&#xff1a; 构造函数&#xff1a; 成员方法&#xff1a; public boolean add(E e)&#xff1a; 将指定元素加到集合末尾 Appends the specified element to the end of this list. public class Array {public static…

就业班 第二阶段 2401--3.26 day6 Shell初识 连接vscode

远程连接vs_code可能出现的问题 C:\Users\41703\.ssh 验证远程主机的身份&#xff0c;如果连不上vscode&#xff0c;可以尝试删除这里面的公钥代码。 重新安装那个扩展&#xff0c;排除扩展本身的问题 谁连过我&#xff0c;并操作了什么 curl https://gitea.beyourself.org.c…

【软件测试】功能测试/接口测试/自动化测试/性能测试/验收测试

软件测试的主要流程 一、测试主要的四个阶段 1.测试计划设计阶段&#xff1a;产品立项之后&#xff0c;进行需求分析&#xff0c;需求评审&#xff0c;业务需求评级&#xff0c;绘制业务流程图。确定测试负责人&#xff0c;开始制定测试计划&#xff1b; 2.测试准备阶段&…

C++11与thread相关使用(纯代码)

多线程创建 //多线程创建 void print(string s) {cout << "i am a new thread&#xff1a;" << s << endl; } int main() {//move将左值变成右值(右值引用过后的属性是左值)//thread t1(print, "t1");//thread t2(move(t1));//调用移动…

javaWeb校园二手平台项目

一、系统分析 1.1开发背景 随着全世界互联网技术的不断发展&#xff0c;各种基于互联网技术的网络应用不断涌现,网络技术正在不断的深入人们的生活。人们从Internet上获取信息、享受生活、交流感情、网上工作等。Internet正在迅速改变着人们的生活方式。 经过我国改革开放多年…

CI/CD实战-jenkins流水线 6

现最新版本没有该问题的出现 基于RBAC的身份授权&#xff1a; 安装插件&#xff1a; 新建测试用户 修改默认授权策略 新建的用户就没有任何权限 新建角色并授权 添加用户角色身份 pipeline 安装ssh agent插件 由于最新版的插件是有问题的&#xff0c;会有以下报错&#xff…

「媒体宣传」财经类媒体邀约资源有哪些?-51媒体

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 财经类媒体邀约资源包括但不限于以下几类&#xff1a; 商业杂志和报纸&#xff1a;可以邀请如《财经》、《新财富》、《经济观察报》等主流商业杂志和报纸。这些媒体通常具有较强的品牌影…

自信当众讲话:从紧张到自如的转变之路

自信当众讲话&#xff1a;从紧张到自如的转变之路 在人生的舞台上&#xff0c;当众讲话是每个人都可能面对的挑战。然而&#xff0c;对于许多人来说&#xff0c;站在众人面前讲话却是一件令人紧张甚至恐惧的事情。这种紧张感往往源于对自我能力的怀疑&#xff0c;对未知的恐惧…

【Node.js从基础到高级运用】十八、Node.js的安全性加固

引言 在Web开发中&#xff0c;安全性是一个不可忽视的话题。Node.js作为一个流行的后端平台&#xff0c;同样需要关注各种潜在的安全威胁&#xff0c;并采取措施加以防御。本文将介绍如何在Node.js应用中防御常见的Web攻击&#xff0c;以及如何使用安全相关的中间件来加固安全性…

Windows 频繁失去焦点分析

原文&#xff1a;https://blog.iyatt.com/?p14383 1 前言 刚才在打字的时候发现会随机失去焦点&#xff0c;然后又要用鼠标点一下正在输入的位置才能继续输入&#xff0c;特别烦。开始我怀疑是手碰到触摸板导致失去焦点&#xff0c;但是我用了差不多十年带触摸板的笔记本电脑…

[ C++ ] STL---仿函数与priority_queue

目录 仿函数 示例一&#xff1a; 示例二 : 常见的仿函数 priority_queue简介 priority_queue的常用接口 priority_queue的模拟实现 基础接口 push() 堆的向上调整算法 堆的插入 pop() 堆的向下调整算法 堆的删除 priority_queue最终实现 仿函数 仿函数&#xff…

基于stm32与TJC3224T124_011串口屏的PID调参器(附完整工程)

电赛在即&#xff0c;每次比赛调PID都是一件比较繁琐的事。每次都要在程序中改完再烧录到板子上&#xff0c;特别耗时。正好最近发现实验室的一块串口屏比较好玩。 于是就做了这个调PID的东西。它可以通过串口直接修改PID的值&#xff0c;从而达到快速调PID的目的。下面我将完整…