做实验需要下载TCGA数据集,数据量比较大的时候,直接从网页下载速度非常慢,容易出现下载不全等情况。
调研后选择在Win10端使用gdc-client来帮助下载Cart文件。
一、下载软件、配置环境
下载软件
下载网站链接:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
找到自己想要下载的版本,我这里通过Windows10举例
【注意】该软件不能放在含有中文名的文件夹下,否则会报错。
解压后双击【gdc-client.exe】打开软件,会闪退
该软件不能直接点击使用,需要配置后在命令行中使用
配置环境
使用【win+R】组合键,输入【cmd】,打开命令行窗口
输入:
# 程序安装路径 -h
D:\Application\gdc-client\gdc-client.exe -h
出现以上信息,代表程序可以正常运行!
但是为了后续更方便地下载数据,我们把gdc-client加入到系统环境变量中
打开win10【控制面板】——【系统和安全】——【系统】——【高级系统设置】——【环境变量】
点击系统变量Path的编辑
把程序安装路径添加至系统变量
最后逐步点击确定,完成设置
用户变量和系统变量的区别:
在高级设置中,有用户变量和系统变量两部分,它们均包含Path变量。
用户变量通常用来存储个人化的配置和偏好设置;系统变量适用于存储整个操作系统的环境变量,它对所有用户和进程都可见。
如果将一个文件的路径添加到系统变量中,就不需要再将它也参加到用户变量中,因为系统变量的优先级更高,会覆盖同名的用户变量。
最后测试环境变量设置是否成功
在命令行中输入以下命令
gdc-client -h
出现和前文相同界面,代表成功。
二、使用gdc-client下载数据
以TCGA-LAML(白血病)转录组学数据下载为例,展示过程
下载manifest文件
选择想要下载的数据
添加至购物车(添加前要清除购物车,不然下载的数据就错乱了)
打开网站右上角购物车
点击【Download】下载Manifest文件
Manifest文件包含想要下载的数据信息;Cart是真正的数据,也是我们想要通过命令行下载得到的
下载数据
把下好的文件放到和gdc-client同一路径下,这样后续处理比较方便
新建一个文件夹来保存Cart数据,我的路径为:C:\Users\10630\Desktop\TCGA-LAML\LAML-data
因此我需要在命令行中输入以下命令来下载(根据自己的路径不同改写)
gdc-client download -m D:\Application\gdc-client\gdc_manifest_20230713_123548.txt -d C:\Users\10630\Desktop\TCGA-LAML\LAML-data
数据会逐个样本下载
如果不自己新建路径,则文件会下载至命令行窗口的路径中,我这里就是:C:\Users\10630
这样会和原有文件混在一起,不好处理,所以还是自己新建一个文件夹保存会比较好
成功下载151个样本