前面的分析中,整理好的关键基因集表达谱矩阵,接下来就准备分子亚型的相关分析。
六、一致性聚类构建分子亚型
在6.TCGA和GEO差异基因获取和预后数据的整理\TCGA文件中获取文件
准备一个生存数据和表达谱矩阵,这里需要注意的是,修改tcga.merge.cli.txt文件,为了区分,我们改一下名字cli.txt
打开文件tcga.T.dat.txt,转置这个很重要,未来区分,我们改一下名字tcga.T.dat1.txt
使用一致性聚类工具进行分析(http://www.sxdyc.com/clusterConsistentAnalyse)
提交后,如果这里出现报错,我们需要查看一下样本的对应关系,在前面的分析过程中,表达谱矩阵的样本有重复,所以出现部分样本没有在生存时间中出现,所以这里我们可以对生存数据的样本重新整理。(首先、对tcga.T.dat.txt按照样本使用去重工具去一下重复,对去重后的表达谱样本和生存数据重新取交集)
去重(http://www.sxdyc.com/removeweight)
运行成功后,下载数据,打开文件,转置(行列交换),并改名为tcga.T.dat1.txt
在生存数据中去重在表达谱中不存在的样本,重新提交进行一致性聚类
这里粗略的介绍一下,我们可以选择不同的计算度量聚类方法,聚类的方法和数据标准化的方法(raw:原始,scale:scale标准化,center:中心化)
运行成功后,下载相关的结果即可,查看KM曲线,如果预后无意义(p>0.05),这时候可以换一个度量聚类方法/聚类的方法/数据标准化的方法继续往下走,直到能得到预后有意义的分子亚型为止。
当然如果这里我们想显示,生存时间为年的,就在cli.txt文件中,修改生存时间,将天改为年即可。
七、ESTIMATE预测免疫浸润和差异分析
使用EStimate的方法计算免疫浸润的相关情况(http://www.sxdyc.com/immuneEstimateScore),使用文件(1.TCGA.pre/dat.process.txt.gz)
运行成功后,下载即可
打开dat.extimate.txt的文件,首先提取14-15位的字符串,保留01的样本,然后在取1-14位的字符串,最终做成一下结果
最后做成这个样子,然后zhendui
先去重(http://www.sxdyc.com/removeweight),运行成功后,改名为dat.estimate.process.txt
提取共有的样本,做一个箱线图,需要分型的文件
(http://www.sxdyc.com/geneExpression),运行成功后,改名为dat.estiamte.select.txt
绘制箱线图(http://www.sxdyc.com/immuneAbundanceCompar)
记得cluster2.txt的文件删掉生存时间和生存状态
运行成功后
当然也可以换其他的箱线图(http://www.sxdyc.com/singleCollectionTool)
八、mcpcounter免疫细胞浸润+免疫差异分析+热图
使用mcpcounter的方法计算免疫浸润的相关情况(http://www.sxdyc.com/immuneInfiltration),使用文件(1.TCGA.pre/dat.process.txt.gz)
运行完成后,下载即可
打开data.pre.txt的文件,去除肿瘤组织,只留1-12位的字符串(和ESTIAMTE一样的处理)
将列名中_mcpcounter去掉,当然,也可以不去
去重(http://www.sxdyc.com/removeweight),运行完成后下载,并改名为dat.mcp.process.txt,复制8.ESTIMATE预测免疫浸润中的cluster2.txt的文件
提取共同的样本,运行完成后,下载并改名为dat.mcp.select.txt
绘制箱线图(http://www.sxdyc.com/visualsBoxplot)
热图(http://www.sxdyc.com/visualsClusterHeat)
打开dat.mcp.select.txt文件,转置,并改名为dat.mcp.select.T.txt
如果想把列注释(样本分组)排序,就只需要打开cluster.2.txt文件,按照分组的名称进行排序,重新绘制此图即可
#################################
如果有兴趣可以关注公众号(豆芽数据分析)
有零代码复现相关问题,可以付费进入零代码答疑群和大家一起交流,群费为9.9元,拒绝白嫖党(添加微信:ShenxinBS003或者ShenxinBS001)