TCGA数据库有大量开放的甲基化数据,对我们科研非常有利,但是怎么挖掘呢?是不是去参加培训班就可以了?答案肯定不是的。有很多人去参加了培训班,然后学会了分析。但是搞了两三个月,还是没有结果。导致结果出不来的罪魁祸首就是网速和自己的电脑。首先,网络就是一个大问题,很多时候在医院或者学校都是一大堆人共用的网络,平均下来每人只有几m,这样的网络来下载几十g的数据,往往需要很久很久,用一两个月是很正常,而且在网速比较慢的情况,下载过程很容易断掉,然后又要重新下载,这样反反复复,最后什么都没有下载到,下载到都想砸电脑了。
下载好了数据,还有就是数据提取整理的过程,这个过程也是非常痛苦的,如果你实验室或者课题组或者自己比较土豪有价值几万元的计算机(服务器),那么这个问题就不是问题,直接忽略掉。如果你是自己平时办公室配备的电脑或者自己笔记本,这个问题就是大问题了,利用perl或者python提取数据都会非常消耗计算机大量内存,很多培训都是使用perl,会使CPU超负荷,来不及散热,普通电脑一下子就卡死了,严重的甚至死机。之前有同学用自己的笔记本跑,结果跑了一个月,还是不能把数据提取出来,最后来请我们帮忙。
数据整理好了,就要分析,这个过程是使用r分析,同样对电脑要求比较高,因为生成的矩阵比较大,差的电脑还是非常卡顿的,难以正常工作。
甲基化常见的分析如下:
1、甲基化基因差异分析
2、转录组数据与甲基化数据合并,做相关性分析
3、提取关心基因(例如hub基因)的位点数据,并做相关性分析
4、生存分析
此外,还可以利用甲基化基因矩阵构建cox模型,还可以对关心基因的位点矩阵构建cox模型。