在数据导入阶段,会在探针水平做一些过滤,然后得到探针的表达谱数据。导入成功之后,接下来就可以看下QC 情况。

使用​​champ.QC​​函数进行QC,主要是做一些可视化的图表

champ.QC(Rplot = FALSE)
[===========================]
[<<<<< ChAMP.QC START >>>>>>]
champ.QC Results will be saved in ./CHAMP_QCimages/
[QC plots will be proceed with 404383 probes and 8 samples.]
<< Prepare Data Over. >>
<< plot mdsPlot Done. >>
<< Plot densityPlot Done. >>
< Dendrogram Plot Feature Selection Method >: No Selection, directly use all CpGs to calculate distance matrix.
<< Plot dendrogram Done. >>
[<<<<<< ChAMP.QC END >>>>>>>]
[===========================]
[You may want to process champ.norm() next.]

QC 成功之后,所有的结果都保存在工作目录下的​​CHAMP_QCimages​​目录下

CHAMP_QCimages/
├── raw_densityPlot.pdf
├── raw_mdsPlot.pdf
└── raw_SampleCluster.pdf

所有的可视化结果会根据SampleSheet.csv 文件中指定的Sampel_Group 信息,分组展示。

raw_densityPlot.pdf

由于数据导入的过程中,对探针进行了过滤,所以这里的探针个数为​​404383​​,这幅图展示的是探针beta 值的密度分布信息,每个样本一条线,颜色用分组区分

ChAMP分析甲基化芯片数据-QC篇_c函数

raw_mdsPlot.pdf

用MDS 的方法对样本的beta 值进行分析,看下样本的分组和实验分组是否关联

ChAMP分析甲基化芯片数据-QC篇_c函数_02

raw_SampleCluster.pdf

根据探针的beta 值,对样本进行聚类,看下样本分类情况

ChAMP分析甲基化芯片数据-QC篇_c函数_03

QC的本质是确认样本间的关系,和实验设计是否一致。在上面的示意图中,T1,T2,T3,T4 属于同一组,但是很明显T1和T3更接近,T2和T4更接近,也就是说T1,T3和T2,T4 两组样本之间存在差异,我们有必要确定造成差异的原因。是否样本本身存在差异,还是说这种差异是由实验阶段的错误操作导致的,如果实验环节确定没问题,那么就是说样本本身存在差异。在后续的差异分析环节,就需要注意这种样本本身的差异对结果