在数据导入阶段,会在探针水平做一些过滤,然后得到探针的表达谱数据。导入成功之后,接下来就可以看下QC 情况。
使用champ.QC
函数进行QC,主要是做一些可视化的图表
champ.QC(Rplot = FALSE)
[===========================]
[<<<<< ChAMP.QC START >>>>>>]
champ.QC Results will be saved in ./CHAMP_QCimages/
[QC plots will be proceed with 404383 probes and 8 samples.]
<< Prepare Data Over. >>
<< plot mdsPlot Done. >>
<< Plot densityPlot Done. >>
< Dendrogram Plot Feature Selection Method >: No Selection, directly use all CpGs to calculate distance matrix.
<< Plot dendrogram Done. >>
[<<<<<< ChAMP.QC END >>>>>>>]
[===========================]
[You may want to process champ.norm() next.]
QC 成功之后,所有的结果都保存在工作目录下的CHAMP_QCimages
目录下
CHAMP_QCimages/
├── raw_densityPlot.pdf
├── raw_mdsPlot.pdf
└── raw_SampleCluster.pdf
所有的可视化结果会根据SampleSheet.csv 文件中指定的Sampel_Group 信息,分组展示。
raw_densityPlot.pdf
由于数据导入的过程中,对探针进行了过滤,所以这里的探针个数为404383
,这幅图展示的是探针beta 值的密度分布信息,每个样本一条线,颜色用分组区分
raw_mdsPlot.pdf
用MDS 的方法对样本的beta 值进行分析,看下样本的分组和实验分组是否关联
raw_SampleCluster.pdf
根据探针的beta 值,对样本进行聚类,看下样本分类情况
QC的本质是确认样本间的关系,和实验设计是否一致。在上面的示意图中,T1,T2,T3,T4 属于同一组,但是很明显T1和T3更接近,T2和T4更接近,也就是说T1,T3和T2,T4 两组样本之间存在差异,我们有必要确定造成差异的原因。是否样本本身存在差异,还是说这种差异是由实验阶段的错误操作导致的,如果实验环节确定没问题,那么就是说样本本身存在差异。在后续的差异分析环节,就需要注意这种样本本身的差异对结果