一、原始数据质控
1.原始测序数据(也是reads)
从测序仪中直接取下来的数据,它包括了所有的碱基,无论是测序质量低的,还有可能包含测错的,可能还会包含实验误差。
2.数据质控
把原始测序数据 (raw data)据输入到质量控制软件中(将低质量的、没有测出来、测错的删掉),转换成QC/过滤低质量read数据(clean data)。
clean data可以被认为是没有测序错误的数据。
注:假设:
由于我们的原始数据就是reads(10000条),经过原始数据指控后,会变成clean data(8500条)。
二、数据预处理
注:数据预处理实际上就是数据比对。
1.数据比对
假设每一个read是150个碱基,但是人类的参考基因组有3亿个碱基,我想知道我测这一段是人体基因组的哪个染色体的哪个位置上的一小段,将测到的这一小段贴到人类参考基因组上给它一个标记,就相当于给它一个位置。这就叫做比对。
比对结束后得到的就是bam文件。 比对完后,每一个reads都有一个位置写到了这个文件中。
2.排序
按照reads的比对位置进行排序。比如说第一条reads比对到了1号染色体上的100个位置,第二条reads比对到了1号染色体上的1个位置,则需要将这两条reads的位置进行互换。我们需要排一下序,按照1-22号染色体加XY的顺序,同一条染色体上按照位置从小到大来排序。 排序后,在bam存储上方便,所占用的空间较小,对于突变识别也很重要。
3.去重复
首先我们来理解一下,就是首尾一样,长度一样,碱基也是一样的。可以理解成双胞胎。
这种重复可能是实验重复造成的。
我们去重复是为了达到这样一个效果:在1号染色体的第一个位置有一条reads,在1号染色体的第二个位置有一条reads。
4.局部重比对
我们先来说局部,指的是存在插入删除的位置。局部重比对指的是在存在插入删除的位置在进行一些比对,主要是为了比对的准确性。
常见的插入删除的位置上,很多人,比如在3号染色体第10000万个位置会出现删除这个事件,但是却没有导致疾病。但如果这些删除不进行处理的话,可能会导致在这个位置周围的比对都不太准确。
5.碱基质量重校正(BQSR)
碱基质量重校正(BQSR),是一个机器学习的方法,就是将碱基的质量(指的是测序质量),比如说在1号染色体某一位置可能会有多条reads来覆盖,由于reads有150个bp,假设比对到了位置1,从1-150位置均会覆盖。比如说有一个位置有很多的reads覆盖到了这个位置,在同一个位置上出现了两种碱基(A和T):如果我们发现T的质量是非常非常低的,A的质量是非常非常高的,可以将T校正一下;如果我们发现A和T的质量差不多且都特别高时,则无需校正,这证明时A到T发生了突变。
注:
局部重比对和碱基质量重校正都是使用GATK的软件。
数据预处理中的每一步的输出均是BAM格式。
三、变异检测-
1.变异检测软件
将BAM文件输入到变异检测软件(VarScan、GATK、Mutect2等)中,会得到VCF格式的文件。
2.VCF文件的格式
一般为10几行,第1列:染色体号;第2列:染色体位置;第3列:是一个ID,是找到的变异位置的ID,可选的;后面参考基因组的上的碱基、突变后的碱基、基因型、深度、碱基频率。
3.变异检测的目的
是为了从bam得到突变。因为bam是每一个位置上的碱基均有,但并不是每一个位点均是突变,VCF则是将突变的位点显现出来。bam文件可能会有10个G,但一般的VCF文件通常不会超过一个G,如果VCF文件超过1个G时,则证明测序存在错误,测的太差了。
4.蓝色箭头所代表的流程
变异检测所输出的每一个样本的VCF,将它们联合起来,所以叫联合基因型。假如说我们这个胃癌的队列有100个样本,就会出现100个VCF,组成一个VCF,merge成为gVCF.再通过联合基因型,这个结果可以和单独的100个样本的VCF在做一个变异质控和过滤。
注:
在我们的实验室中,VQSR和多样本的那一部分均不会做。但是我们会通过自己设定的一些指标进行过滤,比如深度上低于20时则不要;碱基频率频率低于0.1时不要。
四、变异注释
我们刚刚拿到的变异只有位置,有参考基因组的碱基、突变成的碱基。而我们找基因突变的目的不是为了找看基因突变,而是为了看这个基因在蛋白的表达上有什么影响使人体患病。就是说要将其转换为生物体上的数据。比如说这个基因表达了那种蛋白,由于该基因突变导致 此蛋白失活,使得该蛋白没有功能了。
Varscan Somatic Variant Calling Pipeline
使用tumor bam和normal bam,找肿瘤和正常细胞有什么不同,正常的细胞是对照,将bam文件转换成Pileup,然后将其输入软件Varscan会将其转换为两种VCF:单碱基突变(SNV)、短插入和删除(INDEL)。在经过突变的过滤,高可信度SNV、低可信度的SNV、种系突变、SNV LOH(SNV杂合性丢失)。
MuTect Somatic Variant Calling Pipeline
Panel of Normals(PON):GATK组织为了规避测序上的错误,包括一些种系的突变,PON需要自己来建立,他建立的条件非常苛刻(必须使用正常健康人年轻人的血提取的DNA来进行测序,另外要求测序技术、平台都要这一批的tumor和normal测序的环境完全一样)。所以PON这步在我们实验室也不做。PON只是一个可选参数,即使没有MuTect2仍然可以使用。