- 一、测序bias
- 二、定量方法
- 三、丰度计算方法
- 1. reads Count
- 2. RPKM/FPKM
- 3. RPM/CPM
- 4. TPM
- 四、区别
一、测序bias
- 长度: 相同表达丰度的转录本,往往会由于其基因长度上的差异,导致测序获得的Read(Fregment)数不同。总的来说,越长的转录本,测得的Read(Fregment)数越多
- 测序深度: 由测序文库的不同大小而引来的差异。即同一个转录本,其测序深度越深,通过测序获得的Read(Fregment)数就越多。
raw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是规模不同(基因长度、测序深度),不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值,去除技术偏差的影响,使后续的差异分析具有统计学的意义。
二、定量方法
参考链接:https://www.meiwen.com.cn/subject/aegzsqtx.html
- 基于比对:
1.软件:RSEM、eXpress
2.结果:FPKM,TPM两种
3.过程:比对->产生bowtie.bam文件->导入RSEM或eXpress->产生每个拼接转录本的最大期望count数和一个基因对应多个转录本两个文件 - 基于kmer:
1.软件:kallisto、salmon
2.结果:仅有TPM
3.优点:快(转录本划分成kmer, 用kmer出现的次数来衡量转录本丰度)
ps: 分类
- 绝对定量:明确知道一个细胞中、或者是一定摩尔量的 RNA中,有多少条某种转录本(对样品进行细胞计数或者添加 spike-in)
- 相对定量:描述某基因的转录本占样本中所有转录本的百分比
三、丰度计算方法
参考链接:https://www.jianshu.com/p/c25e84383ae3
1. reads Count
- 定义: 高通量测序中比对到exon上的reads数。可使用featureCount等软件进行计算。
- 优点: 可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况,有利于实验验证。
- 缺点: 由于exon长度不同,难以进行不同exon丰度比较;由于测序总数不同,难以对不同测序样本间进行比较。因此需要进行标准化使得不同样本以及不同基因可以进行比较。
2. RPKM/FPKM
- 定义: Reads/Fragments Per Kilobase of exon model per Million mapped reads
- 公式:
- 优点: tophat-cufflinks流程固定,应用范围广。理论上,可弥补reads Count的缺点,消除样本间和基因间差异。适用于基因长度波动较大的测序方法,如lncRNA-seq测序,lncRNA的长度在200-100000碱基不等。
- 缺点: 无生物学意义
3. RPM/CPM
- 定义: Reads/Counts of exon model per Million mapped reads
- 公式:
- 优点: 利于进行样本间比较。适合于产生的read读数不受基因长度影响的测序方法,比如miRNA-seq测序,miRNA的长度一般在20-24个碱基之间。
- 缺点: 未消除exon长度造成的表达差异,难以进行样本内exon差异表达的比较。
4. TPM
- 定义: Transcripts Per Kilobase of exon model per Million mapped reads
- 公式:
- Ni为比对到第i个exon的reads数; Li为第i个exon的长度
- 优点: 首先消除exon长度造成的差异,随后消除样本间测序总reads count不同造成的差异,有生物学意义
- 缺点: 因为不是采用比对到基因组上的总reads count,所以特殊情况下不够准确。例如:某突变体对exon造成整体影响时,难以找出差异。
四、区别
- RPKM/FPKM与RPM: 是否考虑基因长度对read读数的影响
- RPKM与FPKM: RPKM值适用于单末端RNA-seq实验数据,FPKM适用于双末端RNA-seq测序数据。对于双末端测序而言,如果一对paired-read都比对上了, 那么这一对paired-read称之为1个fragment, 2个read。
- TPM与RPKM/FPKM:
- 异: 从计算公式来说,唯一的不同是计算操作的顺序,TPM是先去除了基因长度的影响,而RPKM/FPKM是先去除测序深度的影响。也就是说,在给每个基因分reads时,RPKM保证全长的基因公平参加分配,分完回来后,除以自己的长度可能会吃亏或赚到,而TPM用平均基因长度去参与分reads,分到的就能代表平均表达水平。
- 同: 一段基因中片段不同区域的转录活性是不一样,上述三个值用了平均转录活性去代表整个基因的转录活性,有可能带来bias(比如一个很长的基因,只有其中一小段活跃表达,这样RPKM值很低,但他的表达其实是很高的)