Gene Set Enrichment Analysis (基因集富集分析)用来评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。
其输入数据包含两部分:
- 一是已知功能的基因集 (可以是GO注释、MsigDB的注释或其它符合格式的基因集定义);
- 一是表达矩阵,软件会对基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。
(The gene sets are defined based on prior biological knowledge, e.g., published information about biochemical pathways or coexpression in previous experiments. The goal of GSEA is to determine whether members of a gene set S
tend to occur toward the top
(or bottom) of the listL
, in which case the gene set is correlated with the phenotypic class distinction.)
这与之前讲述的GO富集分析不同。GO富集分析是先筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因,即我们定义的显著差异基因。
而GSEA则不局限于差异基因,从基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响。
GSEA原理
给定一个排序的基因表L
和一个预先定义的基因集S
GSEA的目的是判断S
里面的成员s
在L
里面是随机分布还是主要聚集在L
的顶部或底部。
这些基因排序的依据是其在不同表型状态下的表达差异,若研究的基因集S
的成员显著聚集在L
的顶部或底部,则说明此基因集成员对表型的差异有贡献,也是我们关注的基因集。