大家好,我是邓飞。
在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。
我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!
下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。
要实现的下面的图:
- 最下方的热图是两两SNP之间的LD值,越高越红,比较红的区域构成一个Block(用黑线连起来)
- 如果提供gff文件,可以显示基因的上游、下游、外显子、内含子区域
- 上面是位点的曼哈顿图,是区域性的曼哈顿图
- 位点之间,也可以根据LD值进行可视化,以最显著的位点为四方形,其它位点与其LD值的大小呈现不同的颜色
软件介绍:(这两款神奇是一人开发,大神呀!)
github链接:https:///BGI-shenzhen/
- A:整体上宏观上用:PopLDdecay 软件 ,软件己经生物信息Bioinformatics杂志发表online
- B: 从局部上查看用:LDBlockShow软件, 软件已经正式被 briefings in bioinformatics (影响分子8.99)的杂志接收
1. 数据准备
- vcf格式的数据,
InVCF
- plink二进制文件,
InPlink
- plink文本文件,
InPlink
2. 软件安装
网址:https:///BGI-shenzhen/LDBlockShow
中文说明书:https:///hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf
安装代码:
3. 软件测试
数据:
file.vcf
代码:
这里,绘制染色体1,位置区间是:49670000:49780000
结果:
4. 进阶:Heatmap + block
vcf文件:Test.vcf.gz
命令:
结果文件:
5. 进阶:Heatmap + block + GWAS
考虑GWAS的结果,加入参数:-InGWAS gwas.pvalue
vcf文件:Test.vcf.gz
GWAS结果文件:三列,Chr, Position, Pvalue,没有行头
命令:
结果:
结果中包括热图,block图和GWAS图合并起来了。
上面的图,可以通过ShowLDSVG
软件,进一步优化:
- -Cutline,阈值定义为7
- -ShowNum,显示LD值
- -PointSize,显示点大小
结果:
6. Heatmap + block + GWAS + Annotation
相比较上图,增加了注释的信息。
文件需要:
- vcf,vcf格式的文件
- gwas_pvalue,三列的gwas结果(Chr,Position,Pvalue),无行头
- gff文件,注释文件
命令:
也可以增加SNP的名称:
命令:
7. 进阶:LDblock+GWAS+Annotation+Locuszoom
可以通过-TopSite
在GWAS图中显示最显著位点与其它位点的LD关系。
下图中,最显著的位点为四边形,其它颜色,红色表示LD高,其它颜色表示LD低。在上图的基础上,增加了最显著位点与其它位点的LD情况。
参考:https:///hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf