欢迎关注”生信修炼手册”!
在数据分析中,经常需要下载物种的参考基因组序列。通常情况下,可以考虑以下3个数据库
- NCBI
- Ensembl
- UCSC
这三个数据库都是公共的大型数据库,里面存储了很多物种的基因组序列。这3个数据库作为第一选择,如果这三个数据库中都没有你要寻找的物种,可以尝试寻找该物种特有的数据库。
同一个基因组在以上三大数据库中的记录还是稍有不同的,以human
为例,在NCBI中的链接如下
可以看到,基因组的版本为GRCh38.p12
。对于每条染色体,提供了RefSeq
和INSDC
两种编号。
在下载时,可以从红色方框标记的3处地方进行下载, 其中genome
链接可以直接下载序列,如果该物种同时提供了RefSeq和Genebank,则此链接下载的是RefSeq的序列;如果只有GeneBank,则此链接下载的是GeneBank的序列。
1. Genebank
genebank数据库为每个组装的版本提供了一个GCA
开头的编号,human的最新版编号为GCA_000001405.27
。从genbank下载的序列中,每条序列的ID是上图中的INSDC编号,1号染色体对应的编号如下
CM000663.2
2. RefSeq
genebank数据库中为每个组装的版本提供了一个GCF开头的编号,human的最新版编号为
GCF_000001405.38`。从genbank下载的序列中,每条序列的ID是上图中的RefSeq编号,1号染色体对应的编号如下
NC_000001.11
其实Genebank和RefSeq中序列的内容是完全相同的,只是序列标识符有区别而已。GeneBank是开放的,所有的人都可以向其中提交数据,而RefSeq是需要审核的,保证了数据的可靠性。
NCBI提供的基因组序列包含以下4种水平
- chromsome
- unlocalized-scaffold
- alt-scaffold
- patch
chromsome
就是组装到染色体水平的序列,比如chr1
这种序列;unlocalized-scaffold
是无法定位到染色体的scaffold序列,比如chrUn
这种序列,这两种格式的序列共同组成了基因组的primary_assembly
版本。
alt-scaffold
的染色体定位是清楚的,是染色体上部分区域的同源序列,比如chr3_KI270934v1_alt
这种序列,对于多倍体生物,同源染色体会存在杂合,所以会出现alt的现象;patch
指的是补丁序列,其染色体定位也是清楚的,是对已有序列的补充和纠正,在未来的版本中,会更新到染色体上去。
NCBI下载的序列并不直接提供chr1
这种我们常见的编号,如果想要这种编号,可以考虑从UCSC和Ensembl进行下载。
UCSC为基因组的不同版本提供了缩写,对于human而言,有hg38, hg19等。从下图可以看到,UCSC的版本和NCBI的版本相对应,比如hg38对应的版本为GRCh38。
hg38基因组序列对应的下载链接为
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
UCSC提供的基因组序列只包含chromsome
, unlocalized-scaffold
,alt-scaffold
这三种序列,其标识符是chr1
这种格式, 需要注意的是,线粒体的标识符为chrM
。
Ensembl提供的基因组序列和NCBI的Genebank数据库完全对应,human的截图如下
FTP地址如下
ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/
Ensembl提供了以下两种版本
- top_level
- primary_assembly
top_level
版本和NCBI提供的版本一致,包含了所有的组装结果;而primary_assembly
版本只包含chromsome和unplaced-scaffold序列。
这两个版本用处也不大一样,primary_assembly
不包含alt-scafflod, 更适用于SNP的分析, 因为SNP就是在分析基因组上的杂合程度,而top_level
版本适合于SNP以外的场景,更加完整的序列可以保证良好的比对率。
对于同一个版本, 还提供了不同的序列类型
- dna
- rm
- sm
dna
就是原始的基因组序列,rm
和sm
在原始序列的基础上标记了其中的低复杂度序列,其中rm
采用了硬编码的形式,删除了基因组中的低复杂度序列,sm
采用了软编码的方式,将低复杂度序列用小写字母表示。通常选择dna
版本进行下载即可。
最后强调一点,Ensembl提供的序列标识符也是我们常见的染色体编号的形式,只不过是不带chr
前缀的,而且线粒体用MT
表示。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!