欢迎关注”生信修炼手册”!
GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t
分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。
GTF全称Gene transfer format, 每列的含义如下
1. column1
第一列是seqid
, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。
2. column2
第二列是source
, 代表基因结构的来源,可以是数据库的名称,比如来自RefSeq
数据库,也可以是软件的名称,比如用GeneScan
软件预测得到,当然,也可以为空,用.
点号填充。
3. column3
第三列是feature
, 代表区间对应的特征类型, 在GTF中,常见的类型如下
- 5UTR
- 3UTR
- exon
- CDS
- start_codon
- stop_codon
4. column4
第四列是start
, 代表区间的起始位置
5. column5
第四列是end
, 代表区间的终止位置
6. column6
第六列是score
, 软件提供了统计值,如果没有,就用.
填充
7. column7
第七列是strand
, 代表正负链的信息, +
表示正链,-
表示负链,?
表示不清楚正负链的信息,当正负链信息没有意义时,可以用.
填充
8. column8
第八列是phase
,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种
9. column9
第九列是attributes
, 表示属性,每种属性写法为key value
, 注意和gff中key=value
有所区别,而且必须有gene_id
和transcript_id
这两个属性, 多个属性用分号分隔
下面看下Ensembl 数据库中的human的GTF文件,链接如下
ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz
在头部有#
开头的注释行
#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01
在正文中,基因示例如下
1 ensembl_havana gene 65419 71585 . + . gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";
对于基因,提供了如下属性
- gene_id
- gene_version
- gene_name
- gene_source
- gene_biotype
Ensembl数据库中的基因ID以ENSG
作为前缀,gene_version指的是基因ID的版本号,用于区分不同版本,一个完整的ID为ENSG编号加上版本号,之间用.
点号分隔,比如ENSG00000186092.6
。gene_name指的是基因的symbol, 和NCBI数据库中的gene_symbol一致;gene_source代表来源,来自ensembl_havana, gene_biotype代表基因类型,protein_coding
表示蛋白编码基因。
转录本示例如下
1 havana transcript 65419 71585 . + . gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";
对于转录本,在基因的基础上,增加了如下属性
- transcript_id
- transcript_version
- transcript_name
- transcript_source
- transcript_biotype
各个属性的含义也比较直观,和基因的类似。
exon示例如下
1 havana exon 65419 65433 . + . gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "1"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; exon_id "ENSE00003812156"; exon_version "1"; tag "basic";
对于exon,新增了如下属性
1. exon_number
2. exon_id
3. exon_version
对于non-coding的转录本而言,transcript
和exon
两种信息就可以准确描述该转录本的结构了;对于编码蛋白质的转录本,还需要以下几种信息
5UTR示例如下
1 havana five_prime_utr 65520 65564 . + . gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";
CDS示例如下
1 havana CDS 65565 65573 . + 0 gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; protein_id "ENSP00000493376"; protein_version "2"; tag "basic";
start_codon示例如下
1 havana start_codon 65565 65567 . + 0 gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";
stop_codon示例如下
1 havana stop_codon 70006 70008 . + 0 gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "3"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";
3UTR示例如下
1 havana three_prime_utr 70009 71585 . + . gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";
通过这几种信息,可以准确描述一个编码蛋白的转录本的结构。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!