题目:Improving Silkworm Genome Annotation Using a Proteogenomics Approach
期刊:Journal of Proteome Research
发表时间:June 28, 2019
DOI:10.1021/acs.jproteome.8b00965
分享人:张霞
内容与观点:
1、 文章研究概述
桑蚕是一种重要的经济昆虫,并作为鳞翅目模式昆虫用于基础研究。作者通过以往的研究发现,目前对于桑蚕的基因测序和组装研究已基本解决,在基因注释研究方面,基于ESTs和基因序列鉴定了277可变剪接类型;基于RNA-seq鉴定了1923可变剪接,58反式剪接;基于转录蛋白组学分析,发现3247 基因可能存在可变剪接,可见对基因的注释并不完全,同时有研究表明注释误差较大,误差主要发生在阅读框架,外显子界线的确定,可变剪接额类型,使得基因模型难于预测。同时,目前的分析预测软件也存在一定的错误率。作者认为,基于质谱的蛋白数据可以为蛋白编码基因提供直接证据,所以本文欲以蛋白基因组学方法试图对桑蚕的基因进行注释研究,并辅以转录蛋白质组学进行加以验证。本文以桑蚕不同发育时期的不同组织进行质谱检测,获得980万张谱图,通过与数据库比对,经由软件分析,共鉴定了1838新转录本和1593可变剪接基因;证实了14个不确定基因和10个跳跃外显子;校正了5074个现有基因和2581非转录区。
2、 实验流程
2.1 MS 数据
选用培养和野生桑蚕不同发育阶段的不同组织(后部丝腺PSG,中部丝腺,卵巢,睾丸,头部,大脑,前胸腺,食管下神经节,血淋巴,脂肪和胚胎)进行bottom-up分析,先进行SDS-PAGE,对蛋白进行分离,接着胶内酶解,用0.1%甲酸重悬用于LC-MS/MS上机,使用iTRAQ对PSG组织进行标记定量。
2.2 数据库构建和肽段鉴定
从Silk Genome Database Website 上下载蛋白数据库Silk PDB(14623),从NCBI上下载BmPDB(7859),构建数据库SilkGDB(B.mori genome的六帧翻译数据库)和SilkASDB(外显子-外显子连接肽段数据库)以及混合数据库(Silk PDB+SilkGDB和Silk PDB+SilkASDB),质谱得到的数据通过以上数据库进行搜索鉴定。参数设置时注意以下五点:①trypsin酶切设置:允许一个missed cleavage。② 肽段谱图错误容忍度为20ppm。③片段谱图中iTRAQ容忍度为0.02Da,其他为0.6Da。④固定修饰为半胱氨酸的脲基化;可变修饰为N端乙酰化,甲硫氨酸的氧化,谷氨酰胺和天冬酰胺的脱酰胺。⑤通过decoy库比对,以FDR为1% 过滤肽段。
2.3 基因注释工作流程
通过数据库搜索,定义GSSP为仅存在于SilkGDB数据库,而不存在于Silk PDB数据库。以GSSP用来修正基因注释;以Silk PDB数据库和SilkASDB数据库搜索的肽段鉴定新的可变剪接。使用TBLASTN软件以GSSP获得相对应的ORF,若ORF与现有基因模型重叠,为固有基因;若ORF与基因间区域重叠,则为新基因。为确保结果可靠,ORF序列与EST序列进行比对鉴定单一基因,用BLAST搜索同源蛋白,以GSSP,单一基因和同源蛋白共同质控固有和新基因的鉴定。
2.4 RNA-seq分析
对桑蚕不同发育阶段的PSG进行RNA提取并测序,得9600万读数,与参考基因进行比对,鉴定可变剪接位点,校正基因模型,鉴定新基因。
2.5 GO和KEGG路径分析
以桑蚕全基因作为背景,用agriGO和Blast2GO软件对可变剪接和全基因进行GO注释。用线上KEGG进行路径注释。
3、 实验结果
3.1 传统蛋白组学
通过MS/MS谱图与参考蛋白数据库(Silk PDB和BmPDB)比对,去掉多余数据后,共鉴定4307蛋白,933个蛋白是两个数据库共有,不同的组织蛋白也不同。PSG为桑蚕中合成蛋白的主要器官,对比培养组和野生组,分别鉴定了3487和1957个蛋白,共享蛋白为1823个。结果如下表1和下图2所示。
3.2 GSSPs完善基因注释
质谱图通过与SilkGDB和SilkPDB的混合数据库的匹配对比,共鉴定14378肽段序列,其中1701个为新肽段。GSSP与基因相比对,找到了74个新ORF位置,根据上述流程中介绍,结合肽段,同源蛋白,单一基因的证据,当ORF与注释基因模式重叠时为固有基因,共鉴定3593个;与注释基因不重叠的为新基因,共1404个。结果如下表2所示。
3.3 新基因
74个新ORF中,53个有同源蛋白为支撑证据,1个有单一基因为支撑证据,20个除了至少有两个GSSP外没有其他支撑证据。很多新的ORF被注释为相同预测蛋白。例如,在18号染色体上大约50kbp基因内,在26个GSSPs中证实了10个新ORF。如下图3所示。
3.4 修正注释基因模型
使用GSSPs与SilkPDB数据库中固有基因进行比对,以重叠结果校正了121个基因模型,这些基因中的大部分(68个基因)是外显子延伸,其中37个为第一个外显子的5‘端延伸。例如下图4所示,两个特殊新肽段比对到一个固有基因的上游;再如下图5所示,12和13外显子之间的内含子区域鉴定了2个特有GSSP,新外显子序列与Danaus plexippus (EHJ72156.1) and Manduca sexta (AAF18300.1) 蛋白具有高度相似性。
基于核苷酸的传统基因注释很难鉴定读写框,但基于肽段的方法能特异证实对应基因的转录读写框并能对错误注释进行校正。如下图6所示,两个特异GSSP比对到该基因的最后外显子上,但注释外显子frame与肽段的不同,可进行校正。
3.5 可变剪接
由于可变剪接的表达不高,所以很难判断, 且一般从mRNA判定,容易包含可变剪接前体序列;基于蛋白质水平的质谱数据,可通过鉴定连接肽段,进而鉴定剪接连接以及发现新的剪接类型。可构建外显子跳跃数据库SilkASDB(一个基因中有两个外显子),搜索连接肽段,通过与质谱图进行比对,找到1330个剪接交界跨肽,从527个基因中找到1105个剪接位点,从148个剪接交界跨肽中找到132个已知剪接连接。下图7所示为5个剪接连接肽段鉴定了基因的多个跳跃外显子并发现了新的剪接类型。
3.6 通过RNA-seq提高基因注释
结合RNA-seq方法以提高蛋白基因组学的可靠性。得到的样品RNA序列与参考基因数据库SilkTransDB比对后发现1704个新转录本,1325个序列数>1000bp,1007个仅有一个外显子。除此之外,还在注释基因的内含子区发现11368个新外显子,在3482个基因模型中具有一定作用;在2153个基因中发现2581个UTRs。共鉴定2017个可变剪接,可分为四种不同类型:①1498为保留内含子,②514为跳跃外显子,③4个为5‘和3‘可变剪接位点,④一个为可变5’外显子。
3.7 蛋白基因组学和转录蛋白组学分析的比较
由蛋白基因组学鉴定的74个新ORFs中有39个可以从转录数据库中鉴定到,这39个外显子大多被注释为外显子,但两种方法的外显子鉴定界限不同。蛋白基因组学和转录组学对许多未发现基因具有更精确的注释。当前注释误差的主要来源为传统注释途径的不准确以及可变剪接的存在,发现的新基因可能是保留内含子,也可能是注释错误,很难区分。由蛋白基因组学鉴定的外显子结构和转录组学鉴定的外显子结构有很大的不同。由蛋白基因组学和转录组学共同鉴定1838个新转录本,1593个可变剪接;校正了5074个固有基因。
3.8 可变剪接和新转录本的GO和KEGG路径分析
用所有桑蚕基因作为背景,对1838个新转录本和1593个可变剪接基因做GO功能分类,1838个新转录本中仅350个在GO中被分类。在分子功能分类中,新转录本和全基因没有明显区别,值得注意的是,没有基因参与抗氧化过程,有一个新的转录本与蛋白辅助转导活性特异相关。大多数GO terms与细胞和代谢过程相关,Six GO terms 与多细胞有机体过程,生物调节,发育过程,色素沉着,细胞成分组织和位置相关。最终1593个可变剪接中有1074个被GO注释,大都包含于细胞,细胞器,结合,催化活性,细胞和代谢过程中。
KEGG的通路分析显示1024个可变剪接基因包含于285个KEGG通路中,46个可变剪接基因参与RNA传输通路,40个可变剪接基因参与于"剪接体通路"。共有40个可变剪接基因与内质蛋白处理有关,38个可变剪接基因参与核糖体,表明可变剪接基因的蛋白合成活性。
4、 结论
最终,共鉴定1838个新转录本,1593个可变剪接基因;使用蛋白基因组学和转录组学分析校正了5074个固有基因。
5、创新点
本文通过使用蛋白基因组学的方法对基因进行注释,扩大了鉴定范围并提高了注释准确度。