叶绿体基因组组装须要注意的地方

    随着测序技术以及生信技术的发展,越来越多的叶绿体基因组被发表。本人从19年那8月份开始正式接触叶绿体基因组的组装,到今年2月份组装了接近600个叶绿体基因组,包括71+个科,157+属/种(其他的还做了动物线粒体100多个,植物线粒体30多个)。从一开始磕磕绊绊,寻求各种组装软件、流程来完成项目(但是常规叶绿体基因组只有一半左右的软件可以做出来,而且可能会存在一些错误),所以到后来几乎都是用自己写脚本辅助组装。
    叶绿体基因组比较小,组装起来相对会容易些,但是对一般人来讲如果软件组装不出来的话自己去调整还是比较麻烦的。我对组装软件的使用研究不是很多,因为组装软件能够组装出来的序列用我自己的脚本基本都可以轻松组装出来,而且速度更快,可以保证每个位点的准确性,缺点也很明显,自动化程度不高,需要一定的经验和技术。组装软件组装不出来的序列用自己的脚本也大概能拼接出来,这种就更需要经验来操作了…
关于怎么组装,目前很多软件,大家可以自己试试。然后有一篇比较好的博客给大家推荐下,2020.08.18【转载】丨叶绿体基因组二代测序组装经验分享 这篇博客是我目前看到的二代组装叶绿体基因组的最标准的方法了,用到的工具也都是自己可以获取的(如果你用组装软件没组装出来,可以参考这个方法试试看)。我自己写的脚本和该文作者提到的思路类似,但是相比可能更便捷些。其次是他的方法可能比较适用于一些保守的叶绿体,而且需要有近缘物种作为参考的。遇到变异比较大的,或者没有近缘物种的,可能就不好做了,比如藻类的、蕨类的物种研究的可能相对比较少一些,而且变异比较大,又或者仙人掌、豆科等物种变异比较大的。当然,如果你研究的叶绿体如果重复序列特别多而且比较长(长于二代测序读长),这种还是测三代吧~ 比如:杜鹃花科?某些特殊的豆科?蕨类?三代组装起来非常的容易,但是校正是件比较麻烦的事,具体后面说。
    下面说一说叶绿体基因组组装的结果可能会遇到的问题,主要针对具有四分体结构的序列:

  • 个别碱基错误,或采用低深度的碱基作为组装结果,这种用校正软件校正下即可,但是重复区的序列可能校正不了,需要自己检查校正。
  • 错误连接,连接处没有reads覆盖,或者覆盖很差,这种需要将reads比对到目标区域,局部手动组装,或者用软件延伸后校正。
  • -序列起点问题,四分体结构的叶绿体一般以LSC作为起点,但是有的组装软件没有起点校正这一块,所以容易出现起点不对的情况,比如正常顺序是:LSC:1-8,IRb:9-11,SSC:12-13,IRa:14-16。如果起点位于LSC和SSC中,对反向重复区的鉴定并不影响,如果起点位于IR中,那么在鉴定反向重复区的时候可能会出现一些小问题,比如以16作为起点,那么序列就是16,1-15;在鉴定的时候很容易把16算到大单拷贝中,即:LSC:16,1-8,IRb:9-10,SSC:12-13,IRa:14-15。这个时候反向重复区会缩减。这种情况对后续的分析,尤其是边界分析上是有很大影响的。
  • 序列方向问题,主要是单拷贝区方向问题,二代组装是无法判断单拷贝区的方向的,正向和反向的结果都可能出现,LSC和SSC均可能反向,为了便于后续的分析,需要根据已有参考进行比较,和参考序列保持一致即可。如果没有参考,或者参考有多种情况,可以按照以psbA基因在序列开头附近,ndhF基因在负链上为准(个人经验,这种情况的序列出现的最多)。
  • 反向重复区不一样问题(这里的一样是指序列完全反向互补,100%相似度),根据个人的经验,反向重复区相当的保守,我自己组装过的近六百个叶绿体基因组,所有有反向重复区的序列反向重复区都是100%相似的,但是目前有些已经发表的序列出现反向重复区有碱基不同(不是互补的),可能还是组装的时候没有校正好,当然,也可能确实存在反向重复区不一样的序列。在组装的过程中,我也发现有些组装出来的序列反向重复区不是100%相似,经过判读确认是组装上的问题。那如何判断呢?可以根据覆盖深度判断,如果叶绿体的平均覆盖深度都为1,那么单独的一个反向重复区的序列覆盖深度应该为2,如果反向重复的某个碱基发生改变,其覆盖深度也会出现相应的变化——单独的一个反向重复区的某个位置覆盖深度会变成1,这样就大概能确定反向重复区的该位点确实不一样。在个人分析的过程中发现,多数不一样的反向重复区都是由于snp导致的,少部分是由于大片段的差异,甚至把反向重复区隔断了(但是其他近缘种都是100%相似),这种情况对于后续的分析影响还是不好的。
  • 兼并碱基问题,个别软件组装结果中会出现兼并碱基,建议根据深度换成单个碱基,不然后面的注释等其他分析都会比较麻烦。
  • 三代组装错误碱基的问题,这个问题相对还是比较麻烦的,但是目前用三代组装的序列好像不多。三代组装叶绿体基因组是比较容易的事情,而且由于超长reads,甚至可以确定单拷贝区的方向,但是常见的三代组装策略都是先用序列自我纠错然后组装得到序列后再用三代和二代数据纠错。这里会出现如下的问题:如果组装软件不存在修剪冗余序列的话,产生的环状序列可能会有冗余,需要自己删掉。其次就是序列错误,即使通过上述的校正,还是会存在很多错误的位点,尤其是在反向重复区中,导致反向重复区的差异位点会很多,这些都要后期自己校正了~ 个人觉得可以用二代组装,然后用三代确定contig之间的位置,这样准确性会大大提高。
        最后,对于那些没组装出来的叶绿体基因组,不是三言两语就可以说清楚该怎么做,需要一点点的去尝试