2024年7月5日,上海师范大学黄学辉团队在Science发表了题为Genomic investigation of 18,421 lines reveals the genetic architecture of rice的研究论文。该研究利用超大规模的水稻遗传群体(18K),开发了水稻数量性状基因快速发掘的方法,全面发掘了水稻16个重要农艺性状的QTL基因及基因的遗传互作,构建了水稻QTL基因的遗传互作网络,系统评估了水稻QTL基因的加性和上位性效应。该研究为水稻遗传研究提供了全面的数量性状基因互作信息,将为水稻分子设计育种提供理论支持。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_关联分析

水稻18K群体的构建

水稻中的遗传定位主要通过关联分析和连锁分析来进行。种质资源群体包含了大量的基因变异,但是利用种质资源群体进行全基因组关联分析(GWAS)常因为群体结构和基因频率的影响,难以全面发掘基因位点。连锁分析常用两个材料构建双亲遗传群体,但是双亲遗传群体包含的基因变异较少,能够找到的基因位点较少。因此,论文作者根据水稻品种的亲缘关系从前期收集的水稻 QTN-library群体中筛选到了来自全世界不同地区的代表性水稻品种16个,包含籼稻、温带粳稻、热带粳稻、秋稻(aus)、巴斯马蒂(Basmati)、籼粳中间类型等六种常见的水稻类群(图1)。对16个材料进行了三代长片段测序和全基因组组装,通过与参考基因组日本晴进行比对,发现了大约940万个SNP、350万个插入缺失和10万个结构变异。与QTN-library群体相比,16个代表性材料的变异涵盖了90.5%的非稀有遗传变异位点。通过对结构的分析发现部分材料的6号和9号染色体上存在大片段的倒位,这种倒位会导致染色体片段在后代群体中重组交换频率的降低。移码突变类型的插入缺失和可能导致蛋白质功能改变的SNP占到总变异的8.3%。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_主成分分析_02

图1 16个亲本的基因组多样性

将大面积推广的籼稻品种“黄华占”与其余15个材料分别杂交,随后连续多代自交,构建了15套重组自交系,平均每个群体大约包含1000个株系。此外,还利用籼稻黄华占、秋稻、温带粳稻、热带粳稻做亲本,构建了包含2402个株系的MAGIC群体。15套重组自交系群体和MAGIC群体共包含18421个水稻株系。随后,对18421个株系进行重测序,发现所有材料的平均杂合率为3.7%,在15套重组自交系群体和MAGIC群体中分别发现了26个和1个偏分离位点(图2)。偏分离可能是多代自然选择或无意识人工选择的结果。发现13个控制重要性状的基因与15个子群体中偏分离的QTL共定位(图2D)。偏分离位点中包含Sd1、OsSOC1、Hd1、RFT1、HSA1a、HSA1b等株高、抽穗期和籼稻杂交不育相关基因(图2E)。基因的偏分离产生的原因可能是由于携带这些等位基因的株系在S1到S8代繁种过程中更适应中国南方的环境而逐渐增加,对其余偏分离位点的深入分析可能会揭示出更多参与环境适应性的基因。

目前已发表了至少4591份水稻种质资源的基因组。研究运用主成分分析对4591份材料和18K水稻的群体结构进行了对比,发现4591份材料中的大多数被分为三个具有明显差异的类群,而18K水稻在主成分分析中表现出广泛而连续的分布,表明其群体结构显著减弱(图2A)。因此,利用18K水稻群体,可以显著提高与水稻群体结构相关基因的定位功效。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_关联分析_03

图2 群体偏分离相关基因鉴定 

水稻重要农艺性状QTL发掘

研究团队将18421份水稻株系及其亲本在上海、杭州、三亚进行了株高、杆长、抽穗期、叶长、叶宽、叶夹角、穗长、包颈、穗数、芒长、粒长、粒宽、蛋白质含量、颖壳颜色、单株产量、萌发速率等重要农艺性状的考察(平均表型数据缺失率2.69%)。数量性状的平均广义遗传力为0.69,广义遗传力最低的性状为叶夹角(0.52),最高的性状为杆长(0.94)。

利用18K水稻中大约293万个SNP标记进行GWAS分析,所有性状在三个环境中共发掘到1207个QTL位点,46.3%的位点能够在2个环境中被重复检测到,23.15%的QTL位点能够在3个环境中被重复检测到。不同环境发掘的QTL位点有差异可能是由于不同环境下的温度、降雨和光周期有差别。除了外壳颜色(质量性状),所有性状均受数十个QTL控制,表现出复杂的多基因遗传(图3),平均每个性状能检测到27.5个QTL。

由于每个群体中都有1个共同亲本,所以可以用相同的标准评估QTL基因的效应大小和方向(图3)。不同性状的等位基因效应差异较大,例如,颖壳颜色仅由三个基因(Rd、Kala4和OsC1)控制,而杆长则由一个主效基因(Sd1)和许多微效基因控制。大多数性状中,微效QTL的数量较多,这与玉米等其他物种相似。尽管QTL基因在三个环境下的效应大小不同,但是除了Hd1以外,其他基因在3个环境下的效应方向都一致。这些等位基因的效应量化将有助于在育种时选择合适的等位基因对目标性状进行微调。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_主成分分析_04

图3 18K水稻群体的16个性状中鉴定出的QTL基因的表型效应

基于RiceG2G的QTL基因快速发掘

针对水稻GWAS中较大的连锁不平衡衰减使得QTL定位的精度难以达到单基因水平,研究中开发了一种名为RiceG2G(水稻GWAS到基因)的水稻QTL基因快速发掘的方法。RiceG2G将遗传关联与基因注释、转录组学、功能基因组学和有害变异结合起来,通过收集水稻基因的注释信息(例如,H3K27me3相关、转座子相关)、在18个水稻组织的时空表达模式、同源基因的功能、变异的效应、每个子群体中的QTL信号与亲本关键变异的相关性等(图4A),在每个性状中汇总每个候选基因的RiceG2G分数,排名和分数最高的3个基因作为候选基因。候选基因确定后,利用组装亲本的遗传变异信息,可以快速确定最可能的致因变异位点(QTN)。

利用已知基因测试RiceG2G的可靠性,发现75.0%的已知基因能够被RiceG2G评为强候选基因。此外,RiceG2G还提供了已知基因的新等位形式,包括RFT1和GW6a中的错义突变以及OsSOC1和GNP1中的结构变异。通过分析RiceG2G未将已知基因作为强候选基因的情况,发现RiceG2G的主要限制是缺乏对非编码区变异的精准打分。

通过RiceG2G的分析,结合人工校正,研究共发掘了96个强候选基因,对应了413个QTL位点。96个基因中,48个基因是已知基因,对应338个QTL位点,另外48个是这次研究中新发掘的基因,对应147个QTL位点(图3)。因此,在1207个QTL中,28.0%含有已知基因,大量QTL仍是未知的。发掘的致因变异位点包括63个SNP、41个插入缺失和24个结构变异。已知基因的关联信号高于新发掘基因(P=1.25×10-12),平均-logP信号分别为44.7和20.8。这可能是因为主效应基因更容易通过图位克隆被发掘。另外,对于颖壳颜色和抽穗期等易观测性状,已发掘基因比例较大;对于籽粒蛋白质含量和发芽率等不易测量性状,已发掘基因较少。

新发掘QTL基因的验证

研究对两个候选基因进行了功能验证。通过GWAS发现短日照条件下,2号染色体上有1个位点能够在有效穗数和抽穗期中同时被定位到,-logP值分别为16.1和19.2。穗数增加和抽穗期延迟的等位主要存在于aus和Basmati中。利用RiceG2G,发现OsMADS22为QTL的主要候选基因(图4A)。OsMADS22在孕穗期旗叶中高度表达,在其编码区中没有发现有害变异,但在其启动子的开放染色质区域中发现了变异。此外,其在拟南芥中的同源基因抑制成花素基因FT的表达。为了验证该基因的功能,将来自“Kasalath”的OsMADS22序列完整导入“黄华占”中(图4B),发现互补植株分蘖数/穗数增加2个,开花延迟约7天。通过CRISPR-Cas9技术敲除“黄华占”中的OsMADS22,敲除植株穗数减少、抽穗期提前。这些结果表明OsMADS22是该QTL的功能基因,参与调控水稻分蘖和开花。

此外,研究还利用RiceG2G在1号染色体上鉴定一个控制抽穗期的基因OsFTL1(图4C),发现OsFTL1编码区中的20bp插入缺失是其致因变异,造成了OsFTL1的移码。为了验证基因功能,研究通过CRISPR-Cas9敲除了“黄华占”中的OsFTL1(野生型),并将“黄华占”的完整基因序列引入“Kasalath”中(突变型)。与对照“黄华占”相比,OsFTL1突变植株抽穗期明显变早;与对照“Kasalath”相比,互补植株抽穗期显著延迟。这些结果表明OsFTL1是水稻抽穗期的控制基因。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_ci_05

图4 基因的功能验证

QTL基因遗传互作的定量分析

研究开发了一套水稻QTL-QTL互作检测的方法,对18K群体中每个性状中每个QTL-QTL 对的上位性进行了检测,16个性状在三种环境中共检测到 1,013个显著的上位互作对(q<0.01)。研究通过线性模型评估了基因加性效应和上位性效应之间的表型贡献。平均下来,每个性状中已鉴定到的QTL的加性效应能够解释49.9%的性状变异,已鉴定到的QTL对的上位性效应解释了2.2%的性状变异。而在考虑所有基因效应的基因组遗传力估算中,加性效应的贡献为 56.2%,上位性效应的贡献为8.8%。这表明许多微效QTL存在遗传互作,但是由于种群规模有限,微效QTL上位性在统计上不太显著,尚未被发现并用于估计上位性效应。此外,高阶互作(三个以上QTL间)也尚未被发掘,其上位性效应也没有被估算。

鉴定出的QTL互作对包括 70 对大效应互作(标准化上位性效应≥0.1)。例如,颖壳颜色基因的互作,Rd和Kala4之间q=1.0×10-16,Rd和OsC1之间q=2.9×10-28,Kala4和OsC1之间q=4.0×10-67;以及抽穗期基因Ghd7和Ghd7.1之间的上位性(图5B)。在18K水稻群体中鉴定出这种上位性后,通过在“黄华占”中生成单突变体(Ghd7+/Ghd7.1- 和 Ghd7-/Ghd7.1+)和双突变体(Ghd7-/Ghd7.1-)进一步验证了其效果。对四种基因型的抽穗期、株高和单株产量进行了表型分析,发现双突变体的效应程度显著高于两个单突变体的总和(1+1远大于2),而不是简单的“1+1=2”(图5C)。

为了便于性状之间的比较,对于所有QTL互作对,研究利用18K水稻群体的表型标准差对上位性效应进行标准化。经过标准化处理,研究发现具有较大上位性效应的QTL互作对集中在颖壳颜色和抽穗期等性状上。对于所有性状,标准化的上位性效应显著低于标准化的加性效应,这个结果与上文中提到的QTL的加性以及QTL-QTL互作的上位性对表型的贡献值一致。

 QTL基因遗传互作网络构建

对于单个性状,一个QTL基因通常涉及多个互作对,使得QTL基因形成互作网络,而多效性基因的存在,又进一步使得遗传网络能够在不同性状之间相互关联。在96个候选基因中,53个基因表现出多效性。作为一个极端的例子,半矮杆基因Sd1影响了8个性状。将Sd1野生型与CRISPR-Cas9敲除等位进行比较,发现基因敲除导致抽穗期、穗数和籽粒蛋白质含量显著增加,而株高、穗长、叶长、叶角和发芽率下降。同时,在不同性状中的效应差异很大,可能对一个性状有较强的影响(例如,敲除后株高降低28.2厘米),但对另一性状影响较小(例如,抽穗延迟1.5天)。在所有QTL基因中,共发现了160个控制多个性状的QTL,表明了QTL多效性的普遍存在。

基于对QTL-QTL互作的分析,研究构建了水稻QTL基因的遗传互作网络,包括418个QTL之间的互作(图5D)。该遗传网络中,出现频率最高的25.4%QTL参与了88.8%的互作,表明QTL和性状之间存在广泛的联系。此外,研究共鉴定到19个核心QTL基因,这些核心基因都具有较大的遗传效应并控制多种性状。例如,Ghd8涉及10个性状和73个互作对,Sd1涉及9个性状和62个互作对,DEP1涉及7个性状和9对互作性。核心基因通常与不同性状的不同基因发生遗传相互作用,核心基因与性状特异性基因的遗传互作极大地塑造了相应性状的遗传特征。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_主成分分析_06

图5 水稻QTL基因的遗传互作网络

遗传背景不同导致基因效应差异

特定等位基因的表型经常受到遗传背景的影响,相同的等位基因可能在一种遗传背景中有效,但由于上位性掩蔽效应造成在另一种背景中变得无效。根据双QTL组合之间的表型差异模式,研究发掘到了170个掩蔽型互作对(图6A),未发现符号型互作对(不同基因组合中遗传效应的方向相反)。对于每个掩蔽型互作对,掩蔽基因被视为导致背景效应的基因,而另一个基因是被掩蔽的基因。我们确定了170对中每一对的掩蔽等位基因。基于这些等位基因的信息,进一步对404个具有全基因组序列的水稻种质进行分析,发现每个水稻品种平均包含42个表型效应被部分掩蔽的基因(图6B)。404份材料中掩蔽等位基因的分布也表明遗传背景效应与水稻亚种和类群高度相关(图6B,C)。

上位性掩蔽分析表明,Ghd8在Ehd1(野生型等位基因)背景下影响籽粒蛋白质含量,但在ehd1(突变等位基因)背景中由于Ehd1×Ghd8上位性而被掩蔽(图6C)。ehd1为掩蔽等位基因,主要存在于一些温带粳稻种质中。为了验证其效果,研究敲除了“Kasalath”(包含Ehd1)和“楚粳37”(包含ehd1)中的Ghd8。实验证实,在Ehd1背景下,Ghd8敲除的籽粒蛋白质含量显著增加(从Ghd8中的9.2%到ghd8中的10.2%,P=2.2×10-14),而在ehd1背景中,Ghd8对蛋白质含量的影响被掩盖(在Ghd8中为8.3%,在ghd8中为8.2%,P=0.85)(图6D)。此前, Ghd8已被报道与抽穗期和株高有关,但是未发现其与籽粒蛋白质含量相关,也未发现其受到遗传背景的影响。遗传背景效应的全基因组鉴定可以帮助育种家在未来选择遗传背景合适的种质进行某个特异性位点的遗传改良。

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_主成分分析_07

图6 遗传背景效应的鉴定

魏鑫、陈蒙娇、张绮、龚俊义(中国水稻研究所)、刘杰、雍开成为共同第一作者,黄学辉教授为通讯作者。上海师范大学博士研究生范炯炯(已毕业)、华桦、王轩、丛嘉、陈嘉欣(已毕业)及已毕业的硕士研究生罗兆伟、赵晓焱、李、于熙婷、王芷涵、黄瑞鹏等参与了研究工作,上海师范大学王勤博士、陈素卉博士、周晓艺副研究员、邱杰副研究员、Ping Xu副研究员等做出了重要贡献,中国科学院分子植物科学卓越创新中心韩斌院士、Jeremy Murray研究员、中国农业大学汪海教授、扬州大学徐扬副教授、徐辰武教授、美国内布达斯加-林肯大学徐根博士、杨金良副教授等参与部分研究或提供重要帮助。研究得到了国家重点研究计划青年科学家项目和国家自然科学基金杰青、优青等项目的资助。

论文链接:

https://doi.org/10.1126/science.adm8762

Science | 上海师范大学黄学辉团队解析水稻性状的遗传特征_关联分析_08