位置:首頁 > 新聞動態 > 科研進展  
梁承志研究組開發高質量基因組組裝軟件

  20191125日,中國科學院遗传与发育生物学研究所梁承志研究组开发的高质量基因组组装软件HERANature Communications在線發表(DOI:10.1038/s41467-019-13355-3)。論文題目爲“Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads”。 

 

  高質量基因組序列對于研究一個物種基因組的結構、功能、進化、基因定位和克隆等都至關重要。目前單分子測序技術的發展,已使得構建高質量基因組草圖越來越容易。然而,這些草圖序列仍然存在著由于組裝序列碎片化而導致的多種錯誤,比如不完整的基因序列、排列到染色體上之後的片段遺漏、排列順序錯誤和方向錯誤等。這些錯誤對于利用這些基因組所做的很多研究會造成不便或誤導。 

 

  梁承志組多年來通過結合單分子測序和光學圖譜及HiC等技術構建高質量基因組,已完成多個植物基因組的組裝。最近在前期工作的基礎上開發了一個利用單分子測序長片段進行基因組複雜區域組裝的新方法HERA。在現有軟件組裝的基礎上,HERA能夠大大改進基因組序列的連續性並減少了組裝錯誤。通過對水稻基因組進行測試發現,HERA將水稻中的絕大部分重複序列包括複雜的長串聯重複序列都正確地組裝了出來。在玉米、苦荞和人基因組中與已發表版本進行對比,玉米的Contig N501.3 Mb提升至61.2Mb,人的Contig N508.3 MB提升至54.4 MB,苦荞基因組Contig N50達到了27.85 Mb。在玉米B73參考基因組中填補了大量以前沒有組裝出的序列,校正了多處染色體上序列位置或方向錯誤,並增加了一些以前丟失的多個重要基因。苦荞中全基因組8條染色體共只由20Contig组成,其中一条染色体是一個Contig,展示了利用現有常規技術條件構建幾乎完整的基因組的潛力。HERA跟已有基因組組裝軟件CANU等非常互补,预期二者的整合将会产生新的软件,大大提高基因组组装的效率。目前,由于单分子测序价格的下降,组装一個与日本晴质量相当或更好的水稻参考基因组的成本已降到了3萬元以下。結合單分子測序、BioNanoHi-C数据,目前可以很低的成本得到绝大多数物种的高质量参考基因组。对于功能基因组研究来说,高质量基因组序列的获取已不再是一個瓶颈,这预示着后基因组时代在多数物种中的全面到来。 

 

  论文第一作者为梁承志研究组博士生杜会龙,通讯作者为梁承志研究员。软件开发得到了基因组分析平台的大力支持和帮助。该研究得到了中國科學院战略性先导科技专项(A)“分子模塊設計育種創新體系”等項目的資助。 

 

图a: HERA组装基因组跟玉米参考基因组B73 RefGen_v4的比较。全基因组中序列缺口由2523個减少到了76個。

图b: 玉米参考基因组中缺失或多余的序列(上图)经HERA改进后(下图)被正确地填补或移除。