水稻,作為是世界上重要的糧食作物之一,為全世界超過35億人的主食,維系超過10億人的生計(jì)。因此,稻米對(duì)全球糧食安全至關(guān)重要,提升稻米生產(chǎn)系統(tǒng)的效率是應(yīng)對(duì)糧食安全挑戰(zhàn)的關(guān)鍵一環(huán)。野生近緣種為水稻提供了寶貴的遺傳資源。生長(zhǎng)于西非熱帶地區(qū)的長(zhǎng)雄野生稻(又稱非洲野生稻,Oryza longistaminata)表現(xiàn)出多年生生長(zhǎng)和極高的生物量生產(chǎn)能力,相關(guān)有益等位基因已經(jīng)被轉(zhuǎn)移到商業(yè)水稻品種中。除了對(duì)育種的貢獻(xiàn)外,長(zhǎng)雄野生稻也是研究根莖遺傳基礎(chǔ)和發(fā)育方面的重要研究對(duì)象。
長(zhǎng)雄野生稻 (2x=2n=12) 主要生長(zhǎng)在西非的熱帶地區(qū),是一種AA基因組型,主要生長(zhǎng)在靠近淡水資源和沼澤的地區(qū)。雖然很少用于人類食用,但該物種具有抵抗力高、根莖無性繁殖和生物脅迫等多種有益的特性。由于測(cè)序技術(shù)限制和基因組復(fù)雜的組織結(jié)構(gòu),此前的非洲野生稻的參考基因組中仍然存在未被充分展現(xiàn)的復(fù)雜區(qū)域,這限制了對(duì)其開展深入且詳盡的研究工作。
為解決這一問題,近日,華大研究院聯(lián)合云南大學(xué),依托華大序風(fēng)的CycloneSEQ納米孔測(cè)序平臺(tái),完成長(zhǎng)雄野生稻343 Mb的端粒到端粒(T2T)的基因組組裝,涵蓋了12條染色體上的所有端粒和著絲粒,新組裝的基因組比以前版本有了明顯的改進(jìn),為栽培稻野生近緣種中有益等位基因的探索和開發(fā)提供了寶貴的資源。
基因組組裝
對(duì)培育的長(zhǎng)雄野生稻嫩葉提取DNA后進(jìn)行測(cè)序,獲得25.6 Gb CycloneSEQ超長(zhǎng)序列數(shù)據(jù),21 Gb MGI-Seq雙端測(cè)序數(shù)據(jù),27.3 Gb PacBio HiFi數(shù)據(jù),32 Gb Hi-C數(shù)據(jù)。使用K-mer評(píng)估基因組大小為357 Mb,雜合度為1.27%?;旌辖M裝首先獲得了一個(gè)343 Mb基因組,contig N50為26.02Mb,隨后使用Hi-C數(shù)據(jù)將組裝序列合并為12個(gè)假染色體,使用TGS-gapcloser填補(bǔ)剩余空白。利用端粒重復(fù)序列鑒定到基因組全部的24個(gè)端粒,鑒定到染色體的著絲粒區(qū)域長(zhǎng)度在0.3 Mb至1.8 Mb之間。在組裝基因組準(zhǔn)確性和完整度評(píng)估方面,雙端測(cè)序數(shù)據(jù)比對(duì)率達(dá)97.27%,BUSCO分析完整度達(dá)到98.6%,LTR組裝指數(shù)(LAI)為20.71(符合參考基因組金標(biāo)準(zhǔn)),Merqury組裝質(zhì)量QV值達(dá)到52.08(即堿基準(zhǔn)確率高于99.999%)。與之前已發(fā)表的長(zhǎng)雄野生稻基因組(Reuscher et al., 2018)進(jìn)行編碼基因共線性比較分析,在基因組范圍鑒定出28,627個(gè)共線性編碼基因,與預(yù)期一致,表明組裝的T2T基因組與已發(fā)表的基因組具有高度一致性。
基因組注釋
使用從頭分析和同源比較分析,在基因組中鑒定出134 Mb重復(fù)序列,大約占全基因組的40.73%。重復(fù)序列在12個(gè)染色體和全基因組水平上高度一致。LTR和DNA轉(zhuǎn)座子為主要的重復(fù)單元,分別占據(jù)大約20.9%和18.5%。重復(fù)水平達(dá)到中度,與其他稻屬的其他基因組相近?;蚪M的著絲粒由于其高度重復(fù),組裝難度較高。本次組裝的T2T基因組發(fā)現(xiàn)著絲粒區(qū)域飽含轉(zhuǎn)座元件并只含有少量基因。著絲粒區(qū)域中, LTR中大部分為Gypsy元件。
基因組中預(yù)測(cè)出有33,177個(gè)編碼基因,平均長(zhǎng)度2,439 bp,平均編碼序列長(zhǎng)度達(dá)到1,138 bp。功能分析顯示95.74%的編碼基因可在蛋白公共數(shù)據(jù)庫(kù)被注釋,展示了基因預(yù)測(cè)的準(zhǔn)確性高。
長(zhǎng)雄野生稻的T2T基因組組裝
(從外到內(nèi):GC含量、蛋白編碼基因、重復(fù)序列、LTR-Gypsy、HTR-Copia、共線性區(qū)塊)
基因組結(jié)構(gòu)變異
栽培稻與長(zhǎng)雄野生稻的全基因組結(jié)構(gòu)變異推測(cè)發(fā)現(xiàn),兩個(gè)基因組間包含3,738,150個(gè)SNP位點(diǎn),204個(gè)倒置區(qū)塊,11,706個(gè)重復(fù)區(qū)域,11,175個(gè)倒置重復(fù),3,077個(gè)移位和3,015個(gè)倒置移位。超105 Mb的結(jié)構(gòu)變異顯示出兩個(gè)物種間的巨大差異。GO分析結(jié)構(gòu)變異相關(guān)基因展示出與催化活性、嘌呤核糖核苷酸結(jié)合、腺苷核糖核苷酸結(jié)合和端粒維持的相關(guān)性。
栽培稻與長(zhǎng)雄野生稻T2T基因組的共線性分析和變異分析
(Reference基因組為 O. sativia,Query基因組為 O. longistaminata)
基因組片段重復(fù)分析
片段重復(fù)(Segmental Duplications, SDs)是指基因組中大于1 Kb的至少有90%序列一致性的重復(fù)片段。SD中常含大量重復(fù)基因,在基因創(chuàng)新中有重要作用。先前基因組中不準(zhǔn)確的SD注釋限制了基因組結(jié)構(gòu)和進(jìn)化的理解。長(zhǎng)雄野生稻的T2T基因組提供了SD研究更準(zhǔn)確的參考信息。使用BISER工具一共鑒定出30.2 Mb的SD,并發(fā)現(xiàn)在基因組水平并非均勻分布。SD在1/4/3/2號(hào)染色體中含量更高,在9/10/5號(hào)染色體中更少。該不均勻分布提示1/4/3/2號(hào)染色體可能對(duì)水稻進(jìn)化中的作用方式為先前未知的。
使用BLASTP在SD區(qū)域鑒定重復(fù)基因,一共發(fā)現(xiàn)4,179對(duì)同源基因,1,233對(duì)為高度匹配,并發(fā)現(xiàn)大部分SD是近期發(fā)生(Ks=0.3)。GO分析顯示這些等位基因與細(xì)胞氨基酸代謝、羧酸代謝和輔因子結(jié)合相關(guān)。
長(zhǎng)雄野生稻基因組的片段復(fù)制分析
NBS基因家族和轉(zhuǎn)錄因子
核苷酸結(jié)合位點(diǎn)-亮氨酸富集重復(fù)單元(NBS-LRR)蛋白為植物對(duì)抗病原體的抗性蛋白的最大的家族。11種水稻的NBS-LRR分析發(fā)現(xiàn),長(zhǎng)雄野生稻有654 NBS-LRR基因,比其他物種基因更少,即抗性基因更少。說明長(zhǎng)雄野生稻對(duì)病原體的識(shí)別和免疫識(shí)別的能力進(jìn)化。
稻屬內(nèi)的轉(zhuǎn)錄因子差異分析,長(zhǎng)雄野生稻擁有86個(gè)家族共計(jì)2095個(gè)轉(zhuǎn)錄因子,其中ERF轉(zhuǎn)錄因子數(shù)量最多(857個(gè)),其次是bHLH(128個(gè))、NAC(120個(gè))、MYB(119個(gè))和C2H2(116個(gè))。
總結(jié)
本研究依托華大序風(fēng)CycloneSEQ平臺(tái)成功組裝了長(zhǎng)雄野生稻的端粒到端粒(T2T)的基因組,該基因組包含完整的12條染色體及24個(gè)端粒。與已發(fā)表的稻屬其他的參考基因組比較發(fā)現(xiàn)栽培稻和野生稻之間眾多的基因組結(jié)構(gòu)變異。本研究還對(duì)長(zhǎng)雄野生稻與稻屬其他物種的基因組進(jìn)行片段重復(fù)基因、NBS-LRR抗性基因和轉(zhuǎn)錄因子的比較分析。長(zhǎng)雄野生稻全基因組組裝的更新成果對(duì)高價(jià)值的表型性狀關(guān)聯(lián)基因研究提供了證據(jù)基礎(chǔ),對(duì)未來育種和非洲水稻與稻屬進(jìn)化研究搭建了高價(jià)值平臺(tái)。
預(yù)印文章鏈接:
https://www.biorxiv.org/content/10.1101/2024.09.05.611405v1