5月中旬,針對草地貪夜蛾的迅速發(fā)展態(tài)勢,包括深圳華大生命科學研究院在內(nèi)的多個單位共同成立研究小組,迅速開展了樣本采集和基因組測序工作,從樣本采集到論文發(fā)表 [1],僅用25天便完成了全球首個草地貪夜蛾染色體級別的基因組組裝。
基因組測序的完成,打開了草地貪夜蛾防治的第一步,除解釋了草地貪夜蛾高耐藥性的可能分子機制之外,還提供了更為精細的類別信息,為該害蟲的防治工作提供了可借鑒信息。
草地貪夜蛾基因組的快速解碼,國產(chǎn)基因測序儀MGISEQ-2000和新一代單管長片段測序stLFR(single tube long fragment reads)迅速響應, 再現(xiàn)其非凡潛力。為造福更多的下游數(shù)據(jù)分析應用,華大算法開發(fā)團隊針對stLFR數(shù)據(jù)結(jié)構(gòu)特點開發(fā)了stLFR de novo組裝軟件。

那么,什么是stLFR 單管長片段測序技術(shù)呢?
這是一個擁有超強的虛擬分隔共標記技術(shù)(Virtual Co-Barcoding),通過單管操作就能輕松的獲得基因組長片段信息[2]。只需要在單管中加入1-1.5ng HMW gDNA,這些DNA分子3000萬種標簽序列結(jié)合后,stLFR技術(shù)就可以在單管中對超過八百萬條跨度在20,000到300,000bp的長片段進行特異性地共標記(圖1)。使用stLFR組裝軟件,通過高效地利用龐大的barcode信息進行組裝,就能獲得更完美的基因組組裝效果,讓動植物基因組組裝變得更加簡單,經(jīng)濟,快速。

華大智造開發(fā)的這款與stLFR技術(shù)配套的組裝軟件,其特點在于可以充分利用stLFR數(shù)據(jù)的barcode信息指導組裝,同時還支持stLFR與三代數(shù)據(jù)的混合組裝。其前期數(shù)據(jù)預處理主要包括拆barcode、過濾低質(zhì)量reads、duplicate和adapter兩個部分,后期組裝分為純stLFR組裝和加入三代數(shù)據(jù)混合組裝兩個階段,可根據(jù)實際情況進行選擇。

數(shù)據(jù)展示
通過對3組不同深度的NA12878數(shù)據(jù)進行組裝測試,最長contig N50可達到57Kb,覆蓋度均達到92%以上。其中,數(shù)據(jù)來源是采用MGIEasy stLFR 文庫制備試劑盒(貨號: 1000005622),以1.5ng為起始量構(gòu)建的文庫。
表1 stLFR NA12878數(shù)據(jù)組裝結(jié)果表

運行資源
運行資源以數(shù)據(jù)預處理后30x的NA12878為標準,組裝全過程耗時約2.6天,80線程條件下,消耗內(nèi)存408G,最大占據(jù)存儲空間1TB左右。其前期數(shù)據(jù)預處理最大消耗內(nèi)存50GB,占26.9小時;后期組裝在開設(shè)80線程的條件下,最大消耗內(nèi)存408GB,占36.3小時。具體資源消耗可看下方表格:
表2 stLFR組裝消耗資源統(tǒng)計表

軟件列表
表3 stLFR組裝所需軟件列表

參考文獻
[1] Huan Liu, Tianming Lan1, Dongming Fang, et al. Chromosome level draft genomes of the fall armyworm, Spodoptera frugiperda (Lepidoptera: Noctuidae), an alien invasive pest in China
[2] Wang O, Chin R, Cheng X, et al. Efficient and unique co-barcoding of second-generation sequencing reads from long DNA molecules enabling cost effective and accurate sequencing, haplotyping, and de novo assembly[J]. Genome research, 2019: gr. 245126.118.