4月23號,由深圳華大生命科學(xué)研究院和美國Complete Genomics共同研發(fā)的stLFR技術(shù)成果正式發(fā)表于Genome Research,并受到GenomeWeb特別推薦。
隨著基因組學(xué)研究的深入,單體型信息和結(jié)構(gòu)變異受到科學(xué)家更多的關(guān)注。文章作者基于無分隔共標(biāo)記理念和高通量短讀長測序技術(shù)開發(fā)了一種長片段DNA信息獲取方法single-tube Long Fragment Read (stLFR),能在單管中完成所有實驗流程。為了實現(xiàn)這一目標(biāo),stLFR技術(shù)在微珠的表面通過排列組合的方式生成多達(dá)36億種獨特的條形碼,從而保證每個樣品所使用的5000萬種條形碼之間沒有重復(fù)。
使用stLFR技術(shù),可將超過800萬條長度在20-300kb的基因組DNA片段分別標(biāo)記上獨特的條形碼。研究者通過對NA12878基因組DNA構(gòu)建的stLFR文庫進(jìn)行分析,獲得了高質(zhì)量的變異檢測以及可以高精度定相分析的結(jié)果,其定相區(qū)塊的N50長度可達(dá)34 Mb。此外研究者還進(jìn)行了復(fù)雜結(jié)構(gòu)變異的檢測以及對NA12878的二倍體從頭組裝。
stLFR文庫構(gòu)建的第一步是帶有轉(zhuǎn)座序列的轉(zhuǎn)座酶復(fù)合體與長DNA分子結(jié)合,轉(zhuǎn)座序列會插入到長DNA片段中,由于轉(zhuǎn)座酶的作用DNA仍然保持長鏈狀態(tài),然后帶有獨特條形碼磁珠雜交捕獲帶有轉(zhuǎn)座酶復(fù)合體的長DNA分子(帶有條形碼磁珠的直徑為2.8μm,周長為8.8μm,100kb 的長片段分子DNA 長度為34μm,在捕獲時,長片段分子DNA能繞磁珠3圈,每個磁珠上帶有約400000條序列相同的寡核苷酸,這段寡核苷酸由Linker,Barcode序列和公共雜交序列組成,公共雜交序列與轉(zhuǎn)座酶上帶有的轉(zhuǎn)座子互補(bǔ)雜交)。DNA被Beads 捕獲后,通過連接反應(yīng),轉(zhuǎn)座子序列會被連接到Barcode 序列上,再經(jīng)過后續(xù)生化反應(yīng),去除磁珠表面多余未雜交捕獲轉(zhuǎn)座子序列的帶有條形碼序列的寡核苷酸,變性轉(zhuǎn)座酶蛋白后長片段DNA徹底被打斷成200-1000bp左右的小片段,然后在小片段的另外一端加上一個可以用于PCR的接頭,就能獲得stLFR文庫,用MGI-2000或BGISEQ-500測序儀測序。
研究結(jié)果
文章中對比了4個不同策略的stLFR文庫與10X Genomics、IlluminaBeads Haplotyping以及BGI常規(guī)WGS和 PCR-free WGS文庫的變異檢測結(jié)果(圖1)。在InDel的檢測上,4種不同策略的stLFR文庫無論數(shù)據(jù)量是多還是少,在未過濾時都比同類型的10X Genomics和Illumina Beads Haplotyping的表現(xiàn)要好很多。在SNP檢測上,stLFR文庫也會略優(yōu)于10X Genomics和Illumina BeadsHaplotyping的結(jié)果。并且經(jīng)過算法優(yōu)化過濾之后stLFR的準(zhǔn)確性和靈敏度都有所提升。
圖 1 變異檢測結(jié)果統(tǒng)計
文中將1ng DNA起始量的stLFR-1文庫測到的所有的Reads比對到原來11號染色體的10-350kb區(qū)域,挑取4個條形碼(Barcode)下所有Reads,這些Reads還原了4條長片段DNA分子(如圖2)。

圖 2 四個條形碼(Barcode)下所有Reads比對到11號染色體
研究者使用帶有共標(biāo)記條形碼的短讀序列,可以輕松獲得二倍體基因組上的定相信息,可有效解析基因調(diào)控和編碼區(qū)變異組合。在40X深度下,stLFR文庫數(shù)據(jù)定相區(qū)塊N50值可達(dá)34 Mb,能被定相的雜合位點比例高達(dá)99.7%(如圖3)。

圖3 stLFR 定相區(qū)塊在染色體上的分布情況
利用分子標(biāo)簽和長片段信息,stLFR可以對多種結(jié)構(gòu)變異進(jìn)行準(zhǔn)確檢測。文章展示了stLFR對NA12878中在其他文獻(xiàn)中報道的SV的準(zhǔn)確檢測結(jié)果(圖4A)。顯示stLFR 技術(shù)能準(zhǔn)確檢測到NA12878中8號染色體的150Kb的雜合缺失(圖4B和4C)。文中還用一些已知結(jié)構(gòu)變異的樣本進(jìn)行驗證,研究者分別對攜帶5號染色體和12號染色體平衡易位的樣本(圖4D)和已知2號染色體染色體內(nèi)倒位的GM20759細(xì)胞系樣本(圖4E)進(jìn)行檢測,顯示均能檢測到與已知一致的結(jié)構(gòu)變異。當(dāng)stLFR的數(shù)據(jù)量降低到5Gb時,仍然能準(zhǔn)確地檢測到這兩個結(jié)構(gòu)變異(圖5)。研究者用相同的方法分析NA12878的5號染色體和12號染色體,即使數(shù)據(jù)量達(dá)到230Gb,也沒有任何的支持結(jié)構(gòu)變異的點出現(xiàn)(圖6)。
圖4 stLFR結(jié)構(gòu)變異檢
圖5 5Gb的stLFR的數(shù)據(jù)下5號染色體和12號染色體平衡易位檢測(左)及2號染色體染色體內(nèi)倒位檢測(右)

圖6 230Gb NA12878樣品stLFR的數(shù)據(jù)下5號染色體和12號染色體平衡易位檢測
為了測試stLFR技術(shù)是否可以用于從頭組裝,將stLFR-1和stLFR-2 帶有Barcode 信息的Reads 輸入10X Genomics 公司開發(fā)的Supernova 2.1.1軟件中,進(jìn)行組裝。由于該軟件的設(shè)計只能兼容約4.7 millions種Barcode,而stLFR的barcode 總數(shù)高達(dá)10 millions,因此該軟件不能完全兼容stLFR的數(shù)據(jù),最后得到的組裝效果可能并不理想。但是文章結(jié)果顯示stLFR技術(shù)依然獲得不錯的組裝效果,stLFR-1和stLFR-2的組裝Contig N50和scaffold N50分別可達(dá) ~100kb和~30Mb(圖7)。將組裝獲得的Contig 與人類參考基因組GRCh38繪制比對構(gòu)建共線性圖,顯示出樣本stLFR-1和stLFR-2與參考基因組有很高的一致性(圖8)。使用組裝評估軟件QUAST對stLFR文庫的組裝效果進(jìn)行評估,同時將組裝結(jié)果與10XGenomics文庫和使用Nanopore對NA12878進(jìn)行組裝的結(jié)果進(jìn)行比較,stLFR文庫的組裝幾乎沒有組裝區(qū)域的錯誤(圖9)。
圖7 stLFR-1和stLFR-2組裝結(jié)果
圖8 stLFR 文庫(NA12878)的數(shù)據(jù)進(jìn)行從頭組裝的結(jié)果與參考基因組GRCh38繪制的比對點圖
參考文獻(xiàn)
Wang O, Chin R, Cheng X, et al. Efficient and uniqueco-barcoding of second-generation sequencing reads from long DNA moleculesenabling cost effective and accurate sequencing, haplotyping, and de novoassembly[J]. Genome research, 2019: gr. 245126.118.