自人類基因組計劃(Human Genome Project,HGP)啟動以來,測序技術得到了快速發(fā)展。大規(guī)模平行測序(Massively parallel sequencing,MPS)技術由于其在準確性、通量、速度和成本方面的突出優(yōu)勢,近年來得到了廣泛應用。
伴隨測序成本的降低、測序通量的提升,大規(guī)模全基因組測序成為可能,也為全球范圍內(nèi)的大人群基因組研究項目的實施提供了引擎。當前,大人群基因組研究成為全球熱點,共有近50個國家宣布或啟動國家級群體基因組項目,包括美國All of Us計劃、英國UK Biobank計劃、阿聯(lián)酋國家基因組計劃、新加坡國家基因組計劃等,預計到2025年將完成超千萬全基因組測序。然而,在進行更大規(guī)模的基因組研究數(shù)據(jù)分析時,分析效率、功耗和支持基礎設施的成本仍然存在挑戰(zhàn),業(yè)界亟需準確、高效、節(jié)能的工具平臺解決相關痛點。
今年11月,基于華大智造DNBSEQ測序平臺產(chǎn)生的FASTQ數(shù)據(jù),深圳華大生命科學研究院、華大智造和深圳國家基因庫在Clinical and Translational Discovery 雜志在線發(fā)表了題為“An efficient large-scale whole-genome sequencing analyses practice with an average daily analysis of 100Tbp: ZBOLT” 的研究論文。該研究在11天內(nèi)完成了1.16Pbp高深度全基因組測序數(shù)據(jù)的全套分析,展示了每天分析100Tbp的超高通量能力,并評估了華大智造ZBOLT生信分析加速器的準確性,為大規(guī)模人群基因組學研究提供了一套高效的分析體系。
ZBOLT系統(tǒng):
準確、高效、節(jié)能
ZBOLT生物信息分析硬件加速系統(tǒng)是一款由華大智造自主研發(fā),專注于高通量測序領域的BIT產(chǎn)品,該系統(tǒng)的發(fā)布也大大提升了大規(guī)模群體基因組研究數(shù)據(jù)分析能力,它還支持胚系突變與體細胞突變的全基因組(WGS)、全外顯子組(WES)、Panel靶向測序數(shù)據(jù)分析。
ZBOLT結(jié)合了MegaBOLT流程,并針對WGS的群體分析進行了優(yōu)化,包括種系和體細胞突變調(diào)用、全外顯子組測序(WES)和靶向區(qū)域測序。ZBOLT嚴格遵守GATK最佳分析流程,通過異構(gòu)計算、動態(tài)多任務調(diào)度和硬件配置支持來加速分析。
ZBOLT專門設計的任務調(diào)度算法優(yōu)化了異構(gòu)環(huán)境中的多節(jié)點計算調(diào)度。通過數(shù)據(jù)分割、壓縮/解壓縮算法的優(yōu)化和精簡的計算模型,加速了從FASTQ到變異檢測結(jié)果VCF的過程。此外,支持非云端完全本地的ZBOLT分析系統(tǒng),強化了對數(shù)據(jù)的安全性和隱私的保護。
此次評估完成了基于基因數(shù)據(jù)專屬計算芯片系統(tǒng)ZBOLT的萬例基因組分析應用示范:
(1) 準確可靠:準確性與GATK相當;
(2) 效率超高:10天完成1Pb全基因組數(shù)據(jù)的全套分析;
(3) 綠色節(jié)能:分析一個基因組僅需約1度電;
為了評估ZBOLT分析的準確性,研究人員采用了相同的參數(shù)分析以及相同的樣本——GATK作為對照。F-measure用于評估SNP和INDEL calling的準確性。如下表所示,SNP calling評估中的平均F-measure為99.65%,INDEL calling評估為99.098%。這表明ZBOLT分析對SNP和INDEL calling都具有較高的準確性。三次重復的結(jié)果高度一致,這也進一步證明了ZBOLT系統(tǒng)的穩(wěn)定性。
為了評估ZBOLT在大規(guī)模人群隊列研究中的表現(xiàn),研究人員將5616個WGS樣品共1.16Pbp FASTQ數(shù)據(jù)依托ZBOLT系統(tǒng)中進行WGS全流程分析,在11.6天內(nèi)成功完成了從FASTQ到VCF的分析,期間處理了超過2.5 Pb的輸入和輸出數(shù)據(jù)。
在該項研究中,ZBOLT系統(tǒng)平均每天可高效處理100Tbp的原始測序數(shù)據(jù)。整個項目測量能量總消耗為11306kWh,平均消耗僅為0.98kWh/100Gbp。換句話說,按照測序深度為30X的標準WGS樣本測算,分析耗能不到一度電。
ZBOLT系統(tǒng):
業(yè)界首個專門為群體基因組學研究設計的分析解決平臺
作為一款WGS/WES生信分析加速工具,ZBOLT不依賴于穩(wěn)定、高速的網(wǎng)絡進行數(shù)據(jù)傳輸、任務調(diào)度和計算。ZBOLT系統(tǒng)的用戶可以靈活地控制所有的軟件、硬件和數(shù)據(jù),以滿足各種分析需求。ZBOLT是業(yè)界首個專門為群體基因組學研究設計的分析解決平臺,它綜合考慮了準確性、效率和功耗。
這項研究為大規(guī)模人群基因組隊列的測序數(shù)據(jù)分析提供了寶貴的參考,并凸顯了ZBOLT在大人群基因組研究中的巨大應用潛力。它作為大人群基因組研究的基礎工具,同時也可支持各類農(nóng)業(yè)基因組研究、生物多樣性研究的群體分析,實現(xiàn)WGS/WES流程高速、精準的分析計算。未來,期待其能夠在推動群體基因組學研究、遺傳疾病診斷、精準醫(yī)學和農(nóng)業(yè)育種的發(fā)展方面發(fā)揮重要作用。
深圳華大生命科學研究院群體基因組學首席科學家金鑫研究員、方明艷研究員、深圳國家基因庫執(zhí)行副主任王博和深圳華大智造科技股份有限公司BIT負責人單日強為本文的并列通訊作者,中國科學院大學和深圳華大生命科學研究院聯(lián)合培養(yǎng)在讀博士生李志超、深圳華大智造科技股份有限公司謝寅龍博士和深圳國家基因庫信息庫主管曾文君為論文并列第一作者。