隨著華大智造基因測序儀被越來越多科研工作者、用戶所熟知和應(yīng)用,在基于華大智造測序平臺的研究成果不斷涌現(xiàn)的同時,華大智造測序平臺也受到越來越多的關(guān)注。
2019 年 6 月,一篇名為Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers 的文章在Scientific Reports [1]上發(fā)表,該文章的作者為來自華南理工大學(xué)的陳嘉鋆等,通訊作者為杜紅麗教授。文章系統(tǒng)地評估了不同測序平臺和分析軟件組合的準(zhǔn)確性、一致性、效率等,這種組合目前常見主流測序平臺和分析方法的系統(tǒng)評估為后續(xù)基因組測序及數(shù)據(jù)分析的科研工作提供了參考。其中MGISEQ-2000平臺在SNP calling、測序質(zhì)量Q20等方面表現(xiàn)優(yōu)秀。
作者點評此課題在“精準(zhǔn)醫(yī)學(xué)研究”國家重點研發(fā)計劃項目“醫(yī)學(xué)生命組學(xué)數(shù)據(jù)質(zhì)量控制關(guān)鍵技術(shù)研發(fā)與應(yīng)用示范“的支持下完成,研究通過對多個測序平臺及數(shù)據(jù)分析方法全流程的準(zhǔn)確度&靈敏度、一致性以及數(shù)據(jù)分析運(yùn)行效率的綜合性對比,我們認(rèn)為 Strelka2 的綜合性能表現(xiàn)較好。本研究為后續(xù)基因組 NGS 變異位點檢測的標(biāo)準(zhǔn)化提供了系統(tǒng)的數(shù)據(jù)支持和參考。
研究摘要下一代測序(NGS)逐步普及應(yīng)用于科學(xué)研究和臨床診斷。不同測序平臺和不同變異分析軟件的比較可以為基因組學(xué)提供重要指導(dǎo)。NGS 檢測項目的數(shù)據(jù)分析流程需要標(biāo)準(zhǔn)化, 以保證檢測結(jié)果的穩(wěn)定性和可靠性。因此本文比較了三種變異位點檢測軟件:GATK4.0、Strelka2、 Samtools-Varscan2,并且結(jié)合五種測序平臺:BGISEQ500,MGISEQ2000,HiSeq4000,NovaSeq 和 HiSeq Xten,兩種建庫應(yīng)用:WGS、WES進(jìn)行分析。結(jié)果綜合比較發(fā)現(xiàn),Strelka2 軟件在檢測準(zhǔn)確度和處理效率方面表現(xiàn)最優(yōu)性能。
研究方法:
· DNA 樣品:NA12878 標(biāo)準(zhǔn)品
· 2個應(yīng)用:WGS、 WES
· 5個測序平臺:HiSeq4000 、NovaSeq 、HiSeq Xten(WES未測)、BGISEQ500、 MGISEQ-2000
· 測序策略:BGI平臺(PE100)、 Illumina 平臺(PE150)
· 3個變異軟件:GATK4.0、Strelka2、 Samtools-Varscan2
· 文庫構(gòu)建:BGISEQ library: MGIEasyTM DNA Library Prep Kit V1 (Cat No. 85-05533-00, BGI)、外顯子雜交試劑:Human All Exon V5 Target Enrichment Baits (Cat No. 519-6216, Agilent)
· 不同軟件變異評價指標(biāo):準(zhǔn)確率(Precision)、召回率(Recall) 、一致性(concordance)以及軟件分析運(yùn)行時間(running efficient)
流程圖
研究結(jié)果:
1.過濾低質(zhì)量 reads,WES 文庫中,MGISEQ-2000 過濾reads 只有0.25%,其他平臺 HiSeq4000 為 4.46%、NovaSeq 為 2.25% 、BGISEQ500 為 0.41%,Q20 都在95% 以上, MGISEQ-2000 達(dá)到 98.18% 。
2.WGS 文庫中,MGISEQ-2000 過濾 reads 只有 0.21%,其他平臺 HiSeq4000 為 8.25%、NovaSeq 為 1.28% 、BGISEQ500 為 1.76%、HiSeq Xten 為 7.29%,Q20 都在 93% 以上, MGISEQ-2000 達(dá)到 96.17% 。
3.WES 文庫中,MGISEQ-2000 測序深度低于其他三個測序平臺,但是后續(xù) SNP calling 性能優(yōu)于其他三個平臺,INDEL calling方面,MGISEQ2000的表現(xiàn)優(yōu)于BGISEQ500。
WES 變異分析結(jié)果比較:
1.不同分析流程(儀器+軟件)分析 WES 變異檢測結(jié)果:Strelka2 在 WES 的所有分析流程中檢測性能的綜合表現(xiàn)最好,MGISEQ-2000 平臺在 SNP calling 性能優(yōu)秀。
2.計算不同測序深度下三種軟件的運(yùn)行時間,對于 BGI 平臺, Strelka2 軟件的運(yùn)行時間比 GATK 快 8.85 倍,平均比 Samtools-Varscan2 快 67.16 倍。對于 Illumina 平臺,Strelka2 軟件的運(yùn)行時間比 GATK 快 6.63 倍,平均比 Samtools-Varscan2 快 47.89 倍。
左圖:四個平臺,三個分析軟件 SNP 和 indel calling準(zhǔn)確性和召回率,實心點為數(shù)據(jù)閾值,越靠近右上角性能越好;
右圖:不同平臺,SNP 和 indel calling F 值的分布,F(xiàn) 值越高,表明其綜合性能越好。
WES 截取不同深度測序數(shù)據(jù)分析變異軟件對應(yīng)的運(yùn)行時間情況(20x、40x、60x、100x)
WGS 變異分析結(jié)果:
1.不同分析流程(儀器+軟件)分析 WGS 變異檢測結(jié)果:Strelka2 在 WGS 的所有分析流程中檢測性能的綜合表現(xiàn)最好。
2.計算不同測序深度下三種軟件的運(yùn)行時間,對于 BGI 平臺,Strelka2 軟件的運(yùn)行時間比 GATK 快 45.52 倍,平均比 Samtools-Varscan2 快 69.49 倍。對于 Illumina 平臺,Strelka2 軟件的運(yùn)行時間比 GATK 快 41.94 倍,平均比 Samtools-Varscan2 快 62.49 倍。
A 圖.四個平臺,三個分析軟件 SNP 和 indel calling準(zhǔn)確性和召回率,實心點為數(shù)據(jù)閾值,越靠近右上角性能越好;
B 圖.不同平臺,SNP 和 indel calling F 值的分布,F 值越高,表明其綜合性能越好。
WGS 截取不同測序深度,分析變異軟件對應(yīng)的運(yùn)行時間情況(6x、12x、18x、24x、30x)
討論交流:
本文推薦 Strelka2 作為最佳變異分析流程的變異位點檢測軟件,因為檢測變異精度高、一致性高、處理速度快。通過比較分析出以下結(jié)論:
1.WES 文庫數(shù)據(jù)使用軟件分析,SNP calling 分析表現(xiàn)優(yōu)秀,其 F 值全部高于 0.96,INDEL calling F 值 0.75-0.91之間。WGS 文庫數(shù)據(jù)使用軟件分析,SNP calling 的 F 值全部高于 0.975,INDEL calling 的 F 值在 0.71-0.93。
2.比較 WES 分析結(jié)果發(fā)現(xiàn),BGI 平臺(PE100)在 SNP calling 表現(xiàn)出優(yōu)越的性能,而 Illumina 平臺(PE150)在INDEL calling 中表現(xiàn)出更好檢測性能,可能是測序策略所導(dǎo)致。
3.WES 文庫中,MGISEQ-2000 測序文庫深度低于其他三個測序平臺,但是后續(xù) SNP calling 性能優(yōu)于其他三個平臺,INDEL calling方面,MGISEQ2000的表現(xiàn)優(yōu)于BGISEQ500。
4.Upset Venn plot 分析變異結(jié)果一致性高,而且 INDEL calling 之間的差異總是大于 SNP calling。
5.不管哪個測序平臺, Strelka2 軟件分析性能都要優(yōu)于其他軟件。而且在 WES 和 WGS 數(shù)據(jù)分析過程中, Strelka2軟件處理速度遠(yuǎn)高于 GATK 或 Samtools-Varscan2 處理速度
參考文獻(xiàn):
[1] Chen J, Li X, Zhong H, et al. Systematic comparison of germline variant calling pipelines cross multiple next-generation sequencers[J]. Scientific Reports, 2019, 9(1): 9345.