基因型推斷(Genotype imputation)是對基因分型芯片或基因組測序數(shù)據(jù)的缺失基因型進行填補的基本方法,在全基因組關(guān)聯(lián)等研究中可顯著提高遺傳關(guān)聯(lián)變異位點的精確定位。
基于大規(guī)模和特異性人群,全基因組測序數(shù)據(jù)構(gòu)建的單倍型參考基因序列集是基因型推斷的基本工具,主要的參考序列集包括千人基因組計劃(1KGP3)、單倍型參考聯(lián)盟(HRC)和美國精準(zhǔn)化醫(yī)學(xué)研究計劃(TOPMed)等數(shù)據(jù)庫,對東亞人群的適用性和推斷表現(xiàn)欠佳。目前,中國人群的隊列遺傳研究中最常用的仍是多種族人群構(gòu)成的千人基因組計劃參考序列集。
因此,基于大規(guī)模和代表性人群的高深度全基因組測序數(shù)據(jù)構(gòu)建中國及東亞人群的單倍型參考序列集,實現(xiàn)高精度的基因型推斷,對中國人群和疾病隊列的基因組學(xué)研究具有重要價值。
高通量測序平臺推動人群基因型推斷研究
2021年9月6日,上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院王衛(wèi)慶/曹亞南團隊在Cell Research發(fā)表了題為The ChinaMAP reference panel for the accurate genotype imputation in Chinese populations的研究論文。該研究通過對中國代謝解析計劃ChinaMAP中來自中國不同地區(qū)和民族的10155人的高深度全基因組測序數(shù)據(jù)進行整合分析,構(gòu)建了迄今最大規(guī)模的中國人群參考基因集(ChinaMAP reference panel),并搭建了基因型在線推斷分析工具平臺 "ChinaMAP Imputation Server"(已在http://www.mbiobank.com上線)。該項研究可為中國和東亞地區(qū)人群的基因型推斷研究提供精準(zhǔn)、有力的參考數(shù)據(jù)和參考基因集工具。
圖1:相關(guān)研究研究成果發(fā)表于Cell Research雜志。
圖片來源:Cell Research
值得關(guān)注的是,該研究的基礎(chǔ)數(shù)據(jù)來自華大智造DNBSEQ測序平臺,以覆蓋中國各地區(qū)的研究隊列為基礎(chǔ)建立了高質(zhì)量中國人群數(shù)據(jù)庫,通過中國人自己的儀器、平臺和分析方法,進行了高深度全基因組數(shù)據(jù)和精細(xì)表型分析,為疾病機制研究、預(yù)防、遺傳咨詢和公共衛(wèi)生管理提供了有力依據(jù)。
圖2:ChinaMAP Imputation Server
為中國人基因型推斷研究和群體疾病研究提供精準(zhǔn)的參考數(shù)據(jù)
長期以來,中國人的很多遺傳疾病研究都直接應(yīng)用外國人的數(shù)據(jù)和結(jié)論。但由于不同地域人群和種族之間的歷史淵源和遺傳背景存在著巨大差異,如果把具有其他人群偏向性的知識和結(jié)論直接拿來作為中國人的疾病風(fēng)險評估、遺傳咨詢或診斷治療依據(jù),是不完善和不可靠的。
大規(guī)模人群隊列的基因組學(xué)和多組學(xué)大數(shù)據(jù)也正在重大慢病、腫瘤和遺傳病的預(yù)防、診斷和新藥研發(fā)中發(fā)揮引領(lǐng)作用,推動個體化精準(zhǔn)健康管理和疾病診療的變革。
此次研究由上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院、轉(zhuǎn)化醫(yī)學(xué)國家重大科技基礎(chǔ)設(shè)施(上海)、上海交通大學(xué)轉(zhuǎn)化醫(yī)學(xué)研究院和上海交通大學(xué)-華大聯(lián)合創(chuàng)新研究中心團隊人員共同完成,將為中國人基因型推斷研究和群體疾病研究提供精準(zhǔn)的參考數(shù)據(jù)。
在該研究中,ChinaMAP參考基因集包含了5901萬個基因多態(tài)性位點,與TOPMed、gnomAD、dbSNP和1KGP3這些主要的參考基因集相比,ChinaMAP參考基因集包含3024萬個特異性SNP,為中國人群的基因組學(xué)研究中發(fā)現(xiàn)新的遺傳關(guān)聯(lián)性位點提供了重要基礎(chǔ)。在針對中國人群的模擬及真實基因分型數(shù)據(jù)集的推斷分析中,ChinaMAP參考基因集與1KGP3、HRC、TOPMed等相比,表現(xiàn)出了最優(yōu)的推斷準(zhǔn)確性、精度和敏感性,顯著提高了功能缺失位點等低頻位點的推斷數(shù)量及常見突變位點(突變頻率>5%)的覆蓋率。使用ChinaMAP Reference Panel對中國人群特異性的MAPCGA基因分型芯片數(shù)據(jù)進行推斷,對ChinaMAP數(shù)據(jù)庫中頻率0.5%以上位點的覆蓋率可達到83%以上,顯示了基于中國人群代表性ChinaMAP高深度全基因組測序數(shù)據(jù)庫構(gòu)建的參考基因集在中國人基因型推斷研究中的優(yōu)勢。
圖3:ChinaMAP reference panel 基因型推斷表現(xiàn)
該研究除了基于華大智造的國產(chǎn)測序平臺數(shù)據(jù)之外,還依托上海交通大學(xué)高性能計算中心π 2.0平臺,完成了ChinaMAP參考基因集構(gòu)建和分析。ChinaMAP建立的迄今最大規(guī)模的中國人群參考基因集和在線推斷分析工具表現(xiàn)出更優(yōu)的性能,可為我國的人群隊列基因組學(xué)和精準(zhǔn)醫(yī)學(xué)研究助力。
*該項研究中,李林、孫曉輝、王絲雨和黃培德博士為共同第一作者。