生醫資料科學新方法:利用多個資料來源建立肺癌風險預測模型

疾病風險預測模型的建立常要仰賴費時費錢的前瞻式世代資料(Prospective Cohort),但在大部分地區缺乏如此長期追蹤的世代資料。而在大數據時代來臨之下,我們有機會收集多項來源的群體資料庫,因此在此情況下如何發展新方法以發展並評估疾病風險預測模型,成為一重要議題。

國衛院熊昭及張憶壽研究團隊(第一作者為簡立欣博士)近來利用了台灣的多項資料庫,包括肺癌遺傳流行病及病例對照研究(GELAC)、台灣人體生物資料庫(Taiwan Biobank)、癌登檔、健保檔、死因檔、人口資料,及吸菸行為調查等,將國際上經過歐美多國如美國、加拿大、德國、澳洲、英國、波蘭、巴西等國驗證(validated),而在亞洲卻缺乏驗證的吸菸者肺癌風險預測模型PLCOM2012修正為適用於台灣族群。由模型再校準(recalibration)及評估,顯示該修正後之模型PLCOT-1能夠在台灣吸菸者找出肺癌高風險族群,該成果已發表於Dec. 2022 Cancer Epidemiology, Biomarkers & Prevention (31:2208-18),並被選為當期的亮點論文之一。研究論文全文網址:https://aacrjournals.org/cebp/article/31/12/2208/711120/Recalibrating-Risk-Prediction-Models-by

此研究的研究設計如下:利用台灣多種資料來源包括肺癌遺傳流行病之病例對照研究(GELAC)、台灣人體生物資料庫(Taiwan Biobank),先產生(1)台灣吸菸者年齡配對之病例─對照研究,再利用合成健保檔、癌登檔、死因檔、人口資料,吸菸行為調查等估計(2)2011至2016之吸菸肺癌人數以及(3)模擬2010台灣無癌症吸菸族群中PLCOM2012的各風險因子(risk factors)之分布。利用上述(1)、(2)及(3)再修正PLCOM2012之係數。我們修正後的模型PLCOT-1可達AUC 0.78,與原先的PLCOM2012之AUC相當。在臨床效益方面,用此模型選出高風險族群做低劑量電腦斷層掃描(LDCT)比用一般rule-based方式能夠篩檢出更多肺癌病人。(篩檢有效性)

我們也依據此模型做了一個風險計算器(https://tlcrp.nhri.edu.tw/,該網頁也包括了不吸菸女性之肺癌風險計算器),用以針對台灣的吸菸者估計其在未來6年罹患肺癌之機率。該計算器是依據論文中的PLCOT-1模型。50-74歲的吸菸者,以前未罹患任何癌症,只要輸入年齡(Age)、身體質量指數(BMI)、是否得過慢性阻塞性肺病(COPD)、教育程度(Education level)、是否有肺癌家族史(family history of lung cancer),以及吸菸資訊,包括吸菸年數(years smoked)、每天平均吸幾支香菸(average number of cigarettes smoked per day)、戒菸時間(smoking quit time),經過模型運算就可得到未來六年發生肺癌的機率。


Figure Legend:
A, The procedures to build AMCCSE. The right panel describes the procedure to select healthy ever-smokers from the Taiwan Biobank for use as controls in the AMCCSE; see also box (a3) in the left panel. The left panel gives the procedures resulting in the AMCCSE. The matching process from box (c) to box (d) is detailed in Supplementary Materials and Methods, Text S4. B, The procedures to build SPES2010. The numbers at the right-bottom corner in the boxes (b1), (b2), (b3), (c1), and (c2) refer to those for age 50 and male sex. For example, using the TCR, TCOD, and NHIRD shown in Box (a), we obtained age- and sex-specific number of cancer survivors in Box (b2); that for age 50 and male sex was 3,596. Box (c1) shows that the SPES2010 included 112,574 men having age 50, and Box (c2) indicates that their risk-factor profiles were assigned randomly based on 501 ever-smoking men of the same age from the Taiwan Biobank.

Reference

Li-Hsin Chien, Tzu-Yu Chen, Chung-Hsing Chen, Kuan-Yu Chen, Chin-Fu Hsiao, Gee-Chen Chang, Ying-Huang Tsai, Wu-Chou Su, Ming-Shyan Huang, Yuh-Min Chen, Chih-Yi Chen, Sheng-Kai Liang, Chung-Yu Chen, Chih-Liang Wang, Hsiao-Han Hung, Hsin-Fang Jiang, Jia-Wei Hu, Nathaniel Rothman, Qing Lan, Tsang-Wu Liu, Chien-Jen Chen, Pan-Chyr Yang, I-Shou Chang*, Chao A. Hsiung*. Recalibrating risk prediction models by synthesizing data sources: adapting the lung cancer PLCO model for Taiwan, Cancer Epidemiol Biomarkers Prev. 2022; 31 (12): 2208–2218. https://doi.org/10.1158/1055-9965.EPI-22-0281 (*為本文通訊作者)