基因體高通量資料之前處理

本核心實驗建立了幾項基因體高通量資料之標準分析流程,包括前處理(Data preprocessing),統計推論(statistical inference)及路徑分析(gene-set enrichment analysis)。我們這期電子報將以我們自身的經驗來說明對基因體高通量資料的前處理。

由於Illumina Infinium HumanMethylation450 BeadChip (簡稱450K)是當前一個研究epigenetic regulation的重要技術平台,我們將在下面以Illumina 450K為例來介紹我們的資料前處理方法。

資料前處理分為三個階段。第一階段是把Illumina 450K中帶有漢人SNP或有repeat sequences之probe拿掉並依照Illumina 450K實驗中所設計的各式control probe來檢查實驗是否成功。其中特別包括了bisulfite conversion的control probe。我們也會加一些自己定的檢查項目來評估實驗是否成功,譬如把一些樣本重複放在不同的chip上來比較其差異,或是看看女性在X Chr.上的methylation level是否和男性有顯著不同,等等。

第二階段是利用de-convolution方法來去除掉non-specific binding,或是所謂的背景值較正(background correction)。我們是採用MBCB(Model-based Background Correction for BeadArrays; Ding, et al., 2008; Xie, et al., 2009)消除資料中因為背景值所產生的誤差。此方法與一般RMA(Robust Multi-Array)最大的不同是利用了negative control probes來調整不同樣本間的誤差,而此方法的統計模型假設也使得校正後不會有小於零這種不合理的情況產生。

第三階段的最重要,是要檢查並減輕已知或未知的batch effect。當然,在實驗之前便要做好實驗設計,避免所謂的batch effect,譬如說,實驗組與對照組不要分在不同批次進行實驗。我們對付已知及未知batch effect是採用SVA (Surrogate Variable Analysis; Leek and Storey, 2007)。這方法的假設是PCA (Principal Component Analysis)可以找到影響實驗數據最大的因子,而這些因子若是與我們所感興趣的變數無關,則可將其處理掉。依據文獻,這方法還相當有用。