GMBD Bioinformatics Core 分析工具深度報導

親緣分析的遊戲場：圖像化親緣演化分析工具(POWER)與最佳化分子親緣關係高速分析平台(PALM)

生物巨分子的親緣性分析是一個經常使用的演化分類方法，此方法的主要優點是藉由計算保守性序列的變異程度，而推衍序列之間的相對演變歷史，進一步可推衍為個體間或物種間的族系發生史 (phylogenesis) 。序列親緣性分析可補強型態測量分類方法的不足，除了應用在一般的物種演化分析與生物地理學的應用外外，也可以協助鑑別某些未必具有明顯特徵可資分類的病原菌或病毒株，或是透過序列的變異程度來探知瞭解病原體的傳染途徑與方式。傳統之血清型分類方法，無法有效鑑別病原體變異株之間的些微差異，病源鑑定與疾病控制上亦受限於此；透過代表性基因型或分子標記的定序與後續的序列親緣性分析，我們可瞭解不同時間與地點的採撿樣品之間的時空演變關係，甚至經由同一個體中不同組織器官的病原體序列演化資訊，我們可以得知病原在宿主內的感染路徑，進以掌握致病原變異與傳佈的機制與防制之道。

序列分析在生物資訊的研究領域中已為相當成熟的技術，而分子演化 (molecular evolution) 學者們也成功地引入這些計算理論至生物巨分子序列分析上，發展出利用序列分析估算物種演化的理論。一個標準的親緣性分析包括一連串的操作階段 (如圖一)：

1. 多序列排比 (multiple sequence alignment, MSA)

2. 親緣關係推衍 (inferring on phylogenetic relationship)

3. 樹形繪製 (tree building)

圖一：親緣分析的基本流程

每個步驟都可由個別的程式完成，例如多序列排比 MSA，可透過 ClustalW on command-mode, GUI ClustalX，或其他網路上的生物資訊服務站如 Centre for Molecular and Biomolecular Informatics (http://www.cmbi.kun.nl/)、European Bioinformatics Institute (http://www.ebi.ac.uk)等；親緣關係則以預先完成的序列排比結果為基礎，再透過 PHYLIP package 及 WebPHYLIP 等網路生物資源服務站，或是 PhyML, MrBayes，MEGA 等單機版軟體來進行後續分析。大部分的分析工具都必須挑選合適的演化親緣模型 (Substitution Model)，引用不同的演化模型，往往會影響到最後的樹狀結構與生物意義推論 (此一問題將在後面介紹的 PALM 這套系統中獲得解決)。最後的樹形繪製工作，有時已包含在親緣關係分析程式的最後輸出結果之內，如 MEGA；也有些軟體專為樹形繪製設計，可讀取親緣關係分析的輸出檔案 (文字形式的檔案)，如 DRAWTREE、WebPHYLIP、 TREEVIEW、NJPLOT、PhyloDraw 與 PHYLIP 套件中的 DRAWGRAM 等。在不同分析階段之間，有許多檔案輸出與輸入格式對應與轉換的問題，而即使有整合性親緣分析服務，如 PhyloBLAST，但是其分析工作的彈性較小，往往無法因應使用者的需求。PhyloBLAST 起始於 BLAST search，僅搜尋蛋白質序列進行親緣分析，但不允許使用者自行調整參數，並以固定的參數與演化模型來建置親緣關係。序列親緣樹形圖是一般生物學及醫學研究者的判讀依據，但在樹形繪製的適切表達上也經常發生問題，例如：樹狀分支間發生交叉，序列識別標記重疊，檔案輸出格式支援性…等等。這些現有的分析工具，往往親和性不足，圖像化使用者介面闕如或不佳，操作過程繁瑣，對於大量或是反覆更改相關參數的親緣分析十分不利，同時也沒有在分析過程中，告知使用者有哪些分析方法與計分矩陣，及何種參數的選擇建議，造成使用者往往徒勞無功，甚至做出錯誤的推論結果。接下來介紹的這兩個分析平台，將可以讓使用者，跳脫這一切繁雜的操作流程與遠離不同程式間的轉換工作，以圖像化的高親和性介面，透過平滑的學習曲線，並在系統嚴謹的演化統計理論與高效能資訊技術的協助下，快速且正確地建構研究結果所將要呈現的親緣關係，並藉此從中推論出背後所代表的生物意義。

POWER (PhylOgenetic Web Repeater)：圖像化親緣演化分析工具

本研究的主要目的，在於建構整合之自動化序列親緣性分析系統，以導引式互動介面協助來自不同研究社群的使用者完成分析，簡化繁瑣的序列格式處理過程及流暢地銜接多種操作程序，但又能保有各分析階段的精細調整參數的功能，並自動記錄操作過程的參數設定，以便使用者回溯其工作流程，再行調整。另外，針對樹形圖的輸出方式，與樹形分支排列調整等功能設計程式，以符合客製化 (customize) 的理想。另外，目前更設計將 POWER 與 BLAST 工具結合，以 GenBank 或是 NR 為比對資料庫，以簡化並延伸使用者的輸入選定序列的工作，加速使用者解析所研究之序列與相關序列間的時空分析概況。

本系統為整合性可反覆執行之序列親緣關係分析工具，提供使用者分別以一般序列 (Fasta) 與比對序列 (Aligned sequences) 二種方法來進行核酸或蛋白質序列親緣關係分析，並可即時動態增加或減少序列數目節點，反覆調整分析之結果 (請參見圖二、三) 。POWER 總共提供 64 種不同組合的分析方法，在每一種分析中，皆以簡單明瞭的指引協助使用者設定選擇參數，在 Help 網頁中更詳述了每個參數的意義，方便使用者即時查看；除了最大概似法 (Maximum Likelihood, ML) 相當耗時之外，大部分分析方法，如距離法 (Distance Matrix Method) 與最大檢約法 Maximum Parsimony) ，都可以數分鐘內完成，使用者可在線上稍做等候，或是將送件完成的網頁存成書籤 (Bookmark) 再次拜訪，同時也可以靜待系統的 E-mail 通知取件。

分析結果中，系統為使用者保留與記錄了所有分析過程中所使用的參數設定，使用者輸入的序列以及運算過程中所輸出的結果，所有檔案皆可在下載區中下載保存；親緣關係樹的呈現上以不同顏色清楚標示可信度的範圍。若要進行另一次的分析，使用者也可以移動滑鼠點擊想要移除的序列所代表的紅色結點，再次重覆以相同或不同的方法進行分析，或新增任何序列，免去不斷重複輸入序列資料與參數的繁瑣過程。點擊黑色結點則可將結點二側的序列反轉，便利使用者呈現其研究結果的呈現序列順序，這樣的調整並不會影響整個親緣樹的原有拓樸架構 (Topology) 。

POWER 系統之建置，乃由國衛院生物統計與生物資訊研究組熊昭組主任、林仲彥助研究員、林凡凱先生、林介華小姐、賴立偉先生及徐秀君小姐，所組成的研發小組以一年半的時間進行開發，並在中央研究院基因體中心幹細胞實驗室陳淑華博士的協同合作下，完成整體系統的優化與論文的撰寫。POWER 已發表於 2005 年七月的國際知名期刊 Nucleic Acid Research (33: W553-W556, 2005) ，同時 POWER 也被多次引用於 Nature Preceding、The journal of experimental biology、Nucleic Acids Research、Bioinformatics、 BMC Bioinformatics 以及 PLoS ONE 等著名期刊的論文之中；並被收錄於知名的蛋白質體學分析工具網站 ExPASy 裡。截自 2009 年 12 月底為止，已有超過 12000 餘人次使用 POWER ，並已處理二十四萬餘條序列。

Citation: Nucleic Acids Research, 2005, Vol. 33, Web Server issue W553–W556

網址：http://power.nhri.org.tw
實例操作：POWER 的操作方法 (step by step)、結果呈現與說明，歡迎觀賞影音檔介紹：

中文版 (Chinese version)

英文版 (English version)

圖二：POWER 分析流程與結果呈現

圖三：POWER 之操作介面

PALM (Phylogenetic Reconstruction by Automatic Likelihood Model Selector)：最佳化分子親緣關係分析平台

一直以來，演化模型的選取，都是建構親緣樹的重要關鍵，不同的模型往往會造成樹型拓樸的差異，進而影響後續的生物意義推論。PALM 為一個自動選擇最佳演化模型之生物分子親緣關係分析平台，以最大概似法 (Maximum Likelihood, ML) 為基礎，應用多核心平行技術 (parallel computing)，可加速運算效能，縮減所需時間為原來的六分之一 (系統架構如圖四所示)。目前 PALM 提供多達 56 種 DNA 演化模型及 112 種蛋白質演化模型，可同時評估，並依其統計結果擇取最佳模型，再輔以 Bootstrap 分析，進一步提供互動式親緣樹檢視介面，方便使用者對親緣樹型進行翻轉、交換，同時也可以透過圖像化方式刪除與新增分析序列，再次進行新的分析工作。分析流程中所用的參數與產出檔案，都與圖像化結果一起被紀錄在報表網頁中，可供使用者下載並進一步利用 (圖五)。 PALM 以極具親和性的介面，大大地減少使用者在進行複雜多演化模型分析的難度與時間，使得生物學家能以更具統計意義的演化模型，來解釋所建構出來的親緣關係與其中所包含的生物意涵。

PALM 系統之建置，乃由中央研究院資訊科學研究所林仲彥助研究員 (亦為國家衛生研究院群體科學研究所，生物統計與生物資訊研究組合聘之助研究員)，所引領的研究團隊 (系統生物與網路生物學實驗室，http://eln.iis.sinica.edu.tw)，包括陳淑華博士、蘇聖堯先生、羅存仁先生、郭柏漢先生、陳貴弦先生及黃騰杰先生，所組成的研發小組以兩年半的時間進行開發，並完成整體系統的優化、相關文件與論文的撰寫。PALM 已於 2009 年十二月初發表在國際知名期刊 PLoS ONE (4(12): e8116) 上，截自 2010 年 1 月底為止，已有來自全球超過 900 餘人次使用 PALM，並已處理一萬九千餘條序列。

Citation: PLoS ONE 4(12): e8116. doi:10.1371/journal.pone.0008116

網址: http://palm.iis.sinica.edu.tw

實例操作：Palm 的操作方法 (step by step)、結果呈現與說明

中文版 (Chinese version)

英文版 (English version)

圖四：PALM 的分析流程與基本運作

圖五：PALM 的分析結果與相關檔案之呈現及下載

POWER / PALM 學術研究上的應用範例

POWER 及 PALM 是相當具有親和力的序列親緣分析系統，除了運用於生物巨分子序列分析外，還可以讓研究人員進行疾病病原分子監控，快速判定源自不同時空的檢體序列間的親緣關係，而無須陷入繁瑣的程式操作與避免複雜的結果研判。譬如人類與禽類流感病毒的分析，更可以透過這樣的系統快速地進行親緣與傳遞途徑的解析。

由國家衛生研究院群體科學研究所熊昭所長所帶領的研究團隊，亦利用 POWER 分析來自 1971-2002 年之間 A/H3N2 型流感病毒檢體序列中 hemagglutinin (HA) 的蛋白突變，進一步預測出 1999-2004 年間的病毒株抗原位點 (成功率=91.67%)，找出 20 個可能的主要免疫位點。 (Bioinformatics 2008, 24(4):505-512)。

圖六：利用 POWER 分析來自 1971-2002 年之間 A/H3N2 型流感病毒檢體序列中 hemagglutinin (HA) 的蛋白突變。

近期使用者以 POWER 為基礎平台，所發表的學術論文如下：

圖七：以距離矩陣法 (Neighbour-joining mathod) 來分析與非洲肺魚尿素轉運子的相關親緣關係

圖八：以最大檢約法 (Maximum parsimony method) 來分析與魚類促性腺激素受器的相關親緣關係