找尋未來新型態抗生素:以人工智慧來鑑別與設計新一代抗菌胜肽

近年來,因為新興超級病毒(Superbugs)伴隨高抗藥性特徵的出現,讓找尋新一代抗生物質的必要性更為突顯。病原對抗生素的耐藥性一直是人類和動物面對病原攻擊時的嚴重問題,而天然抗菌肽(Antimicrobial peptides, AMPs)與許多常規的藥物相比,有著更不容易讓細菌產生抗性之特性,相當具有新藥開發之潛力。在許多不同生物(人類、青蛙、魚類等)的體表、皮膚、腸胃道等部位,特別是具有黏液分泌的地方,都可以發現 AMPs 的存在,然而因為其存在並沒有限定在某一物種或是某一部位,使得 AMPs 被鑑別出來的難度相當高。

因此,本核心中央研究院資訊科學研究所林仲彥研究員團隊,蒐集AMPs的序列資料共六千多筆(圖一),以及相同數量的非AMP蛋白序列資料,再將每條序列透過轉編碼方式轉換為矩陣,利用深度學習卷積神經網路(Convolution Neural Network),建構分類模型,判別蛋白序列是否具有抗菌效果。透過團隊所開發的全新的蛋白編碼方法PhysicoChemical Property (PC6),可將蛋白質的每個胺基酸轉換成依其物化特性的六個數值(H1:親水性、V:側鏈大小、PL:極性、PI:等電位點、pKa:酸度係數及NCI:側鏈淨電荷),使得一整條序列能快速轉換為深度學習模型的輸入矩陣(圖二)。此方法不僅能考慮蛋白質胺基酸的排列順序,也可以將各個胺基酸的物化特性納入考量。經過我們的研究證明,這樣的編碼方式可以提升後續機器學習的表現。

研究團隊所開發的AMPs預測模型,相較於過去其他的AMPs預測模型,具有很大的突破。在模型的表現上,我們的模型精確率(Precision)達90.35%,F1 Score(精確率和召回率的調和平均數)為0.88。比現有其他廣泛使用的深度學習預測平台,如APS vr.2 (https://www.dveltri.com/ascan/v2/) (87.96%、0.82),及iAMPpred (http://cabgrid.res.in:8080/amppred/) (74.36%、0.74) 的表現來的更佳。研究團隊參照過去多次的雲端平台開發經驗,整體的系統架構將以開源環境 LAMP(Linux, Apache, MySql, PHP)、 R、Python、HTML5 及 java 等為基礎,結合高品質訓練資料與深度學習模型,並設計高親和圖像介面、提供使用說明與範例檔案,建立了名為AI4AMP的即時預測網站(https://symbiosis.iis.sinica.edu.tw/PC_6),目前已架設於中研院資訊所之對外雲端平台,可讓全球相關學術研究社群,透過網路來獲取這項研究所帶來的成果(圖三)。輸入的序列可為單一條蛋白質序列,或是一整個蛋白質體(以FASTA格式),經人工智慧模型預測,將會判斷出輸入序列是否為AMP的可能性,經與實際AMP資料相驗證,其預測值越高,其為AMP的可能性越高。

此外,研究團隊也創立第一個以生成對抗網路模型(Generative Adversarial Network, GAN)為架構,已既有抗菌肽資料庫為基礎,可用於開發與設計新一代抗菌肽藥物的人工智慧生成器。利用此生成器產生的胜肽,可高度模仿現有抗菌肽的胺基酸組成比例以及物化性質,並利用研究團隊所開發的AMPs預測模型進行預測,再配合實驗驗證,將能加速新一代抗菌肽藥物的開發時間及成本。為了瞭解所預測出來候選抗菌肽的抗菌效果,並建立後續實證實驗室的操作流程,由AMP資料集中隨機挑選一條序列PosX2,其在系統中的AMP預測值為0.99,另外利用團隊所研發的生成對抗網路雛形,所設計出的抗菌肽,亦是隨機選擇其中一條PepX3,其AMP預測值為0.98。以這兩條序列,委託生技公司進行合成與純化後,在台大施養信教授團隊的合作協助下,來對一般大腸菌及抗藥性細菌(金黃葡萄球菌與綠膿桿菌)進行抑菌研究,透過不同AMP濃度,可以看到皆有明顯的抑菌圈出現,特別是GAN所設計之PepX3在較低的使用濃度下,仍有相當不錯的抑菌效果(圖四)。

透過整合高品質抗微生物肽資料、深度學習模型與網站技術,研究團隊未來將持續優化已建構線上分析平台,並開發新的分析模組,提供給全球藥物開發和從事相關研究人員使用,了解其所研究的標的序列或是所探討的微生物相中,是否有可能的抗菌/抗病毒/抗黴的序列模組存在,如此將能擴大後續新型抗生素與新藥開發的候選標的,並應用於未來感染控制與癌症治療。同時,這些以生成對抗網路(GAN)模型所設計出的新型抗菌肽/抗病毒肽/抗黴肽,經過預測平台篩選與實驗驗證後,將成為新型的藥物標的,作為未來人類與微生物共存時的防衛武器,應能減少有限醫療資源的耗用並進一步提昇人類的生活品質(Quality of Life)。

 

線上網站: https://symbiosis.iis.sinica.edu.tw/PC_6/

技術說明影片連結:

  (中文)

  (英文)

 

圖一、運用於深度學習之抗菌肽資料集的組成與清洗。

圖二、 (A) 以PC_6編碼方式來將序列轉換為200×6數值矩陣。(B) 傳入的數值矩陣,利用深度學習結合長短期記憶模型來進行訓練與後續的預測。