8月生物資訊週介紹與分享

8月生物資訊週的課程以「癌症基因體與大數據資料處理分析」為主題,使用5天上午的時段,藉由簡明互動的授課方式,讓學員經由實機操作熟悉相關軟體、資料庫及數據處理的方法,了解程式的學習與應用並非想像中那麼困難。後續我們也會廣開類似課程,期望此研習會能提供相關領域之研究學者及學生在實驗數據分析上之助益。

本次課程內容安排豐富實用,第一天的內容以癌症基因體高通量數據分析為主,介紹癌症基因體資料庫與數據分析工具。此外,龐大的生物數據若無法有效歸類並加以分析與整合,會落入空有資料卻毫無價值的窘境,有鑑於此,我們特別從"生物大數據視覺化實作"的角度,引導學員實機操作生物醫學數據處理與圖表製作,學習自動化資料處理與分析的方法,產出高可靠性與高再現性的分析結果。

第二天的課程介紹如何利用網頁與R語言套件快速繪製2-7個集合的維恩圖(Venn diagram)。R 語言是公認處理大數據的超強工具,語法簡單直覺,而且還支援許多功能強大的延伸套件,R 也是繪製維恩圖的首選,提供了多個可繪製維恩圖的套件,維恩圖是廣泛使用的集合視覺化分析工具,常用於不同集合間的交集、差集與聯集運算,藉此挑選共同元素。透過講師在課堂上兼具應用與方向性的程式語言學習指引,學員亦回饋獲益良多。

第三天的課程介紹Python Orange3視覺化程式設計工具,Orange3是簡單易上手的資料視覺化工具,輕鬆操作即可進行資料分析及開發基礎模型,提供使用者以圖像化、視覺化的方式,更有系統地展現資料數據,除了可以學習到資料探勘(Data Mining)與機器學習(Machine Learning)方法,同時也可以了解到程式語言在生醫方面的支援與應用。

第四天的課程以流病資料的分析與應用實作為主,使用Python為分析工具,Python歷經了大數據及人工智慧的發展,已成為目前最普及的程式語言,此次講師以數位流行病學(Digital epidemiology)的角度出發,與生物大數據資料結合,提供學員除了Excel外, 也可以選擇Python做為數據分析與圖表展現工具。

第五天的課程介紹Kaggle數據資料庫平台的應用,學員能從Kaggle資料庫下載到許多的數據供學習、研究使用。舉例來說,本課程介紹一個Kaggle的細胞計數AI模型( U-net),藉由1200張從Kaggle下載的影像資料,讓學員實作開發一套AI細胞計數分析工具,除了細胞計數之外,也可以應用在其它的影像分析,像是腫瘤細胞計數、群眾運動人數計數等。

本次線上課程的程式實作,我們使用Google colab notebook教學,Google colab是一個免費的雲端虛擬機器,藉由瀏覽器介面使用Google強大的計算資源,只要有Google 帳號就能使用,所有運算完全在雲端進行,所以也不會受限於常見的遠距教學和個人電腦設備受限的問題,編寫和執行的程式可以直接儲存在Google drive。對於完全沒有接觸過程式語言且有數據分析需求的使用者來說,可以非常簡易入門與上手操作。開始使用的第一步,是登入你的Google drive,新增Colaboratory應用程式,如下圖所示:

如果已安裝好的話,會看到在雲端硬碟中出現一個Colab Notebooks的資料夾,後續則可以藉由雲端硬碟>新增>Google Colaboratory 來新建檔案,檔案的副檔名是ipynb。

後續要編輯雲端硬碟中已有的ipynb檔案,則可以在檔案上點擊右鍵,選擇開啟工具>Google Colaboratory 來開啟與編輯檔案,如下圖所示:

好的開始是成功的一半,你的程式學習與數據分析大門已經順利開啟