淺談單細胞RNA定序資料分析中的細胞分型
對大部分利用單細胞RNA定序實驗進行研究的同好而言,了解組織樣本中的各種類別的細胞組成以及含量常為主要的目的。因此,如何做好細胞型註解(cell type annotation, 或稱細胞分型,cell typing)是非常重要的步驟。以非常受歡迎的Seurat套件為例,需要先找尋資料中變異程度最大的一群基因(HVGs, highly variable genes),利用這一群基因進行不同程度的降維(dimension reduction)以及分群(clustering/subgrouping),再逐群檢視各組細胞型標記(cell type markers)之表現在統計上於某群細胞中是否有足夠的專一性,以此原則反覆進行細胞型判定。這是最傳統的人工判別法,非常仰賴分析者的分析經驗,以及是否有適當且足夠的細胞性標記可供應用。這是因為細胞的基因表現隨所處環境(組織部位)不同,或分化程度不一等時空背景因素,常有不同的特徵基因表現。
然而,在最新的研究趨勢中,自動化的細胞型別識別工具逐漸嶄露頭角,提供了與人工方法截然不同的途徑。例如,ScType利用深度學習的方法, 藉由神經網路模型的訓練,學習基因表現數據中的潛在模式,從而自動化識別細胞類型。另外,SingleR工具則對單細胞的表現圖譜進行分析,並將其與一個已知細胞類型的參考資料庫進行比對,以確定細胞的身份。最後,針對複雜組織中細胞註解的需要,scCATCH工具按照預先定義的細胞標記進行細胞的分類。
這些自動化工具的優勢在於它們的快速性和高通量性能,它們降低了對專業知識的依賴,並在某些情況下提高了分類的精準度。自動化工具如ScType,允許研究者省去深究基因表現隨環境變化的需要,而是依靠其算法來識別這些複雜的關聯。另一方面,SingleR和scCATCH則透過對標準細胞類型的快速識別,使得即使在缺乏大量細胞標記的情況下也能有效工作。然而,這些工具也不是萬能的,ScType在訓練資料有限的情況下可能效果有限,而SingleR和scCATCH的準確性則高度依賴於參考資料庫的完整性與詳盡程度。
總而言之,不論是手動或自動化的細胞分型工具,都應根據研究的具體需求、樣本的特性、數據的規模和預期的分析深度來選擇。這些自動化工具提供了有效的替代選擇,能夠補充甚至取代傳統的人工分析方法,但選擇合適的工具仍然需要謹慎考量,以確保研究成果的可靠性和準確性。
本核心定期開設單細胞定序原理講解以及資料分析實作課程,歡迎有興趣同好留意開課時間,一同前來了解此領域的進展
參考資料:
- https://satijalab.org/seurat/
- Aran, D., et al., Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nat Immunol, 2019. 20(2): p. 163-172.
- Ianevski, A., A.K. Giri, and T. Aittokallio, Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun, 2022. 13(1): p. 1246.
- Shao, X., et al., scCATCH: Automatic Annotation on Cell Types of Clusters from Single-Cell RNA Sequencing Data. iScience, 2020. 23(3): p. 100882.
