淺談單細胞RNA定序資料分析中的細胞分型

對大部分利用單細胞RNA定序實驗進行研究的同好而言，了解組織樣本中的各種類別的細胞組成以及含量常為主要的目的。因此，如何做好細胞型註解（cell type annotation, 或稱細胞分型，cell typing）是非常重要的步驟。以非常受歡迎的Seurat套件為例，需要先找尋資料中變異程度最大的一群基因（HVGs, highly variable genes），利用這一群基因進行不同程度的降維（dimension reduction）以及分群（clustering/subgrouping），再逐群檢視各組細胞型標記（cell type markers）之表現在統計上於某群細胞中是否有足夠的專一性，以此原則反覆進行細胞型判定。這是最傳統的人工判別法，非常仰賴分析者的分析經驗，以及是否有適當且足夠的細胞性標記可供應用。這是因為細胞的基因表現隨所處環境（組織部位）不同，或分化程度不一等時空背景因素，常有不同的特徵基因表現。

然而，在最新的研究趨勢中，自動化的細胞型別識別工具逐漸嶄露頭角，提供了與人工方法截然不同的途徑。例如，ScType利用深度學習的方法，藉由神經網路模型的訓練，學習基因表現數據中的潛在模式，從而自動化識別細胞類型。另外，SingleR工具則對單細胞的表現圖譜進行分析，並將其與一個已知細胞類型的參考資料庫進行比對，以確定細胞的身份。最後，針對複雜組織中細胞註解的需要，scCATCH工具按照預先定義的細胞標記進行細胞的分類。

這些自動化工具的優勢在於它們的快速性和高通量性能，它們降低了對專業知識的依賴，並在某些情況下提高了分類的精準度。自動化工具如ScType，允許研究者省去深究基因表現隨環境變化的需要，而是依靠其算法來識別這些複雜的關聯。另一方面，SingleR和scCATCH則透過對標準細胞類型的快速識別，使得即使在缺乏大量細胞標記的情況下也能有效工作。然而，這些工具也不是萬能的，ScType在訓練資料有限的情況下可能效果有限，而SingleR和scCATCH的準確性則高度依賴於參考資料庫的完整性與詳盡程度。

總而言之，不論是手動或自動化的細胞分型工具，都應根據研究的具體需求、樣本的特性、數據的規模和預期的分析深度來選擇。這些自動化工具提供了有效的替代選擇，能夠補充甚至取代傳統的人工分析方法，但選擇合適的工具仍然需要謹慎考量，以確保研究成果的可靠性和準確性。

本核心定期開設單細胞定序原理講解以及資料分析實作課程，歡迎有興趣同好留意開課時間，一同前來了解此領域的進展

參考資料：

https://satijalab.org/seurat/
Aran, D., et al., Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage. Nat Immunol, 2019. 20(2): p. 163-172.
Ianevski, A., A.K. Giri, and T. Aittokallio, Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun, 2022. 13(1): p. 1246.
Shao, X., et al., scCATCH: Automatic Annotation on Cell Types of Clusters from Single-Cell RNA Sequencing Data. iScience, 2020. 23(3): p. 100882.