老人照護陪伴問答系統
現有的大型語言模型透過大量資料訓練,可以很快地生成出模仿人類的文字。儘管這些模型能提供貼近人性、易於閱讀的內容,但生成的文字缺乏解釋性,且無法追溯資料來源,除了面臨推理受限的挑戰,也難以確保生成內容的可靠性並實際應用於現實情境。本核心許聞廉老師團隊提出「語意理解問答」技術,不僅藉由語意框架知識庫來推敲細緻且深度的語言特徵,理解使用者的意思,還結合知識圖譜得到具可解釋性的推論結果。這項技術預期可解決現有生成式模型在缺乏解釋性、難以分析錯誤、生成資訊來源不明等痛點。此外,由於語意框架知識庫與知識圖譜是以人類可理解的方式表達,不僅便於領域專家修改與除錯。還可透過這種AI模型與人類知識共同協作的方式,提高系統的效能。
專業領域的知識圖譜建置,涉及資料收集、標註及驗證,此外,傳統的自然語言處理需要收集大量的「同義詞」、「換句話說」等相似語意的語料來進行語言的分析與理解,其所需的人力與時間成本較高。因此,我們提出了一個「領域專家與大型語言模型協作建構知識圖譜」的創新方法,以減少語料收集與圖譜建置過程中所需要的成本,並且這種共同協作的方式預期可擴展到其他所有可能的應用領域。
在亞洲大學所提供的「老人陪伴常見問答集」中,我們針對「問題句」的部分,以大型語言模型結合Data Augmentation生成新的問題句,以增加問答系統訓練語料的規模。在知識圖譜的建構上,我們先由領域專家分析在老人陪伴照護領域所需的抽象概念知識,包含命名實體與關係(見圖一)。再由大型語言模型對於常見問答集中的文本進行「知識本體」、「意圖關係」與「語意框架」的預標註(pre-label),並將預標註結果經由領域專家檢查與驗證,再依此建立知識圖譜,而形成「語意框架知識庫」。
透過「語意框架知識庫」結構化的語意框架知識,可以推敲細緻且深度的語言特徵,理解使用者的意思,並可結合知識圖譜得到具可解釋性的推論結果(圖二)。因此,新開發的語言模型得以落實於老人陪伴對話系統的應用,並透過知識圖譜進行驗證,產生可解釋性的推論,讓生成答案的過程都有所依據,以便達到可信任AI的目的。圖三為團隊提出的應用於老人陪伴機器人之「語意理解問答系統」之架構。
經過統計,相較於完全的人工標註,這種與大型語言模型共同協作的流程,在語料收集與圖譜建構上,分別可以節省70%~80% 與 40%~50% 的人力成本。目前已經完成規模約 2,800 句的老人陪伴常見問答集與4,000 NE-Relation tuples 所構成的老人陪伴照護知識圖譜。在所建置的老人陪伴常見問答資料集(訓練集與測試集分別含有2,328與325個問答題)上的模擬實驗結果顯示,其所提出的語意理解問答系統可達92.13% 正確率。此外,與現有的生成式模型答案結果相比,「語意理解問答系統」可同時輸出語言模型分析後的語意框架、推論過程與答案, 方便進行驗證與除錯(圖四)。