本網訊 11月12日上午,來自香港城市大學的方稱宇教授在南校區圖書館報告廳,從語料庫語言學家的角度,向大家介紹了基于文本的信息處理的歷史發展,同時全面展現了自己最新的文本聚類實驗成果。本次講座由思科信息學院、語言工程與計算廣東省社會科學重點實驗室承辦。思科信息學院副院長蔣盛益主持講座。

方稱宇正在作講座
陳述歷史,總結經驗
講座伊始,方稱宇先介紹了基于文本的信息處理技術的兩個出發點:一是需要運用到計算手段,二是需要處理者擁有語言學認識。雖然經過了數十年的發展,但是仍然沒有一個標準的語言處理手段。在定義了一些基本概念之后,方稱宇以自己正在的研究的文本聚類領域為例,描述了近十年來的發展歷程。目前,運用信息系統進行文本聚類的方法主要有兩種,一是根據詞義,但是此方法較難具體反映文本的內容;二是根據詞性,但是根據詞性進行聚類不易反映文本規律。
過去十余年間,兩種方法的合理性實用性都被研究人員反復驗證,相比而言,通過詞性進行文本聚類的準確性更高一些。但是也存在結果不容易進行評估、詞性與詞義之間容易夾雜、實驗中聚類類型少等問題。
設計實驗,遴選工具
為了驗證詞性進行文本聚類的準確性,方稱宇開展了研究工作。針對之前總結出的問題,他提出在實驗中需要做到只對詞性進行研究、豐富數據庫的語言學信息、實驗中采用更多類型的文本等要求。
語料庫是運用信息系統進行文本聚類的基礎,分類器會根據語料庫的內容來對文本進行聚類。方稱宇和他的團隊在實驗開始前用了半年時間對語料庫、分類器進行遴選,最終選擇了三個具有權威性的語料庫。為了進行對照,三個語料庫中有一個是以詞性作為基礎的,而其他兩個語料庫則分別包含復雜和簡單的詞性信息。而在分類器方面,方稱宇團隊選取了在業界具有一定權威性的NB和NB-MN分類工具。
分析實驗,展望未來
在經過多次的試驗、對比之后,方稱宇認為,從文本聚類的有效性來看,詞性的作用要大于詞義的作用,在一些文本分析中差距甚至能達到10%。同時,復雜詞性語料庫的聚類效果要好于簡單詞性語料庫的聚類效果。此外,分類工具對聚類效果也存在影響,普遍看來,NB-MN工具的聚類效果更佳。
盡管得到了初步成果,方稱宇仍認為自己的研究還有進步空間,下一步他將擴展研究的專業性,專攻醫療領域的文本,并將努力從研究結果中抽象出普遍特征。

蔣盛益向方稱宇紀念品
講座最后,蔣盛益代表學校向方稱宇贈送紀念品。
附:方稱宇(Alex Chengyu Fang)簡介
方稱宇(Alex Chengyu Fang)在University College London (UCL)獲語言學博士學位,現在是香港城市大學語言學教授,對話系統實驗室主任和創始人,同時是北京航空航天大學客座教授,以及中國全國術語標準化技術委員會成員。關注的領域包括計算語言學和自然語言處理等。