波音游戏刷新-波音平台 红宝石

廣外新聞

廣外新聞

本網訊 11月12日上午,來自香港城市大學的方稱宇教授在南校區圖書館報告廳,從語料庫語言學家的角度,向大家介紹了基于文本的信息處理的歷史發展,同時全面展現了自己最新的文本聚類實驗成果。本次講座由思科信息學院、語言工程與計算廣東省社會科學重點實驗室承辦。思科信息學院副院長蔣盛益主持講座。


方稱宇正在作講座

陳述歷史,總結經驗

講座伊始,方稱宇先介紹了基于文本的信息處理技術的兩個出發點:一是需要運用到計算手段,二是需要處理者擁有語言學認識。雖然經過了數十年的發展,但是仍然沒有一個標準的語言處理手段。在定義了一些基本概念之后,方稱宇以自己正在的研究的文本聚類領域為例,描述了近十年來的發展歷程。目前,運用信息系統進行文本聚類的方法主要有兩種,一是根據詞義,但是此方法較難具體反映文本的內容;二是根據詞性,但是根據詞性進行聚類不易反映文本規律。

過去十余年間,兩種方法的合理性實用性都被研究人員反復驗證,相比而言,通過詞性進行文本聚類的準確性更高一些。但是也存在結果不容易進行評估、詞性與詞義之間容易夾雜、實驗中聚類類型少等問題。

設計實驗,遴選工具

為了驗證詞性進行文本聚類的準確性,方稱宇開展了研究工作。針對之前總結出的問題,他提出在實驗中需要做到只對詞性進行研究、豐富數據庫的語言學信息、實驗中采用更多類型的文本等要求。

語料庫是運用信息系統進行文本聚類的基礎,分類器會根據語料庫的內容來對文本進行聚類。方稱宇和他的團隊在實驗開始前用了半年時間對語料庫、分類器進行遴選,最終選擇了三個具有權威性的語料庫。為了進行對照,三個語料庫中有一個是以詞性作為基礎的,而其他兩個語料庫則分別包含復雜和簡單的詞性信息。而在分類器方面,方稱宇團隊選取了在業界具有一定權威性的NB和NB-MN分類工具。

分析實驗,展望未來

在經過多次的試驗、對比之后,方稱宇認為,從文本聚類的有效性來看,詞性的作用要大于詞義的作用,在一些文本分析中差距甚至能達到10%。同時,復雜詞性語料庫的聚類效果要好于簡單詞性語料庫的聚類效果。此外,分類工具對聚類效果也存在影響,普遍看來,NB-MN工具的聚類效果更佳。

盡管得到了初步成果,方稱宇仍認為自己的研究還有進步空間,下一步他將擴展研究的專業性,專攻醫療領域的文本,并將努力從研究結果中抽象出普遍特征。


蔣盛益向方稱宇紀念品

講座最后,蔣盛益代表學校向方稱宇贈送紀念品。


附:方稱宇(Alex Chengyu Fang)簡介

方稱宇(Alex Chengyu Fang)在University College London (UCL)獲語言學博士學位,現在是香港城市大學語言學教授,對話系統實驗室主任和創始人,同時是北京航空航天大學客座教授,以及中國全國術語標準化技術委員會成員。關注的領域包括計算語言學和自然語言處理等。

文字 圖片
百家乐官网游戏策略| 怎样玩百家乐赢钱| 香港六合彩彩图| 百家乐官网博百家乐官网| 百家乐游戏制作| 博野县| 豪华百家乐官网人桌| 百家乐大赢家客户端| 网上百家乐官网哪里好| 博狗玩百家乐好吗| 百家乐官网正确的打法| 大发888娱乐场奖金| 百家乐官网娱乐城足球盘网| 24山向山摆设| 大发888真钱游戏娱乐城下载| 百家乐官网双筹码怎么出千| 宝博娱乐城开户| 百家乐园百利宫娱乐城信誉好...| 百家乐官网博赌场| 真人百家乐官网试玩账号| 新葡京娱乐城怎么样| 7人百家乐桌子| 百家乐官网pc| 星河百家乐官网现金网| 大发888赌场是干什么的| 百家乐官网开户过的路纸| 大发888真人体育| 百家乐庄闲局部失| 属猪的做生意门朝向| 新百家乐官网.百万筹码| 百家乐官网投注组合| 宝马会网上娱乐| 大发888古怪猴子| 老虎机规律| 太阳城王子酒店| 美女百家乐的玩法技巧和规则 | 大发888官网 官方| 赌场百家乐技巧| 杨公24山日课应验诀| 新2百家乐官网现金网百家乐官网现金网 | 新葡京百家乐官网现金|