[語料庫模型] 04-斷詞工具比較Jieba vs CKIP | YR's Blog
文章推薦指數: 80 %
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF 前,需要先經過適當的斷詞。
中文斷詞領域最常見的兩套工具 ...
0%
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF前,需要先經過適當的斷詞。
中文斷詞領域最常見的兩套工具就是Jieba(結巴)和CKIP了。
今天主要介紹我選擇CKIP而非Jieba的原因。
Jieba來自中國,而CKIP來自中研院,我們發現同樣的句子,將「長」、「照」判斷為兩個詞,而CKIP則是將「長照」視為一個詞,可能原因是台灣與中國用語不同。
考慮問答集中可能會有較多台灣用語,所以本研究最終選擇使用中研院製作的CKIP。
接著分別以TF-IDF搭配Jieba和CKIP,比較以「長照」為關鍵字搜尋最接近的問句,使用Jieba斷詞的結果,系統找到的是「什麼是定點乾燥?」;使用CKIP斷詞的結果,系統找到的是「長照服務專線」。
很明顯使用CKIP斷詞,系統能找到更貼切的問句。
延伸文章資訊
- 16. 中文斷詞工具:CkipTagger
- 2又一「中文斷詞工具」宣布開源 - 人人焦點
台灣中研院近日正式開源自行研發多年的中文斷詞程序,提供給在從事中文自然語言處理研究的學術圈或開發者來使用,目前已放上GitHub平台。
- 3線上中文斷詞工具:Jieba-JS / Online Chinese Analyzer
現在最流行的中文斷詞工具結巴(jieba)原本是以Python開發,必須要有Python的環境才能運作。不過它也有很多不同程式語言的版本,其中最好用的就是不需要安裝、只要瀏覽 ...
- 4[語料庫模型] 04-斷詞工具比較Jieba vs CKIP | YR's Blog
我們前面說過,中文不像英文,字與字中間與空白相間,所以中文句子要搭配TF-IDF 前,需要先經過適當的斷詞。中文斷詞領域最常見的兩套工具 ...
- 5[NLP][Python] 中文斷詞最方便的開源工具之一: Jieba
Jieba 是一款使用Python (或者說在Python 上最知名的?) 的一款開源中文斷詞工具,當然它也有支援許多不同的NLP 任務,比方說POS、關鍵字抽取.