斷詞工具介紹: (jieba斷詞) - 大肚台地資源調查

文章推薦指數: 80 %
投票人數:10人

pip install jieba ... encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學", ... 在此對Jieba斷詞、自訂字典與詞性作ㄧ些簡單介紹。

參考資料. 首頁 宏華環境保護與數位未來基金會 計畫簡介 主持人介紹 大肚台地簡介 生物監測暨生態保育策略評估 人文與歷史 產業與資源 圖資環境 資訊平台建置 計畫成果 第一年 第二年 第三年 大肚台地資料開放平台 相關網站 政府資料開放平台 臺中市政府資訊網 臺中市政府開放資料平台 臺北市政府資料開放平台 臺南市政府資料開放平台 高雄市政府資料開放平台 OpenData 大肚台地規劃中案件彙整 相關文章 標籤雲GoogleEarth Storymap 圖資環境 大肚台地 歷史與人文 活動訊息 無人空拍機 生物監測 產業資源 社群與資料分析模型 第一期成果 第三期成果 第二期成果 計畫內容 計畫成果 計畫簡介 資訊平台 開放資料 斷詞工具介紹:(jieba斷詞) Python斷詞工具(jieba)介紹。

首先安裝jieba套件 pipinstalljieba 我們執行Jieba網站所提供的程式碼 #encoding=utf-8 importjieba seg_list=jieba.cut("我來到北京清華大學",cut_all=True)# print("FullMode:"+"/".join(seg_list))#全模式 seg_list=jieba.cut("我來到北京清華大學",cut_all=False) print("DefaultMode:"+"/".join(seg_list))#精確模式 得到結果 Fullmode:把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義。

DefaultMode:精確模式,是試圖將句子最精確地切開,適合文本分析。

上面兩點是官網的解釋,簡單來說Fullmode會將所有可以當成詞的文字都列出來。

Ex:「清華」、「清華大學」、「大學」等。

而Defaultmode則是預設模式,會根據詞頻來斷出最佳解。

  這邊進行簡單的斷詞 importjieba seg_list=jieba.cut("我參與大肚山計畫") print("/".join(seg_list)) 希望將「我參與大肚山計畫」斷詞為“我"“參與"“大肚山計畫", 但是得到結果如下 發現斷詞不準確把"大肚山計畫"斷成“大肚"“山計畫" 因此我們需要自定字典userdict.txt,內容如下: 大肚山計畫2n 參與2v 這個格式代表,一個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。

詞頻越大代表這個詞越容易被斷出來,詞性N代表名詞、v代表動詞。

槳程式碼新增ㄧ行(載入字典) importjieba jieba.load_userdict("userdict.txt") seg_list=jieba.cut("我參與大肚山計畫") print("/".join(seg_list)) 輸出結果 上面可以看到如此便能成功斷出我們想要的字詞。

如果想看到斷出來的詞的詞性,程式碼如下 importjieba jieba.load_userdict("userdict.txt") importjieba.possegaspseg words=pseg.cut("我參與大肚山計畫") forword,flaginwords: print('%s%s'%(word,flag)) 輸出結果 這樣就能得到斷出來的字詞跟詞性。

在此對Jieba斷詞、自訂字典與詞性作ㄧ些簡單介紹。

參考資料 1.https://github.com/fxsjy/jieba



請為這篇文章評分?