斷詞工具介紹: (jieba斷詞) - 大肚台地資源調查
文章推薦指數: 80 %
pip install jieba ... encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學", ... 在此對Jieba斷詞、自訂字典與詞性作ㄧ些簡單介紹。
參考資料.
首頁
宏華環境保護與數位未來基金會
計畫簡介
主持人介紹
大肚台地簡介
生物監測暨生態保育策略評估
人文與歷史
產業與資源
圖資環境
資訊平台建置
計畫成果
第一年
第二年
第三年
大肚台地資料開放平台
相關網站
政府資料開放平台
臺中市政府資訊網
臺中市政府開放資料平台
臺北市政府資料開放平台
臺南市政府資料開放平台
高雄市政府資料開放平台
OpenData
大肚台地規劃中案件彙整
相關文章
標籤雲GoogleEarth
Storymap
圖資環境
大肚台地
歷史與人文
活動訊息
無人空拍機
生物監測
產業資源
社群與資料分析模型
第一期成果
第三期成果
第二期成果
計畫內容
計畫成果
計畫簡介
資訊平台
開放資料
斷詞工具介紹:(jieba斷詞)
Python斷詞工具(jieba)介紹。
首先安裝jieba套件
pipinstalljieba
我們執行Jieba網站所提供的程式碼
#encoding=utf-8
importjieba
seg_list=jieba.cut("我來到北京清華大學",cut_all=True)#
print("FullMode:"+"/".join(seg_list))#全模式
seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print("DefaultMode:"+"/".join(seg_list))#精確模式
得到結果
Fullmode:把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義。
DefaultMode:精確模式,是試圖將句子最精確地切開,適合文本分析。
上面兩點是官網的解釋,簡單來說Fullmode會將所有可以當成詞的文字都列出來。
Ex:「清華」、「清華大學」、「大學」等。
而Defaultmode則是預設模式,會根據詞頻來斷出最佳解。
這邊進行簡單的斷詞
importjieba
seg_list=jieba.cut("我參與大肚山計畫")
print("/".join(seg_list))
希望將「我參與大肚山計畫」斷詞為“我"“參與"“大肚山計畫",
但是得到結果如下
發現斷詞不準確把"大肚山計畫"斷成“大肚"“山計畫"
因此我們需要自定字典userdict.txt,內容如下:
大肚山計畫2n
參與2v
這個格式代表,一個詞佔一行;每一行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。
詞頻越大代表這個詞越容易被斷出來,詞性N代表名詞、v代表動詞。
槳程式碼新增ㄧ行(載入字典)
importjieba
jieba.load_userdict("userdict.txt")
seg_list=jieba.cut("我參與大肚山計畫")
print("/".join(seg_list))
輸出結果
上面可以看到如此便能成功斷出我們想要的字詞。
如果想看到斷出來的詞的詞性,程式碼如下
importjieba
jieba.load_userdict("userdict.txt")
importjieba.possegaspseg
words=pseg.cut("我參與大肚山計畫")
forword,flaginwords:
print('%s%s'%(word,flag))
輸出結果
這樣就能得到斷出來的字詞跟詞性。
在此對Jieba斷詞、自訂字典與詞性作ㄧ些簡單介紹。
參考資料
1.https://github.com/fxsjy/jieba
延伸文章資訊
- 1[Day2] 斷詞介紹 - iT 邦幫忙
針對不存在於字典的字詞:. 使用隱馬可夫模型(HMM) 與維特比演算法(Viterbi) 來進行分詞辨識,找出最合適的組合. 三. Jieba Jieba其實算是中文滿常用的斷詞套件,但他 ...
- 2Jieba 中文分詞-一- ——分詞與自定義字典 - 閱坊
Jieba 中文分詞-一- ——分詞與自定義字典. jieba 分詞特點. 支持四種分詞模式:. 精確模式試圖將句子最精確地切開,適合文本分析;.
- 3中文斷詞 - iT 邦幫忙
載入詞典 · 開發者可以指定自己自定義的詞典,以便包含jieba詞庫裡沒有的詞。 · 用法:jieba.load_userdict(file_name)#file_name為文件類對像或自定義詞...
- 4Python - 知名Jieba 中文斷詞工具教學
Jieba 原理介紹 · 規則斷詞. 主要是透過詞典,在對句子進行斷詞的時候,將句子的每個字與詞典中的詞進行匹配,找到則斷詞,否則無法斷詞。 · 統計斷詞. 主要 ...
- 5fxsjy/jieba: 结巴中文分词
Contribute to fxsjy/jieba development by creating an account on GitHub. ... Tokenizer() 不会立即触发词典的...