Python – (11) 利用jieba實現中文斷詞 - 珍妮佛的學習筆記
文章推薦指數: 80 %
中文斷詞畢竟跟英文不同,英文只要用空白(space)斷詞即可,中文卻複雜的多,目前中文斷詞大家蠻推的JIEBA…
選單
直接觀看文章
搜尋
搜尋:
中文斷詞畢竟跟英文不同,英文只要用空白(space)斷詞即可,中文卻複雜的多,目前中文斷詞大家蠻推的JIEBA是由一個中國人撰寫的,github有開源程式碼,不僅如此也能夠自訂詞庫,安裝也方便,接下來看看如何安裝及使用。
☁ 安裝JIEBA結巴中文斷詞套件
$pipinstalljieba
☁ 用FLASK寫一個簡單的API來斷詞(cut_all=False代表精準模式)
#encoding=UTF-8
#!flask/bin/python
importjieba
fromflaskimportFlask,request
app=Flask(__name__)
@app.route('/jieba',methods=['POST'])
defjieba_parse():
original_sentense=request.json['sentense']
words=jieba.cut(original_sentense,cut_all=False)
return_word=''
forwinwords:
return_word=return_word+','+w
returnreturn_word
if__name__=='__main__':
app.run(debug=True)
☁ 呼叫API,丟入欲斷詞的句子為「我要和天一樣高」
☁ 結果輸出「,我要,和,天一,樣高」
☁ 如果希望能夠把詞性都標注出來,需要importjieba.posseg
importjieba.possegaspseg
defjieba_parse():
original_sentense=request.json['sentense']
words=pseg.cut(original_sentense)
return_word=''
forwinwords:
return_word=return_word+','+w
returnreturn_word
☁ 不過詞性的標註,不是每次都很準的
跟柯文哲一起吃飯
>>>,跟(p),柯文(nz),哲(n),一起(m),吃(v),飯(n)
跟蕭敬騰一起吃飯
>>>,跟(p),蕭敬騰(nr),一起(m),吃(v),飯(n)
☁ github上有一套繁中詞庫,如果想要切換成繁中詞庫,可以先下載放在程式的資料夾內,接著在斷詞指令前,先切換dictionary即可
jieba.set_dictionary('dict.txt.big')
words=jieba.cut(original_sentense,cut_all=False)
覺得不夠力,也可以自定詞庫。
jieba.set_dictionary('dict.txt.big')
jieba.load_userdict("my.dict.txt")
words=jieba.cut(original_sentense,cut_all=False)
my.dict.txt我只放了一個詞: 柯文哲,權重1,詞性為人名(nr)
柯文哲1nr
再run一次,柯文哲這個斷詞就正確了
跟柯文哲一起吃飯
>>>,跟(p),柯文(nz),哲(n),一起(m),吃(v),飯(n) #自定詞庫前
>>>,跟(p),柯文哲(nr),一起(m),吃(v),飯(n) #自定詞庫後
☁ 我在github上放了一個簡單的pythonapi範例,內容很單純,直接importjieba,並根據使用者傳入的參數轉換成不同的模式輸出,用法如下:
JIEBA方法中trietree及DAG的介紹與解釋,可詳見jieba分词学习笔记(一),這是目前我看到比較淺顯易讀的文章,讀完可以對JIEBA有較深的理解
其他相關資源:以gensim訓練中文詞向量
分享此文:TwitterFacebook請按讚:喜歡正在載入...
相關
文章分頁導航
←Python–(10)利用pypinyin將中文轉成拼音Python–(12) 排序、過濾與處理→
發表迴響取消回覆
在此輸入你的回應…
在下方填入你的資料或按右方圖示以社群網站登入:
電子郵件(必須填寫)(電子郵件地址不會公開)
名稱(必須填寫)
個人網站
您的留言將使用WordPress.com帳號。
( 登出 /
變更 )
您的留言將使用Twitter帳號。
( 登出 /
變更 )
您的留言將使用Facebook帳號。
( 登出 /
變更 )
取消
連結到%s
透過電子郵件通知我後續回應。
有新文章時用Email通知我。
Δ
ThissiteusesAkismettoreducespam.Learnhowyourcommentdataisprocessed.
一月2018
一
二
三
四
五
六
日
1234567
891011121314
15161718192021
22232425262728
293031
«十二月
三月»
標籤.NetCore
Anaconda
API
App
C#
Cassandra
CassandraUI
Crawler
Docker
DockerHub
Excel
FacebookAPI
Gitbook
github
InstallShield
Jieba
Kafka
Learning
Linux
MaterialDesignLite
MDwiki
NFS
nginx
NLP
Postgres
Powerpoint
Python
React
Regex
Ubuntu
VSCode
word2vec
ZookeeperSearchMyBlog
搜尋:
近期文章
C#–(6) ILSpy,方便的反組譯工具
Docker–(16)「Jennifer的Docker筆記本」完成
Docker–(15)修改已建立的containerrestart policy
Python(37)–pipinstall 安裝錯誤
Linux–(7)UseUbuntutobeNFS client
熱門文章
Python–(4)型態轉換系列~StringtoList
Docker–(3)安裝Docker及portainer
C#–(6)ILSpy,方便的反組譯工具
Translation文章存檔
2021年二月 (1)
2020年七月 (1)
2020年六月 (1)
2020年四月 (1)
2019年十一月 (1)
2019年十月 (1)
2019年三月 (1)
2019年二月 (2)
2019年一月 (3)
2018年十二月 (1)
2018年十月 (6)
2018年九月 (3)
2018年七月 (1)
2018年六月 (5)
2018年五月 (1)
2018年四月 (5)
2018年三月 (6)
2018年一月 (9)
2017年十二月 (2)
2017年十一月 (8)
2017年十月 (3)
2017年九月 (2)
2017年八月 (8)
2017年七月 (4)
2017年六月 (3)
2017年五月 (2)
2017年四月 (6)
2017年一月 (1)
部落格統計
143,072hits
快速連結Python
❆莫煩python
❆Mr.好好吃的資料遊樂園
❆Repl.it❆Python基礎教程
❆PythonCheatSheets
Sound
❆defonic-cafe/rainsound
News
❆thevergetechnews
❆infoq
❆techbridge
❆ithome
❆orange
CNNanchors
❆BeckyAnderson
❆KyungLah
❆KristieLuStout
Python
❆StanfordOnline
PythonDeveloper'sGuide
GooglePythonGuide
Wallpaper
monthlywallpaper
.NET
itread01RSS
隱私權與Cookie:此網站可使用Cookie。
繼續使用此網站即表示你同意使用Cookie。
若要瞭解更多資訊,包括如何控制Cookie,請參閱此處:
Cookie政策
追蹤
已追蹤
珍妮佛的學習筆記
我要註冊
已經有WordPress.com帳號了?立即登入。
珍妮佛的學習筆記
自訂
追蹤
已追蹤
註冊
登入
複製短網址
回報此內容
以閱讀器檢視
管理訂閱
收合此列
載入迴響中...
發表迴響…
電子郵件(必要)
名稱(必要)
網站
%d位部落客按了讚:
延伸文章資訊
- 1Python jieba 中文斷詞套件 - 大學生's Blog
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
- 2Python自然語言處理(二):使用jieba進行中文斷詞
搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。 安裝 pip install jieba. 使用範例. 設定詞庫 #下載繁體中文詞庫後,使用 ...
- 3jieba-tw - 結巴中文斷詞台灣繁體版本 - GitHub
結巴中文斷詞台灣繁體版本. Contribute to APCLab/jieba-tw development by creating an account on GitHub.
- 4ldkrsi/jieba-zh_TW: 結巴中文斷詞台灣繁體版本 - GitHub
jieba-zh_TW. 結巴(jieba)斷詞台灣繁體版本. 原理. 採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器. 使用說明.
- 5Python - 知名Jieba 中文斷詞工具教學
但是可想而知它的這個工具對簡體中文分詞會比較準確,繁體中文雖然用這工具也還可以,但是有一些像是台灣用語就比較難斷得很好。