Python – (11) 利用jieba實現中文斷詞 - 珍妮佛的學習筆記

文章推薦指數: 80 %
投票人數:10人

中文斷詞畢竟跟英文不同,英文只要用空白(space)斷詞即可,中文卻複雜的多,目前中文斷詞大家蠻推的JIEBA… 選單 直接觀看文章 搜尋 搜尋: 中文斷詞畢竟跟英文不同,英文只要用空白(space)斷詞即可,中文卻複雜的多,目前中文斷詞大家蠻推的JIEBA是由一個中國人撰寫的,github有開源程式碼,不僅如此也能夠自訂詞庫,安裝也方便,接下來看看如何安裝及使用。

☁  安裝JIEBA結巴中文斷詞套件 $pipinstalljieba ☁ 用FLASK寫一個簡單的API來斷詞(cut_all=False代表精準模式) #encoding=UTF-8 #!flask/bin/python importjieba fromflaskimportFlask,request app=Flask(__name__) @app.route('/jieba',methods=['POST']) defjieba_parse(): original_sentense=request.json['sentense'] words=jieba.cut(original_sentense,cut_all=False) return_word='' forwinwords: return_word=return_word+','+w returnreturn_word if__name__=='__main__': app.run(debug=True) ☁ 呼叫API,丟入欲斷詞的句子為「我要和天一樣高」 ☁ 結果輸出「,我要,和,天一,樣高」 ☁ 如果希望能夠把詞性都標注出來,需要importjieba.posseg importjieba.possegaspseg defjieba_parse(): original_sentense=request.json['sentense'] words=pseg.cut(original_sentense) return_word='' forwinwords: return_word=return_word+','+w returnreturn_word ☁ 不過詞性的標註,不是每次都很準的 跟柯文哲一起吃飯 >>>,跟(p),柯文(nz),哲(n),一起(m),吃(v),飯(n) 跟蕭敬騰一起吃飯 >>>,跟(p),蕭敬騰(nr),一起(m),吃(v),飯(n) ☁ github上有一套繁中詞庫,如果想要切換成繁中詞庫,可以先下載放在程式的資料夾內,接著在斷詞指令前,先切換dictionary即可 jieba.set_dictionary('dict.txt.big') words=jieba.cut(original_sentense,cut_all=False) 覺得不夠力,也可以自定詞庫。

jieba.set_dictionary('dict.txt.big') jieba.load_userdict("my.dict.txt") words=jieba.cut(original_sentense,cut_all=False) my.dict.txt我只放了一個詞: 柯文哲,權重1,詞性為人名(nr) 柯文哲1nr 再run一次,柯文哲這個斷詞就正確了 跟柯文哲一起吃飯 >>>,跟(p),柯文(nz),哲(n),一起(m),吃(v),飯(n)   #自定詞庫前  >>>,跟(p),柯文哲(nr),一起(m),吃(v),飯(n)    #自定詞庫後 ☁ 我在github上放了一個簡單的pythonapi範例,內容很單純,直接importjieba,並根據使用者傳入的參數轉換成不同的模式輸出,用法如下: JIEBA方法中trietree及DAG的介紹與解釋,可詳見jieba分词学习笔记(一),這是目前我看到比較淺顯易讀的文章,讀完可以對JIEBA有較深的理解 其他相關資源:以gensim訓練中文詞向量 分享此文:TwitterFacebook請按讚:喜歡正在載入... 相關 文章分頁導航 ←Python–(10)利用pypinyin將中文轉成拼音Python–(12) 排序、過濾與處理→ 發表迴響取消回覆 在此輸入你的回應… 在下方填入你的資料或按右方圖示以社群網站登入: 電子郵件(必須填寫)(電子郵件地址不會公開) 名稱(必須填寫) 個人網站 您的留言將使用WordPress.com帳號。

( 登出 /  變更 ) 您的留言將使用Twitter帳號。

( 登出 /  變更 ) 您的留言將使用Facebook帳號。

( 登出 /  變更 ) 取消 連結到%s 透過電子郵件通知我後續回應。

有新文章時用Email通知我。

Δ ThissiteusesAkismettoreducespam.Learnhowyourcommentdataisprocessed. 一月2018 一 二 三 四 五 六 日 1234567 891011121314 15161718192021 22232425262728 293031   «十二月   三月» 標籤.NetCore Anaconda API App C# Cassandra CassandraUI Crawler Docker DockerHub Excel FacebookAPI Gitbook github InstallShield Jieba Kafka Learning Linux MaterialDesignLite MDwiki NFS nginx NLP Postgres Powerpoint Python React Regex Ubuntu VSCode word2vec ZookeeperSearchMyBlog 搜尋: 近期文章 C#–(6) ILSpy,方便的反組譯工具 Docker–(16)「Jennifer的Docker筆記本」完成 Docker–(15)修改已建立的containerrestart policy Python(37)–pipinstall 安裝錯誤 Linux–(7)UseUbuntutobeNFS client 熱門文章 Python–(4)型態轉換系列~StringtoList Docker–(3)安裝Docker及portainer C#–(6)ILSpy,方便的反組譯工具 Translation文章存檔 2021年二月 (1) 2020年七月 (1) 2020年六月 (1) 2020年四月 (1) 2019年十一月 (1) 2019年十月 (1) 2019年三月 (1) 2019年二月 (2) 2019年一月 (3) 2018年十二月 (1) 2018年十月 (6) 2018年九月 (3) 2018年七月 (1) 2018年六月 (5) 2018年五月 (1) 2018年四月 (5) 2018年三月 (6) 2018年一月 (9) 2017年十二月 (2) 2017年十一月 (8) 2017年十月 (3) 2017年九月 (2) 2017年八月 (8) 2017年七月 (4) 2017年六月 (3) 2017年五月 (2) 2017年四月 (6) 2017年一月 (1) 部落格統計 143,072hits 快速連結Python ❆莫煩python ❆Mr.好好吃的資料遊樂園 ❆Repl.it❆Python基礎教程 ❆PythonCheatSheets Sound ❆defonic-cafe/rainsound News ❆thevergetechnews ❆infoq ❆techbridge ❆ithome ❆orange CNNanchors ❆BeckyAnderson ❆KyungLah ❆KristieLuStout Python ❆StanfordOnline PythonDeveloper'sGuide GooglePythonGuide Wallpaper monthlywallpaper .NET itread01RSS 隱私權與Cookie:此網站可使用Cookie。

繼續使用此網站即表示你同意使用Cookie。

若要瞭解更多資訊,包括如何控制Cookie,請參閱此處: Cookie政策 追蹤 已追蹤 珍妮佛的學習筆記 我要註冊 已經有WordPress.com帳號了?立即登入。

珍妮佛的學習筆記 自訂 追蹤 已追蹤 註冊 登入 複製短網址 回報此內容 以閱讀器檢視 管理訂閱 收合此列   載入迴響中...   發表迴響… 電子郵件(必要) 名稱(必要) 網站 %d位部落客按了讚:



請為這篇文章評分?