Python jieba 中文斷詞套件 - 大學生's Blog
文章推薦指數: 80 %
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
大學生'sBlog
Menu
Home
About
Series
Tags
Archives
RSS
SignIn
程式執行畫面
https://repl.it/join/nwbygksi-wastu01
jieba中文斷詞
jieba文中關鍵字
jieba中文斷詞套件
结巴中文分词
https://github.com/fxsjy/jieba
交大資管開發的結巴(jieba)斷詞台灣繁體特化版本
https://github.com/APCLab/jieba-tw
繁體中文詞典
https://raw.githubusercontent.com/APCLab/jieba-tw/master/jieba/dict.txt
WordCloud文字雲視覺化圖形
線上版文字雲
https://wordcloud.timdream.org/#wikipedia:Cloud
筆記整理
精確模式
句子最精確的切開,文本分析
全模式
句子可以成詞的詞語切出,速度快。
搜索引擎模式
精確模式的基礎上,將長的詞語再切分
importjieba
documents=['我來自台中教育大學','疫情趕快遠離台灣','我想出國旅行']
#精確模式
forsentenceindocuments:
seg_list=jieba.cut(sentence)
print('/'.join(seg_list))
print('---------------')
#全模式
forsentenceindocuments:
seg_list=jieba.cut(sentence,cut_all=True)
print('/'.join(seg_list))
print('---------------')
#搜索引擎模式
forsentenceindocuments:
seg_list=jieba.cut_for_search(sentence)
print('/'.join(seg_list))
自定義詞典
創立user_dict.txt自行增加
文中關鍵字
importjieba.analyse
news='中央流行疫情指揮中心今日宣布,國內新增2例武漢肺炎(新型冠狀病毒病,COVID-19)境外移入,分別為分別自菲律賓及美國入境。
指揮中心發言人莊人祥表示,案549為20多歲菲律賓籍女性,因工作於今年9月30日入境台灣,搭機前3日內檢驗陰性,入境時至集中檢疫期滿均無症狀,10月13日檢疫期滿前採檢結果為陰性,檢疫期滿後由仲介安排至隔離宿舍進行自主健康管理,並於10月22由仲介安排至醫院自費檢驗,於今日確診,目前住院隔離中。
'
tags=jieba.analyse.extract_tags(news,topK=5,withWeight=True)
#引用文字來源:https://news.ltn.com.tw/news/life/breakingnews/3331012
fortagintags:
print('word:',tag[0],'tf-idf:',tag[1])
#程式參考來源:https://blog.kennycoder.io/categories/Python/
#jieba
#Python
#斷詞
#詞頻
#結巴
大學生
Follow
Following
學生@台中教育大學
我是學生啦
Facebook
RelatedPosts
Session機制是甚麼碗糕
Wangpoching
GitHub刪除密碼驗證@2021.08.13
estella00911
引領團隊前進:北極星與路標們
finfin
Comments
延伸文章資訊
- 1Python jieba 中文斷詞套件 - 大學生's Blog
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
- 2python 結巴分詞(jieba)詳解 - 程式人生
“結巴”中文分詞:做最好的Python 中文分片語件 ... Chinese text segmentation: built to be the best Python Chinese wor...
- 3Python自然語言處理(二):使用jieba進行中文斷詞
结巴中文分词. Contribute to fxsjy/jieba development by creating an account on GitHub. ... Jieba提供了三種分詞模...
- 4筆記for Python (Jieba + Wordcloud) | by Jacky Lu | Medium
結巴(Jieba)是目前其中一個python的中文分詞模組; 支援簡體中文和繁體中文; 可自定義詞庫; 可分析關鍵詞(利用TF-IDF); 可作詞性分析但目前成效尚待商榷 ...
- 5jieba - PyPI
“结巴”中文分词:做最好的Python 中文分词组件. “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built t...