ldkrsi/jieba-zh_TW: 結巴中文斷詞台灣繁體版本 - GitHub
文章推薦指數: 80 %
jieba-zh_TW. 結巴(jieba)斷詞台灣繁體版本. 原理. 採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器. 使用說明.
Skiptocontent
{{message}}
ldkrsi
/
jieba-zh_TW
Public
forkedfromfxsjy/jieba
Notifications
Fork
6.6k
Star
287
結巴中文斷詞台灣繁體版本
License
MITlicense
287
stars
6.6k
forks
Star
Notifications
Code
Pullrequests
0
Actions
Projects
0
Wiki
Security
Insights
More
Code
Pullrequests
Actions
Projects
Wiki
Security
Insights
ldkrsi/jieba-zh_TW
Thiscommitdoesnotbelongtoanybranchonthisrepository,andmaybelongtoaforkoutsideoftherepository.
master
Branches
Tags
Couldnotloadbranches
Nothingtoshow
{{refName}}
default
Couldnotloadtags
Nothingtoshow
{{refName}}
default
2
branches
23
tags
Code
Thisbranchis5commitsahead,40commitsbehindfxsjy:master.
Contribute
Thisbranchis5commitsaheadoffxsjy:master.
Openapullrequesttocontributeyourchangesupstream.
Openpullrequest
Latestcommit
ldkrsi
addissueinreadme
…
38694b9
Jul15,2016
addissueinreadme
38694b9
Gitstats
488
commits
Files
Permalink
Failedtoloadlatestcommitinformation.
Type
Name
Latestcommitmessage
Committime
jieba
newhmmprobtable
Jul15,2016
.gitattributes
firstcommit
Sep29,2012
.gitignore
newreadme
Jul15,2016
Changelog
newreadme
Jul15,2016
LICENSE
addalicensefile
Jul29,2013
MANIFEST.in
includeChangelog&README.mdinthedistributionpackage
Jul29,2013
README.md
addissueinreadme
Jul15,2016
Viewcode
jieba-zh_TW
原理
使用說明
程式碼範例
斷詞
關鍵詞抽取
詞性標記
可靠度探討
感謝
注意事項
一些問題
README.md
jieba-zh_TW
結巴(jieba)斷詞台灣繁體版本
原理
採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器
使用說明
相容python2和python3
將jieba資料夾放在你程式的資料夾底下
importjieba
程式碼範例
操作方法同原始jieba
斷詞
importjieba
#如果您的電腦同時要使用兩個版本的jieba,請自訂cache檔名,避免兩個cache互相蓋住對方
#jieba.dt.cache_file='jieba.cache.new'
seg_list=jieba.cut("在非洲,每六十秒,就有一分鐘過去")
print("|".join(seg_list))
#在|非洲|,|每|六十秒|,|就|有|一分鐘|過去
關鍵詞抽取
尚未替換機率表,輸出的結果非常不可靠
詞性標記
應該是一跑就會噴錯的狀態
可靠度探討
拿本份程式碼去和jieba轉簡體後斷詞、jieba直接斷繁體字這兩個方法,去斷這篇台灣記者寫的新聞。
並以中研院中文斷詞系統作為標準答案,以詞為單位,去計算這三個方法和中研院的結果的Editdistance
Editdistance
第一段(92)
第二段(136)
第三段(75)
第四段(52)
第五段(63)
jiebazh_TW
9
20
12
12
9
jieba轉簡體後斷詞
44
43
31
23
21
jieba直接斷繁體字
53
74
43
34
34
(括號內為中研院斷出來的詞彙數)
感謝
中央研究院資訊科學所詞庫小組中文斷詞線上服務
注意事項
使用本份程式碼請遵守中研院斷詞服務之服務條款其中的衍生資料相關規定
一些問題
詳見我Blog上的這篇文章:關於結巴(Jieba)斷詞的幾個問題
About
結巴中文斷詞台灣繁體版本
Resources
Readme
License
MITlicense
Stars
287
stars
Watchers
17
watching
Forks
6.6k
forks
Releases
23
tags
Packages0
Nopackagespublished
Languages
Python
51.9%
OpenEdgeABL
48.1%
Youcan’tperformthatactionatthistime.
Yousignedinwithanothertaborwindow.Reloadtorefreshyoursession.
Yousignedoutinanothertaborwindow.Reloadtorefreshyoursession.
延伸文章資訊
- 1繁體中文斷詞使用者字典引用率比較: 結巴(Jieba )與 ...
因為專案關係有用到Jieba(下稱結巴)及. “繁體中文斷詞使用者字典引用比較: Jieba 與CKIPTAGGER(一)” is published by King YA in 中文NLP 處理.
- 2Python - 知名Jieba 中文斷詞工具教學
但是可想而知它的這個工具對簡體中文分詞會比較準確,繁體中文雖然用這工具也還可以,但是有一些像是台灣用語就比較難斷得很好。
- 3Python – (11) 利用jieba實現中文斷詞 - 珍妮佛的學習筆記
中文斷詞畢竟跟英文不同,英文只要用空白(space)斷詞即可,中文卻複雜的多,目前中文斷詞大家蠻推的JIEBA…
- 4Python自然語言處理(二):使用jieba進行中文斷詞
搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。 安裝 pip install jieba. 使用範例. 設定詞庫 #下載繁體中文詞庫後,使用 ...
- 5斷詞結構介紹&安裝結巴· Shopee Hackathon - JimCurry
pip install jieba. 由於預設的詞庫為簡體中文,故我們另外自行安裝繁體中文版的詞庫,將檔案放置剛才安裝好的路徑下: Ex:(勿複製此路徑) C:\users\angel.lee(...