ldkrsi/jieba-zh_TW: 結巴中文斷詞台灣繁體版本 - GitHub

文章推薦指數: 80 %
投票人數:10人

jieba-zh_TW. 結巴(jieba)斷詞台灣繁體版本. 原理. 採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器. 使用說明. Skiptocontent {{message}} ldkrsi / jieba-zh_TW Public forkedfromfxsjy/jieba Notifications Fork 6.6k Star 287 結巴中文斷詞台灣繁體版本 License MITlicense 287 stars 6.6k forks Star Notifications Code Pullrequests 0 Actions Projects 0 Wiki Security Insights More Code Pullrequests Actions Projects Wiki Security Insights ldkrsi/jieba-zh_TW Thiscommitdoesnotbelongtoanybranchonthisrepository,andmaybelongtoaforkoutsideoftherepository. master Branches Tags Couldnotloadbranches Nothingtoshow {{refName}} default Couldnotloadtags Nothingtoshow {{refName}} default 2 branches 23 tags Code Thisbranchis5commitsahead,40commitsbehindfxsjy:master. Contribute Thisbranchis5commitsaheadoffxsjy:master. Openapullrequesttocontributeyourchangesupstream. Openpullrequest Latestcommit ldkrsi addissueinreadme … 38694b9 Jul15,2016 addissueinreadme 38694b9 Gitstats 488 commits Files Permalink Failedtoloadlatestcommitinformation. Type Name Latestcommitmessage Committime jieba newhmmprobtable Jul15,2016 .gitattributes firstcommit Sep29,2012 .gitignore newreadme Jul15,2016 Changelog newreadme Jul15,2016 LICENSE addalicensefile Jul29,2013 MANIFEST.in includeChangelog&README.mdinthedistributionpackage Jul29,2013 README.md addissueinreadme Jul15,2016 Viewcode jieba-zh_TW 原理 使用說明 程式碼範例 斷詞 關鍵詞抽取 詞性標記 可靠度探討 感謝 注意事項 一些問題 README.md jieba-zh_TW 結巴(jieba)斷詞台灣繁體版本 原理 採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器 使用說明 相容python2和python3 將jieba資料夾放在你程式的資料夾底下 importjieba 程式碼範例 操作方法同原始jieba 斷詞 importjieba #如果您的電腦同時要使用兩個版本的jieba,請自訂cache檔名,避免兩個cache互相蓋住對方 #jieba.dt.cache_file='jieba.cache.new' seg_list=jieba.cut("在非洲,每六十秒,就有一分鐘過去") print("|".join(seg_list)) #在|非洲|,|每|六十秒|,|就|有|一分鐘|過去 關鍵詞抽取 尚未替換機率表,輸出的結果非常不可靠 詞性標記 應該是一跑就會噴錯的狀態 可靠度探討 拿本份程式碼去和jieba轉簡體後斷詞、jieba直接斷繁體字這兩個方法,去斷這篇台灣記者寫的新聞。

並以中研院中文斷詞系統作為標準答案,以詞為單位,去計算這三個方法和中研院的結果的Editdistance Editdistance 第一段(92) 第二段(136) 第三段(75) 第四段(52) 第五段(63) jiebazh_TW 9 20 12 12 9 jieba轉簡體後斷詞 44 43 31 23 21 jieba直接斷繁體字 53 74 43 34 34 (括號內為中研院斷出來的詞彙數) 感謝 中央研究院資訊科學所詞庫小組中文斷詞線上服務 注意事項 使用本份程式碼請遵守中研院斷詞服務之服務條款其中的衍生資料相關規定 一些問題 詳見我Blog上的這篇文章:關於結巴(Jieba)斷詞的幾個問題 About 結巴中文斷詞台灣繁體版本 Resources Readme License MITlicense Stars 287 stars Watchers 17 watching Forks 6.6k forks Releases 23 tags Packages0 Nopackagespublished Languages Python 51.9% OpenEdgeABL 48.1% Youcan’tperformthatactionatthistime. Yousignedinwithanothertaborwindow.Reloadtorefreshyoursession. Yousignedoutinanothertaborwindow.Reloadtorefreshyoursession.



請為這篇文章評分?