中文處理工具簡介 - g0v
文章推薦指數: 80 %
中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來 ... 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來).
中文處理工具簡介最新內容請至此頁面https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA1.中研院CKIPparserhttp://ckipsvr.iis.sinica.edu.tw/http://parser.iis.sinica.edu.tw/ #繁體#斷詞#詞性標記#句型結構#修飾關係1.有點慢,準確率最高2.可透過webservice呼叫(詞性較粗)或爬網頁(詞性較細)。
3.可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
中研院的CKIPparser是比較建議使用在台灣語言環境中。
但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。
但這個工具也年久失修…
我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
能用了,不過速度有點慢
現在繁體中文分詞器可以做到95%正確率,詞性標記也有90%,其他功能就比較低了。
中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。
2.stanfordparserhttp://nlp.stanford.edu/software/lex-parser.shtml http://nlp.stanford.edu/software/segmenter.shtmlhttp://nlp.stanford.edu/software/tagger.shtml#簡體#斷詞#詞性標記#句型結構#修飾關係#NER1.處理繁體建議先轉成簡體以得到較佳效果2.可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)3.支援多種程式語言:JAVA,Python,Ruby,PHP4.詞性有十幾種5.有NER具名實體辨識3.mmseg斷詞http://technology.chtsai.org/mmseg/ #繁體#斷詞#快可下載單機版,可自己訓練繁體模型,可使用自訂字典我執行的時候跳出視窗說windows版本不符
4.SCWS中文分词http://www.xunsearch.com/scws/雖然是中國開發者做的,但試過處理正體中文也OK,只是詞庫並不是很豐富就是了。
詞庫可以擴充,主要針對PHP開發者。
5.NLTKpython的自然語言處理包,需要先斷詞http://www.nltk.org/book/6.CNLP師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用http://tm.itc.ntnu.edu.tw/CNLP/?q=node/57.結巴中文分詞(簡中)https://github.com/fxsjy/jieba8.FudanNLP(簡中)https://github.com/xpqiu/fnlp/9.GloveCreatewordembeddingsforfurtheranalysishttp://nlp.stanford.edu/projects/glove/10.OpenCC繁簡轉換https://github.com/BYVoid/OpenCC11.ansj簡體斷詞http://www.nlpcn.org/demohttps://github.com/NLPchina/ansj_seg12.國教院分詞系統中研院CKIP的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。
http://120.127.233.228/Segmentor/另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/13.cjkniferef:http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94異體字的辨識,輸出範例cjknife-i寳Informationforcharacter寳(traditionallocale,Unicodedomain)
Unicodecodepoint:U+5BF3(23539,characterform)
Incharacterdomains:Unicode,JISX0208,GlyphInformation,HKSCS,JISX0208_0213,BIG5HKSCS,IICore
Radicalindex:40,radicalform:⼧
Strokecount:19
Phoneticdata(GR):bao
Phoneticdata(MandarinBraille):⠃⠖⠄
Phoneticdata(MandarinIPA):pau˨˩˦
Phoneticdata(Pinyin):bǎo
Phoneticdata(WadeGiles):pao³
Semanticvariants:宝,寶
Z-Variants:寶
Glyph0(*),strokecount:19
⿱宀 ⿱珎 貝
⿻冖? ⿰王 尔 ⿱目 八
⿱一土 ⿱⺈小 ⿻口二
⿱十 一 ⿻亅八 ⿱一一
⿻一丨 ⿰??
Strokeorder:㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔(D-D-HGHH-S-HP-HGSGPDS-HZ-H-H-HPD)
14.UnicodeNormalization主要是用在清理一些看起來長的一樣但實際字碼不同的字官方定義:http://unicode.org/reports/tr15/PHP:http://php.net/manual/en/class.normalizer.phpJS:https://github.com/walling/unorm15.JIEBA結巴中文斷詞介紹簡報:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci
16.Articut中文斷詞暨語意詞性標記系統商用等級的,無需自己準備資料做機器學習或模型訓練,可自定字典,也隨時可提出修正需求給原廠。
300元可處理10萬字。
斷詞同時也做好了中文人名偵測、代名詞推理、語意詞性標記的推理…等。
介紹簡報:https://ppt.cc/fYCnOx
試用網站:https://api.droidtown.co
GithubAPI專案:https://github.com/Droidtown/ArticutAPI
FB:https://www.facebook.com/Articut
名詞解釋1.句型結構syntacticstructure主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等ps.中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
2.修飾關係dependencyrelation例句:猴子喜歡吃香蕉。
ccomp(喜歡-2,吃-3)=>喜歡是吃的補語dobj(吃-3,香蕉-4)=>香蕉是吃的賓語3.NER,NamedEntityRecognition,具名實體辨識可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
經驗分享與討論cicilia>簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。
繁體也有很多分詞器了。
延伸文章資訊
- 1下載軟體與資源 - CKIP Lab 中文詞知識庫小組
CKIP Tagger — 中文斷詞暨實體辨識系統. 線上展示 · 商業授權 · Python Package · 引用 · 中文斷詞 · 專有名詞辨識. 中文剖析系統.
- 2繁體中文詞庫 - 軟體兄弟
採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體的jieba斷詞器. 安裝. pip install git+https://github.com/APCLab/ji...
- 3sc-dictionary - 繁體+簡體中文詞庫字典檔
繁體+簡體中文詞庫字典檔. Contribute to samejack/sc-dictionary development by creating an account on GitHub.
- 4下載資源- 開放詞典
用法/ 簡=>繁:若想把名為“wenzi”的簡體文件轉成繁體字可以在命令行輸入如sed -f jianfan wenzi > wenzi-fanti 的指令(這樣轉換結果會輸出到wenzi-fa...
- 5繁體中文詞庫,大家都在找解答 旅遊日本住宿評價
繁體中文詞庫,大家都在找解答第1頁。jieba-tw. 結巴(jieba)斷詞台灣繁體特化版本. 原理. 採用和原始jieba相同的演算法,替換其詞庫及HMM機率表製做出針對台灣繁體 ...