中文處理工具簡介 - g0v

文章推薦指數: 80 %
投票人數:10人

中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來 ... 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來). 中文處理工具簡介最新內容請至此頁面https://g0v.hackmd.io/fR51fyEcQYOVIGSCanO3TA1.中研院CKIPparserhttp://ckipsvr.iis.sinica.edu.tw/http://parser.iis.sinica.edu.tw/ ‪#繁體‬‪#斷詞‬‪#詞性標記‬‪#句型結構‬‪#修飾關係‬1.有點慢,準確率最高2.可透過webservice呼叫(詞性較粗)或爬網頁(詞性較細)。

3.可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。

中研院的CKIPparser是比較建議使用在台灣語言環境中。

但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。

但這個工具也年久失修… 我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題 能用了,不過速度有點慢 現在繁體中文分詞器可以做到95%正確率,詞性標記也有90%,其他功能就比較低了。

中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。

2.stanfordparserhttp://nlp.stanford.edu/software/lex-parser.shtml http://nlp.stanford.edu/software/segmenter.shtmlhttp://nlp.stanford.edu/software/tagger.shtml‪#簡體‬#斷詞#詞性標記#句型結構#修飾關係‪#NER‬1.處理繁體建議先轉成簡體以得到較佳效果2.可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)3.支援多種程式語言:JAVA,Python,Ruby,PHP4.詞性有十幾種5.有NER具名實體辨識3.mmseg斷詞http://technology.chtsai.org/mmseg/ #繁體#斷詞‪#快‬可下載單機版,可自己訓練繁體模型,可使用自訂字典我執行的時候跳出視窗說windows版本不符 4.SCWS中文分词http://www.xunsearch.com/scws/雖然是中國開發者做的,但試過處理正體中文也OK,只是詞庫並不是很豐富就是了。

詞庫可以擴充,主要針對PHP開發者。

5.NLTKpython的自然語言處理包,需要先斷詞http://www.nltk.org/book/6.CNLP師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用http://tm.itc.ntnu.edu.tw/CNLP/?q=node/57.結巴中文分詞(簡中)https://github.com/fxsjy/jieba8.FudanNLP(簡中)https://github.com/xpqiu/fnlp/9.GloveCreatewordembeddingsforfurtheranalysishttp://nlp.stanford.edu/projects/glove/10.OpenCC繁簡轉換https://github.com/BYVoid/OpenCC11.ansj簡體斷詞http://www.nlpcn.org/demohttps://github.com/NLPchina/ansj_seg12.國教院分詞系統中研院CKIP的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。

http://120.127.233.228/Segmentor/另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/13.cjkniferef:http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94異體字的辨識,輸出範例cjknife-i寳Informationforcharacter寳(traditionallocale,Unicodedomain) Unicodecodepoint:U+5BF3(23539,characterform) Incharacterdomains:Unicode,JISX0208,GlyphInformation,HKSCS,JISX0208_0213,BIG5HKSCS,IICore Radicalindex:40,radicalform:⼧ Strokecount:19 Phoneticdata(GR):bao Phoneticdata(MandarinBraille):⠃⠖⠄ Phoneticdata(MandarinIPA):pau˨˩˦ Phoneticdata(Pinyin):bǎo Phoneticdata(WadeGiles):pao³ Semanticvariants:宝,寶 Z-Variants:寶 Glyph0(*),strokecount:19 ⿱宀  ⿱珎              貝        ⿻冖? ⿰王      尔      ⿱目    八     ⿱一土    ⿱⺈小     ⿻口二         ⿱十  一  ⿻亅八     ⿱一一        ⿻一丨    ⿰?? Strokeorder:㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔(D-D-HGHH-S-HP-HGSGPDS-HZ-H-H-HPD) 14.UnicodeNormalization主要是用在清理一些看起來長的一樣但實際字碼不同的字官方定義:http://unicode.org/reports/tr15/PHP:http://php.net/manual/en/class.normalizer.phpJS:https://github.com/walling/unorm15.JIEBA結巴中文斷詞介紹簡報:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci 16.Articut中文斷詞暨語意詞性標記系統商用等級的,無需自己準備資料做機器學習或模型訓練,可自定字典,也隨時可提出修正需求給原廠。

300元可處理10萬字。

斷詞同時也做好了中文人名偵測、代名詞推理、語意詞性標記的推理…等。

介紹簡報:https://ppt.cc/fYCnOx 試用網站:https://api.droidtown.co  GithubAPI專案:https://github.com/Droidtown/ArticutAPI FB:https://www.facebook.com/Articut    名詞解釋1.句型結構syntacticstructure主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等ps.中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。

2.修飾關係dependencyrelation例句:猴子喜歡吃香蕉。

ccomp(喜歡-2,吃-3)=>喜歡是吃的補語dobj(吃-3,香蕉-4)=>香蕉是吃的賓語3.NER,NamedEntityRecognition,具名實體辨識可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。

經驗分享與討論cicilia>簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。

繁體也有很多分詞器了。



請為這篇文章評分?