中文斷詞 - CKIP Lab 中文詞知識庫小組
文章推薦指數: 80 %
因此中文自動分詞的工作成了語言處理不可或缺的技術。
基本上自動分詞多利用詞典中收錄的詞和文本做比對,找出可能包含的詞,由於存在歧義的切分 ...
任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。
因此中文自動分詞的工作成了語言處理不可或缺的技術。
基本上自動分詞多利用詞典中收錄的詞和文本做比對,找出可能包含的詞,由於存在歧義的切分結果,因此多數的中文分詞程式多討論如何解決分詞歧義的問題,而較少討論如何處理詞典中未收錄的詞出現的問題(如何辨認新詞)。
根據統計,一般的文章中約有百分之三到百分之五的未知詞,因此一個演算法的未知詞識別能力對於其分詞與標記的正確率將有很大的影響。
由於並不存在任何一個詞典或方法可以盡列所有的中文詞,當處理不同領域的文件時,領域相關的特殊詞彙或專有名詞,常常造成分詞系統因為參考詞彙的不足而產生錯誤的切分。
為了解決這個問題,最有效的方法是補充領域詞典加強詞彙的搜集。
因此新的詞彙或關鍵詞的自動抽取成為分詞的先期準備步驟。
領域關鍵詞彙多出現在該領域的文件中而少出現在其它領域,因此抽取關鍵詞時多利用此特性。
高頻的關鍵詞比較容易抽取,少數低頻的新詞不容事先搜集,必須線上辨識。
構詞律、詞素、詞彙及詞彙共現訊息,為線上新詞辨識依據。
本系統提供了一個解決方案,可以線上即時分詞功能。
為一具有新詞辨識能力並附加詞類標記的選擇性功能之中文分詞系統。
此一系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。
分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問題。
含有詞類標記,可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。
本分詞系統參加第一屆由ACLSIGHAN
舉辦之中文分詞比賽,並在繁體中文的分組比在中獲得第一名;同時也是第一個具備未知詞偵測與句法詞類預測能力的中文分詞系統。
本系統除了有線上展示版本外,亦有商業版本供業界使用,其已經授權與碩網科技、資策會與淩網科技。
CKIPCoreNLP多個CKIPNLP線上服務處理的系統整合:包括斷詞、剖析系統、實體辨識、指代消解。
Demo
CKIPTransformers使用Transformers開發的開源斷詞、詞性標注、實體辨識系統。
Demo
CKIPTagger新的開源斷詞、詞性標注、實體辨識系統。
Demo
中文斷詞(舊版)輸入一篇文章(最簡單的方法是copy一篇新聞),系統就會做未知詞擷取以及包含未知詞的斷詞標記動作。
Demo
Yu-FangTsai,ChenKeh-Jiann.
“ReliableandCost-EffectivePoS-Tagging”.
IJCLCLP,Vol.9,No.1,pp.83–96,Feb2004.Yu-FangTsai,ChenKeh-Jiann.
“Context-ruleModelforPoSTagging”.
PACLIC,Oct2003.Yu-FangTsai,ChenKeh-Jiann.
“ReliableandCost-EffectivePoS-Tagging”.
ROCLING,Sep2003.Wei-YunMa,Keh-JiannChen.
“IntroductiontoCKIPChineseWordSegmentationSystemfortheFirstInternationalChineseWordSegmentationBakeoff”.
SIGHAN,Jul2003.Wei-YunMa,Keh-JiannChen.
“ABottom-UpMergingAlgorithmforChineseUnknownWordExtraction”.
SIGHAN,Jul2003.Keh-JiannChen,Wei-YunMa.
“UnknownWordExtractionforChineseDocuments”.
COLING,Aug2002.Keh-JiannChen,Ming-HongBai.
“UnknownWordDetectionforChinesebyaCorpus-basedLearningMethod”.
IJCLCLP,Vol.3,No.1,pp.27–44,Feb1998.
斷詞與詞類標記說明
馬偉雲、劉興寰、蔡瑜方、戴嘉宏、白明弘、范嘉仁、謝佑明、李朋軒、楊慕CKIPLab中文詞知識庫小組詞庫簡介最新消息研究領域深度學習知識表達自然語言理解知識擷取聊天機器人專案介紹中文剖析中文斷詞中文句結構樹現代漢語平衡語料庫廣義知網康熙字典知識本體語言模型中文向量表達專有名詞辨識指代消解輿情分析系統詞庫小妍GuessWhat線上系統展示下載軟體與資源論文發表計畫主持人詞庫成員詞庫生活聯絡我們加入我們研究助理軟體工程師GitHub回報錯誤內部資訊
延伸文章資訊
- 1社群媒體新詞偵測系統以PTT八卦版為例 - 政大學術集成- 政治 ...
技巧來輔助中文斷詞,以利找出這些新詞,並進而透過這些新詞對來探詢社群 ... 不高,接下來透過一些簡單的統計過程使用傳統的字典法的詞典法去做斷詞,.
- 2ldkrsi/jieba-zh_TW: 結巴中文斷詞台灣繁體版本 - GitHub
結巴中文斷詞台灣繁體版本. Contribute to ldkrsi/jieba-zh_TW development by creating an account on GitHub.
- 3中文斷詞
目前繁體中文斷詞系統有中研院CKIP 以及jieba,在一些舊的文章中都提到jieba 無法適當地處理繁體中文,而有替換繁體中文字典的改進作法,不過 ...
- 4Python - 知名Jieba 中文斷詞工具教學
主要是透過詞典,在對句子進行斷詞的時候,將句子的每個字與詞典中的詞進行匹配,找到則斷詞,否則無法斷詞。 統計斷詞. 主要是看如果相連的字在不同的 ...
- 5[Day2] 斷詞介紹 - iT 邦幫忙
針對不存在於字典的字詞:. 使用隱馬可夫模型(HMM) 與維特比演算法(Viterbi) 來進行分詞辨識,找出最合適的組合. 三. Jieba Jieba其實算是中文滿常用的斷詞套件,但他 ...