千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具
文章推薦指數: 80 %
中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIP Lab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供 ...
移至主內容
文/余至浩
|
2019-09-04發表
圖片來源: GitHub
從事中文自然語言處理(NLP)研究的中研院CKIPLab中文詞知識庫小組,近日正式開源釋出了自行研發多年的一套中文斷詞程式,提供給在臺灣從事中文NLP研究的學術圈或開發者來使用,這也意謂著,臺灣終於有了一套國產的自動化中文斷詞工具可以拿來用,而且完全開源,目前已放上GitHub平臺上,開放給大家試用。
中文NLP研究常用到的自動化中文斷詞工具,實際上,中研院CKIPLab中文詞知識庫小組自己也有一套國產品,但以前沒有開源,僅提供安裝執行檔,並未提供原始碼,因此,過去使用上一直不如中國開源的中文斷詞工具Jieba(結巴)好用。
不過,這次中研院決定將自己的中文斷詞工具開源釋出,並放上程式代管平臺GitHub,對於臺灣中文NLP研究者或開發者來說,無疑是一大福音。
現在使用者已經可以透過該平臺來安裝使用這個斷詞工具,並可依據自己需求,來修改原始碼,增加更多新功能或特色,用於處理文本、語義分析的使用。
中研院更改了原先的CCBY-SA授權方式,改以更具開源精神的GPL3.0授權釋出,不論是學術研究或其他商業用途,任何人已經皆可自由使用,但必須合乎GPL-3.0的授權規範,倘若希望採用非提供衍生源碼的傳統商業模式,則可採傳統的商業授權。
雖然,中研院開源了自家的中文斷詞程式,不過一開始誤用了較不易散播的創用CCBY-NC-SA4.0(也就是姓名標示、非商用、相同方式分享)方式授權,引起社群熱烈討論,隨後,中研院在今晚(5日)有重新調整更適合的授權,改採用正式GPL-3.0(GNUGeneralPublic License v3.0)釋出,代表不論是學術研究或其他商業用途,任何人已經皆可自由使用、修改、發布該程式源碼,但必須符合GPL-3.0的授權規範,而倘若採用GPL-3.0授權版本做為商業使用,同樣得要套用GPL提供衍生源碼;但若希望採用非提供衍生源碼的傳統商業模式,則可另洽中研院團隊以取得傳統的商業授權。
根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標注和18類專有名詞的實體辨識(Namedentityrecognition)等功能,甚至當以多達5萬句的ASBC4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於中國的結巴,中研院在中文斷詞準確度可達到97.49%,相較之下,中國的結巴只有90.51%。
新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制詞典的自訂功能。
不只開源中文斷詞程式,我們今年初採訪該詞庫小組計畫負責人馬偉雲時,他也提到,接下來,將用4年的時間,將中文維基百科上的百萬詞彙,自動建立其知識圖譜,來打造成為一個具有百萬中文詞庫的知識庫。
他更計畫以中研院現有9萬詞彙所建立的知識圖譜架構,發展相關的自然語言處理工具,可以自動建立其知識圖譜。
熱門新聞
微軟、AWS向不想回公司上班的特斯拉員工招手
2022-06-06
印度要求VPN業者蒐集用戶資料,ExpressVPN全面移除印度伺服器
2022-06-06
提升開發者帳戶安全,企業應強制全面啟用2FA或建置集中管控
2022-06-06
壽險公會保險存摺正式上線,讓保戶可一站查詢所有人身投保資料
2022-06-01
提升軟體供應鏈安全,提升開發者帳號保護將是不可或缺的關鍵
2022-06-06
Alphabet與Meta的員工年薪中位數都超過29萬美元
2022-06-02
微軟WindowsAutopatch進入公開預覽
2022-06-06
ExchangeServer下一版延到2025年、現有版本同年10月終止支援
2022-06-06
Advertisement
專題報導
【確保軟體供應鏈安全的第一步】快啟用MFA!保護開發者帳號刻不容緩
老牌鋼鐵廠的敏捷舞
6年SRE老手為何仍大當機14天
【從端到端數位化,邁向以顧客體驗為核心】玉山金控金融即服務戰略2.0
解放政府行動力
更多專題報導
延伸文章資訊
- 1線上中文斷詞工具:Jieba-JS / Online Chinese Analyzer
現在最流行的中文斷詞工具結巴(jieba)原本是以Python開發,必須要有Python的環境才能運作。不過它也有很多不同程式語言的版本,其中最好用的就是不需要安裝、只要瀏覽 ...
- 2Jieba 中文斷詞簡介
處理中文文本的研究者,常常需要先把中文的連續文字切割成一個個分開的詞彙,這樣才能進一步以軟體工具來處理。這一工作稱為斷詞、分詞或者切詞。 中文斷詞不容易做得 ...
- 3中文斷詞 - CKIP Lab 中文詞知識庫小組
中文斷詞. 任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、 ... CKIP Transformers — 語言模型與NLP 任務工具.
- 4中文斷詞
目前繁體中文斷詞系統有中研院CKIP 以及jieba,在一些舊的文章中都提到jieba 無法適當地處理繁體中文,而有替換繁體中文字典的改進作法,不過 ...
- 5又一「中文斷詞工具」宣布開源 - 人人焦點
台灣中研院近日正式開源自行研發多年的中文斷詞程序,提供給在從事中文自然語言處理研究的學術圈或開發者來使用,目前已放上GitHub平台。