又一「中文斷詞工具」宣布開源 - 人人焦點
文章推薦指數: 80 %
台灣中研院近日正式開源自行研發多年的中文斷詞程序,提供給在從事中文自然語言處理研究的學術圈或開發者來使用,目前已放上GitHub平台。
人人焦點
影視
健康
歷史
數碼
遊戲
美食
時尚
旅遊
運動
星座
情感
動漫
科學
寵物
家居
文化
教育
故事
又一「中文斷詞工具」宣布開源
2021-12-27圖情招聘
台灣中研院近日正式開源自行研發多年的中文斷詞程序,提供給在從事中文自然語言處理研究的學術圈或開發者來使用,目前已放上GitHub平台。
據悉,該程序過去沒有開源,僅提供安裝執行檔,並未提供原始碼,使用上一直不如大陸開源的中文斷詞工具Jieba(結巴)好用。
而現在使用者已經可以通過該平台來安裝使用這個斷詞工具,並可依據自己需求,來修改原始碼,增加更多新功能或特色,用於處理文本、語義分析的使用。
根據該工具的文件說明,這套CkipTagger中文處理工具,不只提供繁體中文斷詞的功能,也加入詞性標註和18類專有名詞的實體辨識(Namedentityrecognition)等功能,甚至當以多達5萬句的ASBC4.0漢語語料庫測試集,來進行中文斷詞測試時,CkipTagger表現遠高於大陸的Jieba(結巴),中研院在中文斷詞準確度可達到97.49%,相較之下,Jieba(結巴)只有90.51%。
新版本也提供幾大特色,包括了加強斷詞表現、可以不自動刪/改字,並且能夠支援不限長度的句子,另外,新版也加入使用者自訂功能,提供參考/強制詞典的自訂功能。
不只開源中文斷詞程序,該小組負責人馬偉雲表示,接下來將用4年的時間將中文維基百科上的百萬詞彙,自動建立知識圖譜,來打造成爲一個具有百萬中文詞庫的知識庫。
地址:https://github.com/ckiplab/ckiptagger
相關焦點
百度AI「開源」:止近渴,解遠慮
3月20日,清華大學計算機系圖形實驗室開源AI框架計圖(Jittor),這是首個由中國學界開源的AI框架,直接對標PyTorch;3月24日,AI獨角獸曠視科技宣布開源天元(MegEngine)——訓練推理一體化、動靜態合一的工業級深度學習框架;3月28日,華爲在開發者大會2020上宣布正式開源MindSpore,這是一款支持端邊雲全場景的深度學習訓練推理框架
推薦一款好看的開源中文字體
今天推薦的這個項目是「LxgwWenKai」,一款基於FONTWORKS的KleeOne的開源中文字體。
此外,目前現有的開源中文字庫里,楷體類寥寥無幾,仿宋類則幾乎沒有。
鑑於此,也爲了豐富開源中文字體中的楷體門類,作者開始了爲Klee這一高質量的日文字體補全簡繁常用字的嘗試。
補全後的字體擬命名「霞鶩文楷」。
選取原字體SemiBold字重做爲Regular字重。
老牌沙盒軟體「Sandboxie」宣布免費開源了!雷鋒哥發現了新用法!
一開始使用虛擬機,但虛擬機太吃硬體資源了,後來臨時測試軟體雷鋒哥就用了一款「Sandboxie」沙盒軟體,在「Sandboxie」裡面運行的軟體都會與系統隔離出來。
簡單說:通過「Sandboxie」運行的軟體不會寫入註冊表、寫入文件到系統裡面。
不想再被扣「封閉」的帽子,蘋果宣布開源Swift語言
AppleSwift,這個蘋果公司專爲蘋果產品開發人員設計的程式語言在剛剛宣布開源了。
Swift是蘋果公司在去年推出的程式語言,因爲其簡潔好用,所以立刻成爲了史上增長速度最快的一款程式語言。
它專爲iOS、OSX、watchOS及tvOS的開發者們設計。
今天凌晨的時候(北京時間),蘋果公司宣布將其開源,並爲它設立了一個單獨的網站Swift.org。
首期「OSCHINA開源軟體趨勢榜」公布
「2月13日,百度宣布免費開源業內首個口罩人臉檢測及分類模型。
該模型可以有效檢測在密集人流區域中攜帶和未攜戴口罩的所有人臉,同時判斷該者是否佩戴口罩。
目前已通過飛槳PaddleHub開源出來,廣大開發者用幾行代碼即可快速上手,免費調用。
」文言文言文程式語言wenyan-lang在社區中的呼聲很高,最終在榜單中衝到了第二的位置。
顧名思義,這是一門採用文言文輸入的程式語言。
該語言不包括英文字符,僅包含繁體中文字符,並保留了繁體引號「」。
安利一款開源OCR工具,可快速提取截屏文字!
你是用什麼工具解決的呢?是手機自帶拍照轉文字功能?還是使用QQ裡面的工具?今天我們就爲大家介紹一款GitHub用戶ianzhao05剛發布的小工具——textshot,只需要截屏就能實時生成文字。
讀者也可以通過此項目大致了解如何對圖像中的文本進行識別。
又一款免費可商用字體:「源界明朝」
,合法授權使用的中文字體,更棒的是其開源特性,可用於修改並製作出新的字體,因此有許多日本字體都由思源系列變化而生,保留字型優點,加以改變使它呈現出完全不同的感覺。
今天要介紹的「源界明朝」是一款免費的日文字體,跟之前介紹的「裝甲明朝」來自同一網站,因爲日文字體的漢字部分跟中文在字型方面很多時候是可以通用且正常顯示的,因此像是FONTFREE、FreeJapaneseFont這類日文字體網站也是找中文字體時可以去尋寶一下的地方。
CSS單詞換行and斷詞,你真的完全了解嗎
我擦,怎麼還是沒有斷詞?不可能啊!!!難道這兩個屬性有什麼兼容性問題或者有什麼限制條件?爲了不搬石頭砸自己的腳,還是去深入了解一下。
css單詞斷詞、換行關鍵字:word-break, word-wrap提前聲明:上面的問題用這兩個屬性來解決並沒有什麼問題,這裡只是再加深鞏固一下知識。
想了解原因的同學請直接看下一小節。
【業界】亞馬遜宣布開源深度學習工具,「Open」AI或成主流?
>編譯:胡祥傑 【新智元導讀】亞馬遜也被吹上「flow」的風口:繼Facebook昨天公開其深度學習訓練平台FBLearnerFlow細節,亞馬遜今日下午突然宣布開源其深度學習和機器學習工具DSSTNE,並表示與相比其他深度學習工具,DSSTNE尤其擅於訓練稀疏數據。
免費開源在線音樂下載工具「Nuclear」支持(Win/macOS/Linux)
今天雷鋒哥發現了一款免費開源在線音樂下載工具「Nuclear」支持Win/macOS/Linux。
主要針對國外音樂平台,自帶了油管、Soundcloud、Jamendo三個平台的音樂。
音樂來源設置:「Nuclear」默認的音樂來源是油管,衆所周知油管需要梯子才能打得開,所以我們需要在插件設置裡面的「默認音樂來源」選擇Soundcloud或Jamendo。
這裡雷鋒哥推薦用SoundCloud一個爲喜歡音樂和愛好聲音記錄生活的人士打造的分享平台。
任天堂終於給遊戲機加上了「中文」,但是......
「八國語言無中文」,「就算加入愛斯基摩語都不會有中文」,「像這樣在中國市場前堅守原則的公司已經不多了」……長久以來,國內的遊戲玩家,不論是任粉、索(尼)粉還是(微)軟粉,對於任天堂始終都是調侃態度。
除了對中國大陸的「選擇性忽視」之外,大家怨念最深的莫過於遊戲往往不帶中文,所以形成一個想玩任天堂遊戲沒中文-任天堂沒中文不想玩的惡性循環,因此國內任天堂遊戲玩家羣體一直屬於小衆。
「回音法」實踐工具推薦(3)
複習往期「回音法」文章,請點擊以下連結:提升聽力祕訣:每天請聽「回音」十分鐘(上)提升聽力祕訣:每天請聽「回音
「GIMP」一款開源免費的輕量級電腦圖片編輯處理軟體,媲美PS.
cid=154657百度網盤https://pan.baidu.com/s/12Ivqjp7SsnkmBvsDWqflhg提取碼:d1sq往期精彩內容推薦「DuplicateCleaner」一款專注於重複文件、目錄查找與清理的系統工具
Netch標星超過5k,一款Windows平台的開源遊戲加速工具
Netch是一款Windows平台的開源遊戲加速工具,Netch可以實現類似SocksCap64那樣的進程代理,也可以實現SSTap那樣的全局TUN/TAP代理,和Shadowsocks-Windows那樣的本地Socks5,HTTP和系統代理。
常用的開源中文分詞工具
常用的開源中文分詞工具本文連結:http://www.scholat.com/vpost.html?
讓你的桌面酷炫起來,免費開源「動態壁紙」軟體
想讓桌面炫酷起來,例如之前雷鋒哥給大家分享過的「WallpaperEngine」動態壁紙軟體,除了支持把視頻作爲桌面壁紙外,還支持HTML或Unity程序設爲桌面,支持一些互動的的玩法等。
只不過「WallpaperEngine」是付費軟體,雖然有河蟹版,但是無法從Steam裡面下載壁紙,只能找網友提取出來的動態視頻文件。
截屏、文字提取一氣呵成,超實用OCR開源小工具
!」你是用什麼工具解決的呢?是手機自帶拍照轉文字功能?還是使用QQ裡面的工具?今天我們就爲大家介紹一款GitHub用戶ianzhao05剛發布的小工具——textshot,只需要截屏就能實時生成文字。
讀者也可以通過此項目大致了解如何對圖像中的文本進行識別。
這才是BT的正確下載姿勢:免費開源BT下載工具「qBittorrent」
說到BT下載,雷鋒哥最早接觸的是比特彗星軟體,那個時候國外有「海盜灣」國內有「BT之家」「BT聯盟」各種最新BT電影資源/動作愛情片都有
[開源神器]必備免費視頻壓縮與格式轉換工具-跨平台Win/Mac/Linux
作爲一款萬能視頻轉碼工具,它不僅免費,還跨平台支持Win、Mac、Linux 三大作業系統……HandBrake官方漢化綠色中文版-開源免費的視頻轉碼軟體HandBrake 是一款專業強大的開源免費萬能視頻處理軟體!它能支持幾乎所有主流的視頻格式,而且對新型的Web視頻格式也支持得很好。
延伸文章資訊
- 1又一「中文斷詞工具」宣布開源 - 人人焦點
台灣中研院近日正式開源自行研發多年的中文斷詞程序,提供給在從事中文自然語言處理研究的學術圈或開發者來使用,目前已放上GitHub平台。
- 2線上中文斷詞工具:Jieba-JS / Online Chinese Analyzer
現在最流行的中文斷詞工具結巴(jieba)原本是以Python開發,必須要有Python的環境才能運作。不過它也有很多不同程式語言的版本,其中最好用的就是不需要安裝、只要瀏覽 ...
- 3Jieba 中文斷詞簡介
處理中文文本的研究者,常常需要先把中文的連續文字切割成一個個分開的詞彙,這樣才能進一步以軟體工具來處理。這一工作稱為斷詞、分詞或者切詞。 中文斷詞不容易做得 ...
- 4[NLP][Python] 中文斷詞最方便的開源工具之一: Jieba
Jieba 是一款使用Python (或者說在Python 上最知名的?) 的一款開源中文斷詞工具,當然它也有支援許多不同的NLP 任務,比方說POS、關鍵字抽取.
- 5中文斷詞 - CKIP Lab 中文詞知識庫小組
中文斷詞. 任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、 ... CKIP Transformers — 語言模型與NLP 任務工具.