[NLP 線上自學] D05 NLP 中文斷詞
文章推薦指數: 80 %
斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。
英文(歐美語系) 和中文(東亞語系) 的斷詞有很大的 ...
YuuWayAILabDLHLP百日馬拉松基礎概念[NLP線上自學]D05NLP中文斷詞Yu-WeiChenFollowDec2,2020·1minread本章節必須熟悉:何謂斷詞了解內部運算,並可實作斷詞斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。
英文(歐美語系)和中文(東亞語系)的斷詞有很大的差異,英文僅需利用空白自元就可輕易的將詞順利切割;但是中文無法這樣進行斷詞,又該如何進行切割?目前常見的有三種斷詞方法:基於辭典的分詞法:準備好詞典庫來匹配待訓練的文句。
基於統計的機器學習算法:HMM,CRF,SVM基於深度學習的算法:雙向LSTM目前最流行的中文斷詞是「結巴」,主要是基於傳統的機器學習來完成斷詞的。
結巴(Jieba)斷詞演算法,包含兩部分:針對存在於字典的字詞:根據字典產生Trie樹(字典樹、字首術、前綴樹)根據Trie樹建立給定輸入句的DAG(有向無環圖)使用動態規劃(DP)找出最大機率路徑,此路徑即為基於詞頻最大的分詞結果針對不存在於字典的字詞:使用隱碼可夫模型(HMM)和維特比演算法(Viterbi)來進行分詞辨識YuuWayAILabAllAbout機器學習與自然語言Nlp100daysYuuWayAILab學習的路上,努力地開拓自己的視野、壯大自己的膽試。
越是困難越是走出自己的thisway,我是YuWayy,歡迎一起從0開始學習任何有關AI的知識與技術。
WrittenbyYu-WeiChenFollowYuuWayAILab學習的路上,努力地開拓自己的視野、壯大自己的膽試。
越是困難越是走出自己的thisway,我是YuWayy,歡迎一起從0開始學習任何有關AI的知識與技術。
延伸文章資訊
- 1中文斷詞:斷句不要悲劇/ Head first Chinese text segmentation
3. 那,中文斷詞是什麼呢?簡單來說,就是讓電腦可以把中文詞彙以「意義」為單位切割出來,比如以「塵世中一個迷途小書僮」 ...
- 2[NLP 線上自學] D05 NLP 中文斷詞
斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。 英文(歐美語系) 和中文(東亞語系) 的斷詞有很大的 ...
- 3斷開中文的鎖鍊!自然語言處理(NLP) | 中研院訊
中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。 如何理解一種語言? 小時候學習中文,會 ...
- 4斷詞的意思- 漢語詞典
斷詞,又稱“斷取”、“斷詞取義”。它是指形式上用的是大家比較熟悉的固定詞組(或比較穩固的短句);表意上卻是有意識地把這個詞或詞組切“斷”,只抓住其中一部分顏色、 ...
- 5漢典“斷詞”詞語的解釋
斷詞”的解釋,成語解釋,國語辭典,網路解釋. ... 漢典. 斷詞 網路解釋. 百度百科. 斷詞. 斷詞:語言術語; 斷詞:本善本幻演唱歌曲. © 漢典. 【載入評論】 ...