中文斷詞(分詞)技術簡介 - Epic
文章推薦指數: 80 %
「斷詞」,指的是能夠讓電腦把詞彙以「意義」為單位切割出來,例如以下句子:「我的興趣是看電影和讀書」,對電腦而言這樣的字串無法解析出有意義的單位例如 ...
選單
直接觀看文章
開啟搜尋
中文斷詞(分詞)技術簡介
斷詞技術
「斷詞」,指的是能夠讓電腦把詞彙以「意義」為單位切割出來,例如以下句子:「我的興趣是看電影和讀書」,對電腦而言這樣的字串無法解析出有意義的單位例如「我的興\趣是看電\影和讀\書」像這樣分組是不符合現實世界的意義,必須透過斷詞技術切分成「我\的\興趣\是\看\電影\和\讀書」。
像這樣技術最常應用在搜尋引擎上面,如果以「電影」做查詢,第一種斷詞結果是無法被查詢到的,另外還應用在「整句式自動翻譯,ex:Google翻譯」、「人工智能的交談系統,ex:Siri」,技術分類於「自然語言處理」
斷詞技術的挑戰
新詞識別
在網路時代裡很常見新詞的流行,比如「Yee」、「好棒棒」、…這種詞彙的快速流行和消失、演化讓斷詞技術幾乎無法正常識別社群網站出現的文本,這是目前我認為斷詞技術遭遇到的最大困難與挑戰。
歧義詞識別
除了新詞識別之困難之外,語言如果不參考上下文的意義也會產生錯誤的斷詞結果例如:台灣國立成功大學,可以解析成「台灣\國立\成功\大學」也可以是:「台灣國\立\成功\大學」這裡的「國立」產生錯位的歧義,如果不參考上下文,就難以正確分割。
表情符號識別
社群媒體非常常見「XDDD」、「:)」這種由標點符號組合而成的表情符號,如果當作一般的標點符號處理會漏失掉許多重要的資訊,所以雖然搜尋引擎無須擔心表情符號識別,但如果作為一個社群媒體分析相關的斷詞器的話,得慎重可慮這個新領域。
常見的中文斷詞技術
CKIP:這是由台灣中研院研發的一款斷詞器,不過並未對外公布技術節。
HanLP:這是一個開源的分詞器(java),我在這篇Hanlp自然語言處理器有使用範例
Ansj:這也是一個開源的中文分詞器(java)
jieba:Python的中文分詞器
分享此文:TwitterFacebook請按讚:喜歡正在載入...
相關
whuang022
Authorarchive
開發者網站
2016年01月27日
自然語言處理,資料探勘,技術,人工智慧
CKIP,HanLP,分詞,斷詞,中文斷詞
Previouspost
Nextpost
發表迴響取消回覆
在此輸入你的回應…
在下方填入你的資料或按右方圖示以社群網站登入:
電子郵件(必須填寫)(電子郵件地址不會公開)
名稱(必須填寫)
個人網站
您的留言將使用WordPress.com帳號。
( 登出 /
變更 )
您的留言將使用Google帳號。
( 登出 /
變更 )
您的留言將使用Twitter帳號。
( 登出 /
變更 )
您的留言將使用Facebook帳號。
( 登出 /
變更 )
取消
連結到%s
透過電子郵件通知我後續回應。
有新文章時用Email通知我。
Δ
更多創業筆記請加入EPIC粉絲團
更多創業筆記請加入EPIC粉絲團
搜尋:
近期文章
Sigmoid函數微分證明
Tensor張量的定義
DavidSilver強化學習課程筆記(01 基礎概念)
NVIDIACUDA教學01 (環境安裝)
自然語言處理演算法&論文列表(01)
近期迴響
whuang022在淺談多準則決策法AHP與ANP小吳在淺談多準則決策法AHP與ANPwhuang022在樸素貝葉斯分類器(NaiveBayesclassifie…hermit在樸素貝葉斯分類器(NaiveBayesclassifie…whuang022在除了一碗CocoBrother椰子冰之外,讓我感動的創業…
分類
Androidjava
C語言
產品
簡報
組合語言
Exception
職場
自然語言處理
開源
虛擬實境
行銷
類神經網路
設計
財務
資料探勘
GPGPU
java
Linux
objectoriented
PM
SQL資料庫
UI設計
UVA
公司股權
創業
品牌
圖文創作
團隊
培力演講筆記
學習
強化學習
技術
數值計算
未分類
人生
人工智慧
企劃
例外處理
其它
註冊 登入
訂閱網站內容的資訊提供
訂閱留言的資訊提供
WordPress.com
在WordPress.com建立免費網站或網誌.
向上↑
追蹤
已追蹤
Epic
我要註冊
已經有WordPress.com帳號了?立即登入。
Epic
自訂
追蹤
已追蹤
註冊
登入
複製短網址
回報此內容
以閱讀器檢視
管理訂閱
收合此列
隱私權與Cookie:此網站可使用Cookie。
繼續使用此網站即表示你同意使用Cookie。
若要瞭解更多資訊,包括如何控制Cookie,請參閱此處:
Cookie政策
%d位部落客按了讚:
延伸文章資訊
- 1Jieba 中文斷詞簡介
- 2断词的解释及意思-汉语词典
见“断辞”。 断辞:. 1.亦作“断词”。 2.《易》中决断吉凶之辞。 3.泛指决断吉凶的言辞。 4.今甲骨学家亦称殷墟卜辞中决定吉凶之辞为断辞。 ○ 断(斷)duàn ㄉㄨㄢˋ.
- 3[NLP 線上自學] D05 NLP 中文斷詞
斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。 英文(歐美語系) 和中文(東亞語系) 的斷詞有很大的 ...
- 4漢典“斷詞”詞語的解釋
斷詞”的解釋,成語解釋,國語辭典,網路解釋. ... 漢典. 斷詞 網路解釋. 百度百科. 斷詞. 斷詞:語言術語; 斷詞:本善本幻演唱歌曲. © 漢典. 【載入評論】 ...
- 5斷詞的意思- 漢語詞典
斷詞,又稱“斷取”、“斷詞取義”。它是指形式上用的是大家比較熟悉的固定詞組(或比較穩固的短句);表意上卻是有意識地把這個詞或詞組切“斷”,只抓住其中一部分顏色、 ...