中文斷詞(分詞)技術簡介 - Epic

文章推薦指數: 80 %
投票人數:10人

「斷詞」,指的是能夠讓電腦把詞彙以「意義」為單位切割出來,例如以下句子:「我的興趣是看電影和讀書」,對電腦而言這樣的字串無法解析出有意義的單位例如 ... 選單 直接觀看文章 開啟搜尋 中文斷詞(分詞)技術簡介 斷詞技術 「斷詞」,指的是能夠讓電腦把詞彙以「意義」為單位切割出來,例如以下句子:「我的興趣是看電影和讀書」,對電腦而言這樣的字串無法解析出有意義的單位例如「我的興\趣是看電\影和讀\書」像這樣分組是不符合現實世界的意義,必須透過斷詞技術切分成「我\的\興趣\是\看\電影\和\讀書」。

像這樣技術最常應用在搜尋引擎上面,如果以「電影」做查詢,第一種斷詞結果是無法被查詢到的,另外還應用在「整句式自動翻譯,ex:Google翻譯」、「人工智能的交談系統,ex:Siri」,技術分類於「自然語言處理」 斷詞技術的挑戰 新詞識別 在網路時代裡很常見新詞的流行,比如「Yee」、「好棒棒」、…這種詞彙的快速流行和消失、演化讓斷詞技術幾乎無法正常識別社群網站出現的文本,這是目前我認為斷詞技術遭遇到的最大困難與挑戰。

歧義詞識別 除了新詞識別之困難之外,語言如果不參考上下文的意義也會產生錯誤的斷詞結果例如:台灣國立成功大學,可以解析成「台灣\國立\成功\大學」也可以是:「台灣國\立\成功\大學」這裡的「國立」產生錯位的歧義,如果不參考上下文,就難以正確分割。

表情符號識別 社群媒體非常常見「XDDD」、「:)」這種由標點符號組合而成的表情符號,如果當作一般的標點符號處理會漏失掉許多重要的資訊,所以雖然搜尋引擎無須擔心表情符號識別,但如果作為一個社群媒體分析相關的斷詞器的話,得慎重可慮這個新領域。

常見的中文斷詞技術 CKIP:這是由台灣中研院研發的一款斷詞器,不過並未對外公布技術節。

HanLP:這是一個開源的分詞器(java),我在這篇Hanlp自然語言處理器有使用範例 Ansj:這也是一個開源的中文分詞器(java) jieba:Python的中文分詞器 分享此文:TwitterFacebook請按讚:喜歡正在載入... 相關 whuang022 Authorarchive 開發者網站 2016年01月27日 自然語言處理,資料探勘,技術,人工智慧 CKIP,HanLP,分詞,斷詞,中文斷詞 Previouspost Nextpost 發表迴響取消回覆 在此輸入你的回應… 在下方填入你的資料或按右方圖示以社群網站登入: 電子郵件(必須填寫)(電子郵件地址不會公開) 名稱(必須填寫) 個人網站 您的留言將使用WordPress.com帳號。

( 登出 /  變更 ) 您的留言將使用Google帳號。

( 登出 /  變更 ) 您的留言將使用Twitter帳號。

( 登出 /  變更 ) 您的留言將使用Facebook帳號。

( 登出 /  變更 ) 取消 連結到%s 透過電子郵件通知我後續回應。

有新文章時用Email通知我。

Δ 更多創業筆記請加入EPIC粉絲團 更多創業筆記請加入EPIC粉絲團 搜尋: 近期文章 Sigmoid函數微分證明 Tensor張量的定義 DavidSilver強化學習課程筆記(01 基礎概念) NVIDIACUDA教學01 (環境安裝) 自然語言處理演算法&論文列表(01) 近期迴響 whuang022在淺談多準則決策法AHP與ANP小吳在淺談多準則決策法AHP與ANPwhuang022在樸素貝葉斯分類器(NaiveBayesclassifie…hermit在樸素貝葉斯分類器(NaiveBayesclassifie…whuang022在除了一碗CocoBrother椰子冰之外,讓我感動的創業… 分類 Androidjava C語言 產品 簡報 組合語言 Exception 職場 自然語言處理 開源 虛擬實境 行銷 類神經網路 設計 財務 資料探勘 GPGPU java Linux objectoriented PM SQL資料庫 UI設計 UVA 公司股權 創業 品牌 圖文創作 團隊 培力演講筆記 學習 強化學習 技術 數值計算 未分類 人生 人工智慧 企劃 例外處理 其它 註冊 登入 訂閱網站內容的資訊提供 訂閱留言的資訊提供 WordPress.com 在WordPress.com建立免費網站或網誌. 向上↑ 追蹤 已追蹤 Epic 我要註冊 已經有WordPress.com帳號了?立即登入。

Epic 自訂 追蹤 已追蹤 註冊 登入 複製短網址 回報此內容 以閱讀器檢視 管理訂閱 收合此列 隱私權與Cookie:此網站可使用Cookie。

繼續使用此網站即表示你同意使用Cookie。

若要瞭解更多資訊,包括如何控制Cookie,請參閱此處: Cookie政策 %d位部落客按了讚:



請為這篇文章評分?