Day-02-斷詞的問題 - iT 邦幫忙

文章推薦指數: 80 %
投票人數:10人

中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。

中文繁體字的數量,《說文解字》收集9353個 ... 第11屆iThome鐵人賽 DAY 2 0 AI&Data 人工智慧X自然語言處理X資料科學系列第 2篇 Day-02-斷詞的問題 11th鐵人賽 肯德基爺爺 2019-09-0321:18:55976瀏覽 讓電腦擁有理解人類語言的能力,就是自然語言處理(NaturalLanguageProcessing,縮寫NLP)[1]。

然而,人和人之間就會誤會彼此的語言了,電腦要如何理解語義?中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。

中文繁體字的數量,《說文解字》收集9353個漢字,《廣雅》收集18150個漢字,《康熙字典》約有47,035字左右[2];中文詞的數量,漢語詞典收錄了約38萬的詞彙,若加上現代用語如"科科"、"8+9"及"魯蛇"等等,則可能超過40萬個詞彙。

而這僅僅是字與字搭配成詞,從一維到二維即有十倍數量的增長,若是多個字及多個詞搭配成句,則增長倍數更是超過十倍,故可想像研究字、詞、句、章節的語意理解研究的難度。

先從單單一句文本下手,我們要分清楚這句文本之中,字與詞的關係。

例如:這棵樹很難爬。

人可以輕易理解為:這棵 樹 很難 爬 但,也有其他可能:這顆 樹 很 難爬 這就是斷詞錯誤,造成兩句意思完全不一樣。

因此面臨到斷詞的問題,我們該如何讓電腦在記住詞彙之後,判斷句子中的文本哪些是詞,而哪些是字。

這即是自然語言處裡的基本問題之一,斷詞。

Reference 斷開中文的鎖鍊!自然語言處理(NLP) 中國的漢字有多少個?本號權威的回答 「能被理解的存在就是語言。

」——伽達默爾 留言 追蹤 檢舉 上一篇 Day-01-序幕 下一篇 Day-03-斷詞-詞向量 系列文 人工智慧X自然語言處理X資料科學 共7篇 目錄 RSS系列文 訂閱系列文 4人訂閱 3 Day-03-斷詞-詞向量 4 Day-04-詞嵌入向量-原理 5 Day-05-詞頻逆向檔案頻率 6 Day-06-語言學淺談 7 Day-07-斷詞 完整目錄 尚未有邦友留言 立即登入留言 iT邦幫忙鐵人賽 參賽組數 1087組 團體組數 52組 累計文章數 20454篇 完賽人數 572人 鐵人賽最新文章 建立第一個單元測試(golang)-2(Day21) 更新網格交易機器人 STM32的開發生態,Cube、HAL庫、LL庫 閒聊STM32CubeMX和STM32CubeIDE 建立第一個單元測試(golang)-1(Day20) Day38-在AWSLambda中使用YOLO推估(Inference) Day37-在AWSLambda建立OpenCVLayer Day36-使用Container建立AmazonSageMaker端點 Day35-AmazonSageMaker簡介 今天來瞄一眼龍與雀的科技:知覺共享技術Body-sharing 前往鐵人賽 技術推廣專區 [Day2]抓取每日收盤價 [Day1]基本工具安裝 利用python取得永豐銀行API的Nonce 永豐金融API測試員 [Day03]tinyML開發板介紹 [Day01]在享受tinyML這道美食之前 [Day3]使用ta-lib製作指標 [Day4]函數打包與買進持有報酬率試算 計算API所需要的參數:HashID 計算API所需要的參數:IV 前往鐵人賽 熱門問題 請問這個錯在哪? 請問是否有人有使用過VisualStudioIDE?? AD五大角色轉移差異。

到底API設計的方向該往哪裡去? [已解決]請益,每一筆商品資料內的圖片,儲存在資料庫內方式 請問如何把網頁製作成手機APP? htmljavascript值存入PHP 資料庫的數值sum加總後,數值仍然會少算?! MYSQL:如何計算每筆數據的移動平均值? 正航ERP跑傳票維護就轉圈圈久無反應... IT邦幫忙 站方公告 2021iThome鐵人賽精彩文章超過2萬篇,預計12月揭曉本屆獲勝鐵人 熱門tag 看更多 13th鐵人賽 12th鐵人賽 11th鐵人賽 鐵人賽 2019鐵人賽 2018鐵人賽 javascript 2017鐵人賽 windows php python windowsserver linux c# 程式設計 資訊安全 css vue.js sql 分享 熱門回答 請問是否有人有使用過VisualStudioIDE?? 請問這個錯在哪? 到底API設計的方向該往哪裡去? 急!傳值問題 htmljavascript值存入PHP 資料庫的數值sum加總後,數值仍然會少算?! 正航ERP跑傳票維護就轉圈圈久無反應... 請問如何把網頁製作成手機APP? [已解決]請益,每一筆商品資料內的圖片,儲存在資料庫內方式 Adaptec5405Raid1E、5、5EE、6、10選擇性障礙 熱門文章 STM32的開發生態,Cube、HAL庫、LL庫 更新網格交易機器人 從PDF刪除水印的5種最佳方法 網路是怎樣連接的(十二)IP地址怎麼看 【徵才/台北松山區】Linux/Winserver系統維運工程師 YOLOv4模型訓練實作 碩士課程一問 701CLIENT門禁系統卡片無效 Java開發WEB的好平台--Grails--(4)建立第一個Controller 惡意程式(malware) 一週點數排行 更多點數排行 海綿寶寶(antijava) raytracy(raytracy) ccenjor(ccenjor) Felix(redqi) Mao(TutelaryMao) 緯大啊緯大人(mobetae47111) rogeryao(rogeryao) juck30808(juck30808) 一級屠豬士(hitomitanaka) 純真的人(jer5173) × At 輸入對方的帳號或暱稱 Loading 找不到結果。

標記 {{result.label}} {{result.account}} 關閉



請為這篇文章評分?