Day-02-斷詞的問題 - iT 邦幫忙
文章推薦指數: 80 %
中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。
中文繁體字的數量,《說文解字》收集9353個 ...
第11屆iThome鐵人賽
DAY
2
0
AI&Data
人工智慧X自然語言處理X資料科學系列第
2篇
Day-02-斷詞的問題
11th鐵人賽
肯德基爺爺
2019-09-0321:18:55976瀏覽
讓電腦擁有理解人類語言的能力,就是自然語言處理(NaturalLanguageProcessing,縮寫NLP)[1]。
然而,人和人之間就會誤會彼此的語言了,電腦要如何理解語義?中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。
中文繁體字的數量,《說文解字》收集9353個漢字,《廣雅》收集18150個漢字,《康熙字典》約有47,035字左右[2];中文詞的數量,漢語詞典收錄了約38萬的詞彙,若加上現代用語如"科科"、"8+9"及"魯蛇"等等,則可能超過40萬個詞彙。
而這僅僅是字與字搭配成詞,從一維到二維即有十倍數量的增長,若是多個字及多個詞搭配成句,則增長倍數更是超過十倍,故可想像研究字、詞、句、章節的語意理解研究的難度。
先從單單一句文本下手,我們要分清楚這句文本之中,字與詞的關係。
例如:這棵樹很難爬。
人可以輕易理解為:這棵 樹 很難 爬
但,也有其他可能:這顆 樹 很 難爬
這就是斷詞錯誤,造成兩句意思完全不一樣。
因此面臨到斷詞的問題,我們該如何讓電腦在記住詞彙之後,判斷句子中的文本哪些是詞,而哪些是字。
這即是自然語言處裡的基本問題之一,斷詞。
Reference
斷開中文的鎖鍊!自然語言處理(NLP)
中國的漢字有多少個?本號權威的回答
「能被理解的存在就是語言。
」——伽達默爾
留言
追蹤
檢舉
上一篇
Day-01-序幕
下一篇
Day-03-斷詞-詞向量
系列文
人工智慧X自然語言處理X資料科學
共7篇
目錄
RSS系列文
訂閱系列文
4人訂閱
3
Day-03-斷詞-詞向量
4
Day-04-詞嵌入向量-原理
5
Day-05-詞頻逆向檔案頻率
6
Day-06-語言學淺談
7
Day-07-斷詞
完整目錄
尚未有邦友留言
立即登入留言
iT邦幫忙鐵人賽
參賽組數
1087組
團體組數
52組
累計文章數
20454篇
完賽人數
572人
鐵人賽最新文章
建立第一個單元測試(golang)-2(Day21)
更新網格交易機器人
STM32的開發生態,Cube、HAL庫、LL庫
閒聊STM32CubeMX和STM32CubeIDE
建立第一個單元測試(golang)-1(Day20)
Day38-在AWSLambda中使用YOLO推估(Inference)
Day37-在AWSLambda建立OpenCVLayer
Day36-使用Container建立AmazonSageMaker端點
Day35-AmazonSageMaker簡介
今天來瞄一眼龍與雀的科技:知覺共享技術Body-sharing
前往鐵人賽
技術推廣專區
[Day2]抓取每日收盤價
[Day1]基本工具安裝
利用python取得永豐銀行API的Nonce
永豐金融API測試員
[Day03]tinyML開發板介紹
[Day01]在享受tinyML這道美食之前
[Day3]使用ta-lib製作指標
[Day4]函數打包與買進持有報酬率試算
計算API所需要的參數:HashID
計算API所需要的參數:IV
前往鐵人賽
熱門問題
請問這個錯在哪?
請問是否有人有使用過VisualStudioIDE??
AD五大角色轉移差異。
到底API設計的方向該往哪裡去?
[已解決]請益,每一筆商品資料內的圖片,儲存在資料庫內方式
請問如何把網頁製作成手機APP?
htmljavascript值存入PHP
資料庫的數值sum加總後,數值仍然會少算?!
MYSQL:如何計算每筆數據的移動平均值?
正航ERP跑傳票維護就轉圈圈久無反應...
IT邦幫忙
站方公告
2021iThome鐵人賽精彩文章超過2萬篇,預計12月揭曉本屆獲勝鐵人
熱門tag
看更多
13th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
2018鐵人賽
javascript
2017鐵人賽
windows
php
python
windowsserver
linux
c#
程式設計
資訊安全
css
vue.js
sql
分享
熱門回答
請問是否有人有使用過VisualStudioIDE??
請問這個錯在哪?
到底API設計的方向該往哪裡去?
急!傳值問題
htmljavascript值存入PHP
資料庫的數值sum加總後,數值仍然會少算?!
正航ERP跑傳票維護就轉圈圈久無反應...
請問如何把網頁製作成手機APP?
[已解決]請益,每一筆商品資料內的圖片,儲存在資料庫內方式
Adaptec5405Raid1E、5、5EE、6、10選擇性障礙
熱門文章
STM32的開發生態,Cube、HAL庫、LL庫
更新網格交易機器人
從PDF刪除水印的5種最佳方法
網路是怎樣連接的(十二)IP地址怎麼看
【徵才/台北松山區】Linux/Winserver系統維運工程師
YOLOv4模型訓練實作
碩士課程一問
701CLIENT門禁系統卡片無效
Java開發WEB的好平台--Grails--(4)建立第一個Controller
惡意程式(malware)
一週點數排行
更多點數排行
海綿寶寶(antijava)
raytracy(raytracy)
ccenjor(ccenjor)
Felix(redqi)
Mao(TutelaryMao)
緯大啊緯大人(mobetae47111)
rogeryao(rogeryao)
juck30808(juck30808)
一級屠豬士(hitomitanaka)
純真的人(jer5173)
×
At
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{result.label}}
{{result.account}}
關閉
延伸文章資訊
- 1中文斷詞(分詞)技術簡介 - Epic
「斷詞」,指的是能夠讓電腦把詞彙以「意義」為單位切割出來,例如以下句子:「我的興趣是看電影和讀書」,對電腦而言這樣的字串無法解析出有意義的單位例如 ...
- 2漢典“斷詞”詞語的解釋
斷詞”的解釋,成語解釋,國語辭典,網路解釋. ... 漢典. 斷詞 網路解釋. 百度百科. 斷詞. 斷詞:語言術語; 斷詞:本善本幻演唱歌曲. © 漢典. 【載入評論】 ...
- 3中文斷詞:斷句不要悲劇/ Head first Chinese text segmentation
3. 那,中文斷詞是什麼呢?簡單來說,就是讓電腦可以把中文詞彙以「意義」為單位切割出來,比如以「塵世中一個迷途小書僮」 ...
- 4[NLP 線上自學] D05 NLP 中文斷詞
斷詞(Tokenize):這個動詞的意思就是希望可以將一個句子藉由工程方式,切割成一個一個的字元。 英文(歐美語系) 和中文(東亞語系) 的斷詞有很大的 ...
- 5斷開中文的鎖鍊!自然語言處理(NLP) | 中研院訊
中研院資訊科學研究所的馬偉雲助研究員說明:以中文來說,最基本的,要先教電腦學會「斷詞」和「理解詞的意思」。 如何理解一種語言? 小時候學習中文,會 ...