大數據專題(三)/文字也是數據,語意分析掌握電腦背後的情感

文章推薦指數: 80 %
投票人數:10人

如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入 ... 泛科學 泛科技 娛樂重擊 泛科學院 泛科活動 泛科市集 泛讀app   繁|简 RSS訂閱 所有文章 專欄 特輯 趨勢閱讀 人物X趨勢 娛樂產業趨勢 產業動態 @泛讀App 所有文章 專欄 特輯 趨勢閱讀 人物X趨勢 娛樂產業趨勢 產業動態 @泛讀App 留言討論 分享本文至E-mail信箱 E-mail: 附註: PanX泛科技 分享 298 0 大數據專題(三)/文字也是數據,語意分析掌握電腦背後的情感 2016年06月16日 所有文章 AI,Bigdata,語意分析 文/李允誠 2013年時,哈利波特作者J.K.羅琳化名RobertGalbraith創作了一本偵探小說《Cuckoo》,評價雖高,銷量卻不好。

英國的電腦科學家透過語意分析技術,將此著作和羅琳以往寫作文本比對,發現寫作手法極為接近,這也讓J.K.羅琳為真實作者一事曝光,《Cuckoo》因此大受關注,立刻竄上亞馬遜暢銷榜第一名。

上述案例中,語意分析可謂關鍵角色,但語意分析究竟如何運作?如何快速解構文本類型的「大數據」?本篇專訪中,鑽研中文語意分析的意藍科技董事長楊立偉,從技術原理談到語意分析各種應用和挑戰,深入分析了語意分析背後的眉角。

意藍科技董事長楊立偉,圖片來源:作者自攝。

從單詞到文章,文本分析更深、更廣、更快 過去的資料探勘,大多侷限於結構化資料,像是論文、專利、論文、新聞稿等經過嚴謹撰寫完成的文章。

隨著社群網站興起,人們在網路上發表意見變得越來越容易、卻也更零碎、甚至參雜許多錯字讓電腦難以精準判讀。

而透過大數據為基礎發展演算法的語意分析,能夠分析非結構化的資訊,像是散文、小說等較無固定格式的文本,加深文本分析的廣度,同時納入圖片、影音各種非結構化資料所能提供的資訊。

假設你現在想查詢一個新聞事件,並分析網友、鄉民的看法,最直覺的方式便是利用Google進行關鍵字搜索,但這樣只能做到關鍵字比對,如此一來搜索出的資料將有幾百萬、幾千萬之譜,該如何進行整理、重點摘要?總不可能人工比對吧,這時,語意分析的優點便顯現出來了。

楊立偉表示,語意分析透過爬梳大量網路資料,每日能夠搜索60億筆中文字詞,快速找出每日重要資訊。

2014年5月時,越南發生排華暴動。

楊立偉以當時分析越南地區的中文內容為例,除了字詞分析,也利用了情感分析。

原先的文本內容大多為正面字詞,例如「建廠」、「投資」等等,但暴動當天開始出現許多負面字詞,例如「害怕」、「被砸」、「快跑」等等,情感分析的正負評比大為下滑。

相對於傳統媒體可能是透過駐越記者或是當地新聞媒體報導才得知相關資訊,語意分析利用網路輿情觀察,足足快了十小時掌握新聞事件。

範例引導進行教學,機器學習增加準確率 楊立偉解釋,演算法為了能做到通篇分析,多採用機器學習的方式,就像教小孩念書,透過範例引導,結合答案輔助,電腦便能找出其中關聯。

同時藉由資料庫的「語料」提供範例,輔以人工提供正確答案,電腦便能找出其中邏輯關係。

語意分析和關鍵字比對最大差異在於處理層級的不同。

除了比對單詞外,它能以閱讀的概念進行分析,從前後文、段落乃至通篇文章進行分析。

假設現在要分析「全家」便利商店的相關新聞,若以關鍵字比對,可能會抓出「全家一起玩」等無關字詞,但在語意分析下,此類句子會被過濾掉,只會抓出「全家推出新產品」等相關度較高的句子。

回家功課寫錯了要訂正,那語意分析錯了也要訂正嗎?「對於機器學習來說,我們只要告訴機器這樣的結果好不好,透過多次嘗試,機器會將不好與好的結果都學習下來,進而進行更準確的運算。

」 語意分析的多種應用 自動摘要 手機滑到一篇有興趣的文章,卻嫌文章太長不想看?透過語意分析,能夠找出一篇文章的重要字詞、摘要,讓人能短時間快速瞭解內文。

楊立偉說明,通篇文章中,機器會先挑出具有代表性、特殊意義的字詞,再找出相關字詞的句子、段落,將分析出的摘要列出來,最後以人工的方式給摘要打分,如此一來機器在多次嘗試學習下,高分的摘要會愈來愈多,藉此發展出自動摘要的應用程式。

以文找文 語意分析能透過文章中的重要、關鍵字詞,進而並找出相關文章。

例如Google新聞把相關性、類似的文章聚集,便是利用語意分析的技術。

廣告信偵測 以Gmail為例,語意分析能判斷一封信中是否包含廣告信的常用字詞,協助信箱進行篩選。

有時雖然也會誤判,但長時間下來,全世界的使用者亦會幫忙修正,不斷累積下,判斷準確率也愈來愈高。

意見分析與情感分析 分析企業在網路上的口碑、評價。

根據提到相關企業或產品的文章進行分析,篩選通篇文裡的正負面字詞,分析網友的觀點與情感。

並透過通篇上下文,加強判斷正負面情緒的判讀。

這項功能也能運用在企業客服中,偵測消費者的抱怨內容,轉介給適合處理的單位。

寫作輔助 機器與人工能共同創作,協助文本效正。

比如說台灣人若要以英文撰寫論文,語意分析便能幫助選詞、文法。

電腦問答 如同Siri,語意分析也能應用在人工智能對話,協助使用者利用問與答(Q&A)的方式找尋所需的資訊。

語意分析並非萬能,發展瓶頸和隱憂是? 語意分析並非百分百正確,目前仍多以機器學習的方式增加準確度,因此機器獲得的「語料」愈多愈好,也因此需要建立具大的資料庫,而系統的硬體設備也要有一定水準,才能快速進行分析。

除了硬體條件,語意分析現階段也仍需要以人工評量系統,為機器所分析出來的結果給與回饋與改善建議。

除了需要語言學家針對不同語系的慣用法進行審核,若遇到專業領域的文本、字詞,也需要請相關領域專家協助評量,這些都是現階段語意分析在人事上無法完全去除的因子。

「水能載舟,亦能覆舟。

」語意分析同時也可能會被用於造假、偽造。

楊立偉坦言,利用語意分析的演算法,許多人能夠設計出論文製造機等應用,雖然透過機器產生的論文或許可信度較低,但有心人仍能將其投稿到審查制度較寬鬆的學術期刊上,藉此奪得在學術期刊上發表的機會。

在隱私問題方面,楊立偉解釋,語意分析只會搜尋公開的貼文和訊息。

以臉書為例,只有公開帳號的文章會被納入分析,包含熱門粉絲頁、意見領袖、公開的個人頁。

目前台灣以中文為主的公開帳號約有六百萬個,都是語意分析的守備範圍。

災害通報、事件預防、預測,也是語意分析技術的努力目標,透過網友貼文,能夠在短時間內搜集大量的破碎訊息,組合成一完整資訊匯流,對於提供災害事件資訊、甚至是建立災害預測模型,都將大有助益。

「現在大數據的一大挑戰在於資料都存在不同的地方,因此『匯集』的角色更為重要。

」楊立偉強調,許多大數據都是在講單一企業的資料庫分析、應用,但真正重要的是跨企業、領域的資料整合,數據分析才能更兼顧深度與廣度。

封面圖片來源:Wikimedia 關於作者 PanX泛科技 PanX泛科技新聞網從科技議題著手,企圖把未來更清楚地描繪出來。

從能源議題、金融科技、生物科技,到物聯網、大數據、工業4.0、自造者,都是我們專注的內容。

若有任何見解歡迎向我們聯絡或投稿:contact[at]panx.asia 留言討論 延伸閱讀 大數據專題(一)/資料科學如何解決真實世界的問題? 大數據專題(二)/站在AI浪頭上:訓練電腦成為決策代理人的核心概念 大數據專題(四)/從演算法到金融交易,數學在資料科學中無所不在 熱門文章 不只室外有空污,室內的空氣危害不可不知 編輯室報告 桃園新創團隊深耕台灣放眼國際 最新選書 知識內容寫作課:寫一篇真材實料的網路爆紅好文章 最新文章 不只室外有空污,室內的空氣危害不可不知 【活動現場】啟動電商環保革命PackAge+的網購市場循環經濟課 【活動現場】永續下十年:循環設計你的理想生活型態 Netflix華語原創劇《極道千金》:在《罪夢者》出了截然不同的第二招,但會... 專訪/《糖糖Online》監製於蓓華X導演簡學彬:用兒少題材開拓台劇在國際市... x 訂閱 最新訊息 泛科知識 泛科學 泛科技 娛樂重擊 泛科學院 泛科活動 泛科市集 泛讀 ©COPYRIGHT2015 關於我們 隱私權政策 徵稿 招募 廣告規範 連絡我們 內容夥伴 -請選擇- 關於我們 隱私權政策 徵稿 招募 廣告規範 連絡我們 內容夥伴 FOLLOWUS 網站更新隱私權聲明 本網站使用cookie及其他相關技術分析以確保使用者獲得最佳體驗,通過我們的網站,您確認並同意本網站的隱私權政策更新,了解最新隱私權政策。

我知道了



請為這篇文章評分?