文字挖掘- 維基百科,自由的百科全書

文章推薦指數: 80 %
投票人數:10人

本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析。

目次. 1 文本挖掘與文本分析; 2 歷史 ... 文字挖掘 維基百科,自由的百科全書 跳至導覽 跳至搜尋 此條目可參照英語維基百科相應條目來擴充。

(2019年5月9日)若您熟悉來源語言和主題,請協助參考外語維基百科擴充條目。

請勿直接提交機械翻譯,也不要翻譯不可靠、低品質內容。

依版權協議,譯文需在編輯摘要註明來源,或於討論頁頂部標記{{Translatedpage}}標籤。

文字挖掘(Textmining)有時也被稱為文字探勘、文字資料探勘等,大致相當於文字分析,一般指文字處理過程中產生高品質的資訊。

高品質的資訊通常通過分類和預測來產生,如圖型識別。

文字挖掘通常涉及輸入文字的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中),產生結構化資料,並最終評價和解釋輸出。

'高品質'的文字挖掘通常是指某種組合的相關性,新穎性和趣味性。

典型的文字挖掘方法包括文字分類,文字聚類,概念/實體挖掘,生產精確分類,觀點分析,文件摘要和實體關係模型(即,學習已命名實體之間的關係)。

文字分析包括了資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤\注釋、資訊抽取,資料探勘技術包括連結和關聯分析、視覺化和預測分析。

本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析。

目次 1文本挖掘與文本分析 2歷史 3文本分析過程 4應用 4.1安全應用 4.2生物醫學應用 4.3軟體應用 4.4在線媒體應用 4.5營銷應用 4.6情感分析 4.7學術應用 4.8數位人文學與計算社會學 5軟體和應用 5.1開源軟體和應用 6智慧財產權法與文本挖掘 7影響 8注釋 9參考資料 10更多連結 文字挖掘與文字分析[編輯] 歷史[編輯] 勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期,但在過去的十年中,技術的進步已經使這一領域迅速取得進展。

文字挖掘已經是資訊檢索、資料探勘、機器學習、統計以及計算語言學等學科中的重要領域。

由於目前的大多數資訊(80%)是以文字的形式來儲存,文字挖掘被認為具有較高的商業潛在價值。

多語種資料探勘已經越來越多的引起人們的興趣:能夠根據自己的意願從跨語種的文字來源中挖掘出有用的資訊。

文字分析過程[編輯] 應用[編輯] 安全應用[編輯] 許多文字挖掘的軟體套件是面對安全裝置的。

它們多數是出於國家安全的的目的,監視和分析類似於網際網路新聞、部落格等的線上純文字。

[1]對文字挖掘的研究還被包含在文字解密的領域中。

生物醫學應用[編輯] 軟體應用[編輯] 線上媒體應用[編輯] 行銷應用[編輯] 情感分析[編輯] 學術應用[編輯] 數位人文學與計算社會學[編輯] 軟體和應用[編輯] 開源軟體和應用[編輯] Weka工具http://www.cs.waikato.ac.nz/ml/weka/(頁面存檔備份,存於網際網路檔案館) 智慧財產權法與文字挖掘[編輯] 影響[編輯] 注釋[編輯] ^Zanasi,Alessandro.ProceedingsoftheInternationalWorkshoponComputationalIntelligenceinSecurityforInformationSystemsCISIS'08.AdvancesinSoftComputing53:53.2009.ISBN 978-3-540-88180-3.doi:10.1007/978-3-540-88181-0_7.  參考資料[編輯] RonenFeldmanandJamesSanger,TheTextMiningHandbook,CambridgeUniversityPress,ISBN9780521836579 KaoAnne,Poteet,SteveR.(Editors),NaturalLanguageProcessingandTextMining,Springer,ISBN184628175X KonchadyManu"TextMiningApplicationProgramming(ProgrammingSeries)"byManuKonchady,CharlesRiverMedia,ISBN1584504609 M.Ikonomakis,S.Kotsiantis,V.Tampakas,TextClassificationUsingMachineLearningTechniques,WSEASTransactionsonComputers,Issue8,Volume4,August2005,pp.966-974(https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf) 更多連結[編輯] http://www.itl.nist.gov/iaui/894.02/related_projects/muc/(頁面存檔備份,存於網際網路檔案館)MUC http://projects.ldc.upenn.edu/ace/(頁面存檔備份,存於網際網路檔案館)ACE(LDC) https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ACE(NIST) https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining(Discussiongrouptextmining) TextAnalysisPortalforResearch(TAPoR) http://textanalytics.wikidot.com/(頁面存檔備份,存於網際網路檔案館)TextAnalyticsWiki Gettingstartedintextmining(頁面存檔備份,存於網際網路檔案館) PimientoAText-MiningApplicationFrameworkwritteninJava. 規範控制 NDL:01119322 取自「https://zh.wikipedia.org/w/index.php?title=文本挖掘&oldid=69179014」 分類:人工智慧應用數據挖掘計算語言學隱藏分類:自2019年5月需要從英語維基百科翻譯的條目需要從英語維基百科翻譯的條目包含NDL標識符的維基百科條目使用ISBN魔術連結的頁面 導覽選單 個人工具 沒有登入討論貢獻建立帳號登入 命名空間 條目討論 臺灣正體 已展開 已摺疊 不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體 查看 閱讀編輯檢視歷史 更多 已展開 已摺疊 搜尋 導航 首頁分類索引特色內容新聞動態近期變更隨機條目資助維基百科 說明 說明維基社群方針與指引互助客棧知識問答字詞轉換IRC即時聊天聯絡我們關於維基百科 工具 連結至此的頁面相關變更上傳檔案特殊頁面靜態連結頁面資訊引用此頁面維基數據項目 列印/匯出 下載為PDF可列印版 其他專案 維基共享資源 其他語言 العربيةБългарскиBosanskiČeštinaDeutschΕλληνικάEnglishEspañolEestiEuskaraفارسیFrançaisMagyarBahasaIndonesiaItaliano日本語NederlandsPolskiPortuguêsРусскийSlovenščinaSvenskaไทยTürkçeУкраїнськаTiếngViệt 編輯連結



請為這篇文章評分?