文字挖掘- 維基百科,自由的百科全書
文章推薦指數: 80 %
本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析。
目次. 1 文本挖掘與文本分析; 2 歷史 ...
文字挖掘
維基百科,自由的百科全書
跳至導覽
跳至搜尋
此條目可參照英語維基百科相應條目來擴充。
(2019年5月9日)若您熟悉來源語言和主題,請協助參考外語維基百科擴充條目。
請勿直接提交機械翻譯,也不要翻譯不可靠、低品質內容。
依版權協議,譯文需在編輯摘要註明來源,或於討論頁頂部標記{{Translatedpage}}標籤。
文字挖掘(Textmining)有時也被稱為文字探勘、文字資料探勘等,大致相當於文字分析,一般指文字處理過程中產生高品質的資訊。
高品質的資訊通常通過分類和預測來產生,如圖型識別。
文字挖掘通常涉及輸入文字的處理過程(通常進行分析,同時加上一些衍生語言特徵以及消除雜音,隨後插入到資料庫中),產生結構化資料,並最終評價和解釋輸出。
'高品質'的文字挖掘通常是指某種組合的相關性,新穎性和趣味性。
典型的文字挖掘方法包括文字分類,文字聚類,概念/實體挖掘,生產精確分類,觀點分析,文件摘要和實體關係模型(即,學習已命名實體之間的關係)。
文字分析包括了資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤\注釋、資訊抽取,資料探勘技術包括連結和關聯分析、視覺化和預測分析。
本質上,首要的任務是,通過自然語言處理(NLP)和分析方法,將文字轉化為資料進行分析。
目次
1文本挖掘與文本分析
2歷史
3文本分析過程
4應用
4.1安全應用
4.2生物醫學應用
4.3軟體應用
4.4在線媒體應用
4.5營銷應用
4.6情感分析
4.7學術應用
4.8數位人文學與計算社會學
5軟體和應用
5.1開源軟體和應用
6智慧財產權法與文本挖掘
7影響
8注釋
9參考資料
10更多連結
文字挖掘與文字分析[編輯]
歷史[編輯]
勞工密集型的人工純文字挖掘方法最早出現在20世紀80年代中期,但在過去的十年中,技術的進步已經使這一領域迅速取得進展。
文字挖掘已經是資訊檢索、資料探勘、機器學習、統計以及計算語言學等學科中的重要領域。
由於目前的大多數資訊(80%)是以文字的形式來儲存,文字挖掘被認為具有較高的商業潛在價值。
多語種資料探勘已經越來越多的引起人們的興趣:能夠根據自己的意願從跨語種的文字來源中挖掘出有用的資訊。
文字分析過程[編輯]
應用[編輯]
安全應用[編輯]
許多文字挖掘的軟體套件是面對安全裝置的。
它們多數是出於國家安全的的目的,監視和分析類似於網際網路新聞、部落格等的線上純文字。
[1]對文字挖掘的研究還被包含在文字解密的領域中。
生物醫學應用[編輯]
軟體應用[編輯]
線上媒體應用[編輯]
行銷應用[編輯]
情感分析[編輯]
學術應用[編輯]
數位人文學與計算社會學[編輯]
軟體和應用[編輯]
開源軟體和應用[編輯]
Weka工具http://www.cs.waikato.ac.nz/ml/weka/(頁面存檔備份,存於網際網路檔案館)
智慧財產權法與文字挖掘[編輯]
影響[編輯]
注釋[編輯]
^Zanasi,Alessandro.ProceedingsoftheInternationalWorkshoponComputationalIntelligenceinSecurityforInformationSystemsCISIS'08.AdvancesinSoftComputing53:53.2009.ISBN 978-3-540-88180-3.doi:10.1007/978-3-540-88181-0_7.
參考資料[編輯]
RonenFeldmanandJamesSanger,TheTextMiningHandbook,CambridgeUniversityPress,ISBN9780521836579
KaoAnne,Poteet,SteveR.(Editors),NaturalLanguageProcessingandTextMining,Springer,ISBN184628175X
KonchadyManu"TextMiningApplicationProgramming(ProgrammingSeries)"byManuKonchady,CharlesRiverMedia,ISBN1584504609
M.Ikonomakis,S.Kotsiantis,V.Tampakas,TextClassificationUsingMachineLearningTechniques,WSEASTransactionsonComputers,Issue8,Volume4,August2005,pp.966-974(https://web.archive.org/web/20081203004649/http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final%20journal.pdf)
更多連結[編輯]
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/(頁面存檔備份,存於網際網路檔案館)MUC
http://projects.ldc.upenn.edu/ace/(頁面存檔備份,存於網際網路檔案館)ACE(LDC)
https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ACE(NIST)
https://web.archive.org/web/20070928002315/http://www.arts-humanities.net/text_mining(Discussiongrouptextmining)
TextAnalysisPortalforResearch(TAPoR)
http://textanalytics.wikidot.com/(頁面存檔備份,存於網際網路檔案館)TextAnalyticsWiki
Gettingstartedintextmining(頁面存檔備份,存於網際網路檔案館)
PimientoAText-MiningApplicationFrameworkwritteninJava.
規範控制
NDL:01119322
取自「https://zh.wikipedia.org/w/index.php?title=文本挖掘&oldid=69179014」
分類:人工智慧應用數據挖掘計算語言學隱藏分類:自2019年5月需要從英語維基百科翻譯的條目需要從英語維基百科翻譯的條目包含NDL標識符的維基百科條目使用ISBN魔術連結的頁面
導覽選單
個人工具
沒有登入討論貢獻建立帳號登入
命名空間
條目討論
臺灣正體
已展開
已摺疊
不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體
查看
閱讀編輯檢視歷史
更多
已展開
已摺疊
搜尋
導航
首頁分類索引特色內容新聞動態近期變更隨機條目資助維基百科
說明
說明維基社群方針與指引互助客棧知識問答字詞轉換IRC即時聊天聯絡我們關於維基百科
工具
連結至此的頁面相關變更上傳檔案特殊頁面靜態連結頁面資訊引用此頁面維基數據項目
列印/匯出
下載為PDF可列印版
其他專案
維基共享資源
其他語言
العربيةБългарскиBosanskiČeštinaDeutschΕλληνικάEnglishEspañolEestiEuskaraفارسیFrançaisMagyarBahasaIndonesiaItaliano日本語NederlandsPolskiPortuguêsРусскийSlovenščinaSvenskaไทยTürkçeУкраїнськаTiếngViệt
編輯連結
延伸文章資訊
- 1读完本文你就了解什么是文本分析
定量分析是理解非语言数据的起点; 另一方面,非结构的文本变成丑陋表格数据的过程,出于统计分析或机器学习目的,我们经常质疑这一过程丢失了什么 ...
- 2什麼是文本分析,文本分析主要運用到了哪些關鍵技術?
文本分析是指文本中抽取特徵詞進行量化以表示文本信息。 文本一般指文字。 它是自然語言處理的一個小分支,自然語言處理還包括語音識別(常見的)等。
- 3內容分析、文本分析、敘說分析的差異/ The Difference ...
- 4中共「文本」之閱讀與解釋方法論教學大綱 - 政治大學
(二)文本的定義:A text is any discourse fixed by writing,by talking or by ... 4、文本分析(textual analysis):瞭...
- 5內容分析法- 维基百科,自由的百科全书
內容分析法(Content analysis),又稱為文本分析(textual analysis)。運用於18世紀的瑞典,自1930年隨著宣傳分析和傳播研究的發展而興起。