讀完本文你就瞭解什麼是文本分析
文章推薦指數: 80 %
缺少增強的詢問技術或頭腦閲讀技術來識別政治和社會行為者的偏好,信念,意圖,偏見或個性,下一個最佳選擇是根據其説話或書寫的內容來收集和分析數據。
MdEditor
讀完本文你就瞭解什麼是文本分析
語言:CN/TW/HK
時間 2020-05-2619:23:07
大鄧和他的Python
主題:
文本分析
文章較長,建議先收藏有時間再閲讀~
插播一個廣吿《Python網絡爬蟲與文本數據分析》視頻課程中對本文中的絕大部分技術都有講解~
一、文本的作用
文本涉及兩個主體,即文本生產者和文本消費者:
文本生產者:生成文本的主體;傳遞生產者想表達的內容,可能也會潛在藴含着生產者的一些特質屬性
文本消費者:閲讀文本的主體;消費者閲讀這段文本時,文本又對消費者認知活動產生影響。
在大數據的今天,通過互聯網超文本鏈接,無數的個人、團體、公司、政府等不同組織形態的主體均深深嵌入到互聯網世界,在網絡世界中留下了大量的文本。
社會、管理、經濟、營銷、金融等不同學科,均可以研究網絡上海量的文本,擴寬的研究對象和研究領域。
下面大部分內容是從政治學和經管領域的兩份文檔翻譯來,我覺得講的挺明白的,其中加入了我的一些理解和擴充。
二、理解文本
textastext原始的文本,定性的文本
textualdata(textasdata) 量化後的文本數據,可定量
2.1textastext
textastext原始的文本,定性的文本
文本的重點是傳遞着某種東西,從某種意義上説,所有形式的文本都包含可以被視為數據形式的信息。
因此,文本總是以某種方式提供信息(即使我們不瞭解如何操作)。
但是,言語活動的主要目標不是記錄信息,而是進行交流:傳達思想,指令,查詢等。
我們可以記錄下來並將其視為數據,但是將我們的想法或思想表達為單詞和句子的目的主要是交流,而不是將我們的想法或思想記錄為數據形式。
大多數數據是這樣的:它表徵的活動與數據本身完全不同。
例如,在經濟學中,可能是我們想要刻畫的經濟交易(使用價值媒介交換商品或服務),而數據是以某種聚合形式對這些交易進行抽象,這有助於我們理解交易的意義。
通過就抽象的相關特徵達成共識,我們可以記錄並分析人類活動,例如製造業,服務業或農業。
從通信行為中提取文本數據特徵的過程遵循相同的過程,但有一個主要區別:由於原始文本可以直接通過記錄的語言與我們交談,因此文本首先不需要進行處理或抽象化待分析。
但是,我在這裏的論點是,特徵抽象的過程是將文本視為數據而不是直接將其視為文本的方法的獨特之處。
具有諷刺意味的是,只有當我們破壞了直接理解文本的能力時,才有可能利用文本的數據獲取洞察力。
為了使它作為數據有用,我們必須消除原始文本的結構,將文本轉換為結構化的表格數據。
定量分析是理解非語言數據的起點;另一方面,非結構的文本變成醜陋表格數據的過程,出於統計分析或機器學習目的,我們經常質疑這一過程丟失了什麼信息。
機器是愚蠢的,但是將文本視為數據意味着讓愚蠢的機器處理並可能分析我們的文本。
關鍵是,為了將文本作為數據而不是文本僅僅是文本,我們必須破壞原始文本的直接可解釋性,但目的是從其樣式化特徵中進行更系統,更大規模的推斷。
我們應該堅定不移地認識到這一過程,但也不要因此而寢食不安,因為將文本作為數據進行分析的重點永遠不是解釋數據而是挖掘其深層次的模式。
數據挖掘是一個破壞性的過程-隨便問問哪個礦山-為了開採其寶貴資源,開採礦產資源不可避免會破壞地表形態和環境。
2.2Latentversusmanifestcharacteristicsfromtextualdata
textualdata(textasdata) 量化後的文本數據,可定量的數據。
所以小標題我翻譯為“量化後的文本數據隱藏的信息vs直觀可見的信息”,
在政治學領域,我們通常最感興趣的不是文本本身,而是文本透漏給我們有關作者的一些隱藏特性。
在政治(以及心理學)研究中,我們有關政治和社會行為者的一些重要理論,很多時候直接觀察行為活動很難觀察到其內在的品質。
例如,意識形態是研究政治競爭和政治偏好的基礎,但是我們沒有直接的衡量工具來記錄個人或政黨有關“社會和道德自由政策與保守政策”的相對偏好。
其他偏好,包括支持或反對特定政策,如1846年廢除了英國的《玉米法》(Schonhardt-Bailey,2003年);在關於《萊肯公約》的辯論中支持或反對進一步的歐洲一體化(Benoit等,2005);再比如支持或反對不信任運動(Laver和Benoit,2002年)。
這些偏好是作為政治行為者的內部狀態而存在的,無論這些行為者是立法者,政黨,代表還是候選人,都無法直接觀察。
非言語行為指標也可用於推斷這些信息,但事實表明,政治行為者所説的話比其他行為形式更為真誠。
因此,文本數據(Textualdata)可能包含有關取向和信念的重要信息,對於這些取向和信念,非語言形式的行為可能會充當不良指標。
長期以來,心理學領域也一直將言語行為作為可觀察到的潛在興趣狀態的暗示,例如人格特質(例如Tausczik和Pennebaker,2010年)。
缺少增強的詢問技術或頭腦閲讀技術來識別政治和社會行為者的偏好,信念,意圖,偏見或個性,下一個最佳選擇是根據其説話或書寫的內容來收集和分析數據。
關注的對象不是文本包含的內容,而是其內容作為有關潛在特徵的數據所揭示的內容,這些潛在特徵為其提供了可觀察的含義。
最後一句話比較難理解,可以理解為萬事萬物有聯繫,通過聯繫思維來挖掘文本中的信息。
文本數據(Textualdata)還可能具有較為明顯的特徵,例如,政治傳播的許多領域都與文本所指出的潛在特徵無關,而與文本本身所包含的傳播形式和性質有關。
舉一個經典的例子,在一個著名的政治局委員對斯大林誕辰70週年之際的文章的研究中,萊特斯,伯努特和加索夫(1951)能夠衡量各團體在共產主義意識形態方面的差異。
在這一政治事件中,這些信息不僅預示了潛在的方向,而且還預示了在可預見的斯大林死後事件中有關領導權鬥爭的某種政治動作。
這些信息本身是重要的,這些信息只能從每個政治局委員撰寫的公開文章中搜集而來,它們必須充分了解將在黨和蘇聯蘇維埃新聞,並由其他政權參與者解釋為信號。
再舉一個例子,如果我們對一個政治演説家是使用民粹主義還是種族主義語言感興趣,那麼該語言將直接以民粹主義或種族主義術語或參考形式出現在文本中,而要緊的是它們是否被使用。
與其説這些術語代表什麼,不如説是什麼。
例如Jagers和Walgrave(2007)在研究比利時政黨的政黨政治廣播時,發現極右翼政黨VlaamsBlok所使用的民粹詞語遠比其他比利時政黨豐富的多。
在實踐中,從文本可觀察到的明顯特徵與潛在特徵之間的特徵的有時候這兩個概念區分的並不明顯。
舉例來説,文體風格可以用一些明顯的特徵詞對文本進行量化,體現出作者的一些寫作偏好。
例如,在使用適用於政治文本的可讀性度量改編的研究中,我們可能會對政治成熟度的潛在水平感興趣,這可以用來衡量説話者的意圖或説話者的特徵,這一點從觀察到的文本樣本中可以看出。
或者,我們可能會對它們在可讀性上的明顯差異感興趣,這是傳播媒介更直接指標。
例如,在對英國議會歷史演講的研究中,Spirling(2016)將19世紀末期向簡單語言的轉變歸因於廣播擴展特許經營的民主化效應。
Benoit,Munger和Spirling(2019)使用類似的措施,比較了同一位總統當天在同一天發表的美國總統國情諮文演講的樣本,但其口頭和書面形式均表明口頭形式使用的語言較為簡單。
前一項研究可能對語言的易用性感興趣,該語言的易用性是政治代表制更潛在的特徵的指標,而後一項分析可能更側重於交付媒介的明顯後果。
對於許多使用文本數據的研究設計而言,區別更多是研究目標的問題,而不是結構化和分析文本數據的某些內在方式。
2.3文本分析的步驟
完整的文本分析步驟包括:
讀取數據
分詞(中文必須有這一步,由於英文是空格間隔的語言,英文有時候不需要分詞)
剔除符號和無意義的停止詞
字母變小寫,詞幹化
使用一定的編碼方式構建文檔詞頻矩陣
三、常見的文本分析技術有
主題分析(Thematicanalysis)
內容分析(contentanalysis)
基於詞典的方法(dictionaryanalysis)
文本向量化(Bag-of-words)
監督學習如SVM、Bayes和Regression
無監督學習,如LDA話題模型
自然語言處理
上述文本分析技術,按照人與機器參與程度,繪製在下圖。
一般來説,越向右,文本分析技術的自動化程度越高,需要注意的是自動化越高,並不代表人的工作量就越少。
3.1主題分析ThematicAnalysis
主題分析(Thematicanalysis)是一種專家方法,一般與紮根理論方法相結合(Baumer,Mimno,Guha,Quan,&Gay,2017)。
紮根理論與主題分析的理念是基於專家自身經驗和對世界的理解,做出對數據的見解,從而構建新理論。
主題分析常見於組織科學和傳播學(Gioia,Corley,&Hamilton,2013;Strauss&Corbin,1998)。
主題分析涉及一個反覆迭代的過程,在此過程中,研究人員將開發出一系列源自文本的代碼和類別。
除非要精煉理論,否則一般在分析開始之前尚不知道類別。
在這種情況下,數據分析需要對文獻和數據進行不斷的比較。
研究人員從參與者自己的語言開始(稱為“一階編碼”或“開放式編碼”;Gioia等人,2013;Strauss&Corbin,1998)
然後將相似的代碼歸為一類(稱為“二階代碼”或“主軸編碼”;Strauss&Corbin,1998)。
諸如NVivo和ATLAS.ti之類的計算機軟件可以幫助簡化上述過程,但文本的分類通常依賴於人類編碼衍生的類別的操作定義,計算機自動化的程度依舊很低,分析的數據量通常不大。
而且編碼過程對編碼者的要求嚴格,通常是對該領域有較深理解的人才適合做此類工作。
3.2內容分析/基於詞典的方法法
內容分析和其他基於字典的方法通常是通過對特定文本中單詞/詞組的頻率計數進行的(Reinard,2008;Short,Broberg,Cogliser&Brigham,2010)。
因為按照這種方法,文本數據被壓縮成詞組頻數,定性的文本數據轉化為定量的頻數,索引可用於回答更多以定量為導向的研究問題(McKenny等,2016;Reinard,2008)。
比如進行文本情感分析,我們可以用很簡單的思路。
即統計文本中正面詞出現的總數和負面詞出現的總數,得出文本的情感值。
而在此分析過程中,我們需要事先擁有一個正面詞詞典和負面詞詞典。
是否有成熟的領域詞典、或者構建領域詞典,這需要研究者對研究問題和研究的數據有一定的領域知識,工作量也會因是否有詞典而不同。
一般有現成的成熟的詞典,計算機自動化程度高,人工工作量低。
與主題分析類似,計算機軟件可以協助內容分析過程。
像DICTION這樣的程序會使用分類字典自動對文本評分(即,根據單詞或n-gram而非操作定義確定主題)。
可以與主題分析類似地使用其他程序,例如NVivo或ATLAS.ti,在主題分析中,通過軟件的幫助手動進行編碼和分類,以組織數據。
3.3詞袋法Bag-of-words
文本數據是非結構化的定性數據,計算機並不能直接使用。
我們需要按照計算機容易理解的方式去組織數據,類似於上圖的第一步驟,四段英文文本被組織成一個文檔特徵矩陣(document-feature-matrix),矩陣中
每一行代表一個英文文檔
每一個列代表一個特徵詞
3.3.1詞袋法vs主題分析中的編碼者
為了理解詞袋法,可以類比主題分析中的編碼者。
我們可以將詞袋法看做是一個死板的,不知變通的人,腦子很簡單,只知道統計特徵詞在每個文檔中出現的詞頻。
那麼據此我們就知道詞袋法和人的優缺點。
對於詞袋法,優點是規則標準統一,缺點是不知變通,犧牲了文本中很多的信息量。
強調編碼過程的高標準,犧牲了分析的深度。
對於研究者參與主題分析這樣的編碼過程,優點是研究者有很強的領域知識和強大的洞察力,可以靈活洞察規律,缺點是每個研究者都具有特殊的經歷和偏好,編碼標準不統一。
用研究者編碼的過程,強調編碼的深度和質量,犧牲了編碼分析過程的標準性。
3.3.2詞袋法的用途
詞袋法編碼是計算科學領域對文本數據的簡化和壓縮的方法,後續可以據此進行監督學習和無監督學習。
3.4監督學習
在有監督的方法中,研究人員事先知道ta正在尋找什麼(羅伯茨等,2014)。
比如要判斷論文的作者身份這個問題,研究人員為程序提供輸入(在這種情況下為文本)和輸出(例如,文本作者的身份),然後系統創建一種算法來映射兩者之間的聯繫(Janasik,Honkela和Bruun,2009年)。
MostellerandWallace(1963)通過使用簡單的貝葉斯單詞概率來預測12篇有爭議的聯邦主義者論文(詹姆斯·麥迪遜或亞歷山大·漢密爾頓)的作者身份。
如今,樸素貝葉斯(Bayes)和支持向量機(SVM)等技術是用於文本分析的流行的監督算法(Manning,Prabhakar和Hinrich,2008年)。
3.5無監督學習
無監督算法,如主題分析(Janasik等,2009)可識別數據中的單詞簇和主題。
但是,與主題分析不同,主題建模使用高度自動化的方法來確定重要主題,分析過程所需的時間和領域知識相對較少。
儘管人類的洞察力仍然對幫助解釋出現的主題很重要,主題建模適合分析大規模文本數據(Kobayashi1,Mol,Berkers,Kismihok和DenHartog,2017)。
主題建模利用了主題分析(即人類洞察力、解釋力)和機器學習(即快速分析大量文本)的優勢。
3.6自然語言處理
最後,自然語言處理(NaturalLanguageProcessing)通常是文本分析中自動化程度最高的形式(有關綜述,請參閲Manning等人,2008)。
這種方法模擬了人類如何理解和處理語言(Chowdhury,2003;Collobert等,2011;Joshi,1991)。
例如,NLP技術可以標記句子中單詞的詞性(例如,名詞,形容詞等),將文檔從一種語言翻譯成另一種語言,甚至使用句子的上下文來闡明詞語的詞義(Buntine&Jakulin,2004年)。
因此,與詞袋法不同,NLP認為單詞順序很重要。
當使用訓練集時,使用深度學習和多模式(即結合文本和圖像)等尖端技術進行情感分析是NLP的一種流行形式(Kouloumpis,Wilson和Moore,2011)。
這種特殊的分析將文本的總體態度,情感或觀點分類為肯定,否定或中立。
與主題分析形成鮮明對比的是,自然語言處理是一個完全計算機自動化的過程,因此幾乎不需要人類的理解和或解釋(Quinn等人,2010)。
此外,相對於需要人工編碼(例如,主題分析)的技術,NLP的執行速度非常快,並且比其他方法更具系統性。
例如,計算機科學,信息科學,語言學和心理學的研究人員利用NLP作為文本分析工具(Chowdhury,2003年)。
大鄧提醒一下,自然語言處理屬於人工智能範疇,人工智能技術沒有那麼神,我們應該將其理解為“人工”+“智能”可能更妥當一些,即數據準備階段用大量的人工時對數據進行標註,產生訓練數據集合。
之後藉助於計算機的“智能”學習數據集中的規律,因此人工智能脱離了人工標註數據的餵養,只能做很簡單的事情,更像是人工智障。
3.7不同文本分析技術彙總對比
3.8Python能做哪些?
計算機能做的文本分析,Python都能做到,包括
基於詞典的分析法;如基於詞典法的情感計算
詞袋法;可以進行文本相似度計算
有監督機器學習;如基於機器學習的情感分析;文本分類
無監督機器學習;lda話題模型對文本進行話題分析
自然語言處理;考慮詞語順序的LSTM
除了自然語言處理部分,四種方法在我的《Python網絡爬蟲與文本數據分析》視頻課程中都有相關的講解和實戰代碼
相關文獻
[1]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."JournalofMarketing(2019):0022242919873106.
[2]KennethBenoit.July16,2019.“[TextasData:AnOverview](https://kenbenoit.net/pdfs/28BenoitTextasDatadraft2.pdf).”ForthcominginCuirini,LuigiandRobertFranzese,eds.HandbookofResearchMethodsinPoliticalScienceandInternationalRelations.ThousandOaks:Sage.
[3]Banks,GeorgeC.,HaleyM.Woznyj,RyanS.Wesslen,andRoxanneL.Ross."AreviewofbestpracticerecommendationsfortextanalysisinR(andauser-friendlyapp)."JournalofBusinessandPsychology33,no.4(2018):445-459.
往期文章
Pandas時間序列數據操作
readability:英文文本數據可讀性庫
Matplotlib可視化教程~
Matplotlib中的plt和ax都是啥?
70G上市公司定期報吿數據集
5個小問題帶你理解列表推導式
文本數據清洗之正則表達式
Python網絡爬蟲與文本數據分析
綜述:文本分析在市場營銷研究中的應用
如何批量下載上海證券交易所上市公司年報
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以無縫銜接Bokeh
YelpDaset:酒店管理類數據集10+G
先有收穫,再點在看!
「其他文章」
Easyocr|3行代碼識別圖片中的任意語言文字
類別數據時序可視化|PyCatFlow庫
案例實戰|企業信息數據採集
中文語義常用詞典|ChineseSemanticKB
Backtrader庫|均線買入賣出策略實現
文本可讀性研究及應用清單
一本書掌握Python強大的繪圖庫Matplotlib
在會計研究中使用Python進行文本分析
視頻專欄課|Python網絡爬蟲文本分析
4000字歸納總結PandasSklearn帶你做數據預處理
30個適合練手的Python項目|推薦
Easyocr-3行代碼識別圖片中的任意語言文字
推薦|cntext中文文本分析庫
這5個pandas調用函數的方法,讓我的數據處理更加靈活自如
使用matplotlib繪製超可愛超萌化的圖表
BERTopic主題建模庫|建議收藏
建議收藏|nltk和spacy配置方法
一文入門數分三劍客--Numpy、Pandas、Matplotlib
Word2Vec的算法推導、實現
SHAP|機器學習模型解釋庫
「文本分析」
Easyocr|3行代碼識別圖片中的任意語言文字
中文語義常用詞典|ChineseSemanticKB
Backtrader庫|均線買入賣出策略實現
在會計研究中使用Python進行文本分析
達觀數據中標泰康保險集團客服文本分析建設項目助力世界500強客服智能化
視頻專欄課|Python網絡爬蟲文本分析
推薦|cntext中文文本分析庫
從整體視角瞭解情感分析、文本分類!
調用百度API對文本進行情感傾向分析(下)
調用百度API對文本進行情感傾向分析(上)
延伸文章資訊
- 1內容分析、文本分析、敘說分析的差異/ The Difference ...
儘管都是文本型資料(註),但是根據研究目的的不同,研究的方式也有很大的差異。 ... Content Analysis 內容分析; Textual Analysis文本分析 ...
- 2中共「文本」之閱讀與解釋方法論教學大綱 - 政治大學
(一)前言:文本或檔案?text?document?or writing article? ... 4、文本分析(textual analysis):瞭解作者的原意 ... 1、作為分類目的的閱...
- 3「文本分析」意味著什麼? 1 - ASH
作為文本分析,原本被認為是取得知識的橋樑,被認為必須熟練,但那終究不會是目的,必須在最後擺脫,進入更抽象的哲學領悟與思辨活動,相對的原本的 ...
- 4什麼是文本分析
斷字斷句(非結構化轉結構化):`將文本轉換成可供分析使用的單詞。 textual analysis; 資料分析:根據本次分析目的建立相關模型。
- 5文本分析_百度百科
因此,由文本內容分析,可以推斷文本提供者的意圖和目的。 中文名. 文本分析. 外文名. text analysis. 定義. 符號或符 ...