jieba分詞中用到的TF-IDF演算法的介紹 - 程式人生
文章推薦指數: 80 %
注:利用jieba分詞進行關鍵詞抽取(選擇TF-IDF演算法). 這裡介紹基於TF-IDF演算法的關鍵詞抽取(乾貨|詳解自然語言處理之TF-IDF模型和python實現), ...
程式人生>>jieba分詞中用到的TF-IDF演算法的介紹
jieba分詞中用到的TF-IDF演算法的介紹
阿新••發佈:2018-12-14
注:利用jieba分詞進行關鍵詞抽取(選擇TF-IDF演算法)
這裡介紹基於TF-IDF演算法的關鍵詞抽取(乾貨|詳解自然語言處理之TF-IDF模型和python實現),只有關鍵詞抽取並且進行詞向量化之後,才好進行下一步的文字分析,可以說這一步是自然語言處理技術中文字處理最基礎的一步。
jieba分詞中含有analyse模組,在進行關鍵詞提取時可以使用下列程式碼
#練習使用scikit-learn包計算TF-IDF,可以見(乾貨|詳解自然語言處理之TF-IDF模型和python實現)
fromsklearn.feature_extraction.textimportTfidfTransformer
fromsklearn.feature_extraction.textimportCountVectorizer
fromsklearn.feature_extraction.textimportTfidfVectorizer
deftfidf_keywords():
#00、讀取檔案,一行就是一個文件,將所有文件輸出到一個list中
corpus=[]
forlineinopen('data/fenci_predict.txt','r').readlines():
corpus.append(line)
#方法一
#TfidfVectorizer
vector=TfidfVectorizer()#將停詞引入模型,tfidf=TfidfVectorizer(token_pattern=r"(?u)\b\w\w+\b",stop_words=stopword)
tfidf=vector.fit_transform(corpus)#模型向量化
###每次詞和TF-IDF的對應關係
word=vector.get_feature_names()#獲取詞帶模型中的所有詞
weightlist=tfidf.toarray()#將tf-idf矩陣抽取出來,元素a[i][j]表示j詞在i類文字中的tf-idf權重
#儲存特徵文字
print('len(word)',len(word))
withopen("data/fenci_predict_feature.txt",'w')asf:
forjinrange(len(word)):
f.write((word[j]).encode('utf-8')+'')
#方法二
#01、構建詞頻矩陣,將文字中的詞語轉換成詞頻矩陣
vectorizer=CountVectorizer()
#a[i][j]:表示j詞在第i個文字中的詞頻
X=vectorizer.fit_transform(corpus)
printX.shape#詞頻矩陣
#02、構建TFIDF權值
transformer=TfidfTransformer()
#計算tfidf值
tfidf=transformer.fit_transform(X)
#03、獲取詞袋模型中的關鍵詞
word=vectorizer.get_feature_names()
tfidf_keywords()
補充上一篇:
jieba分詞並行分詞
jieba分詞器如果是對於大的文字進行分詞會比較慢,因此可以使用jieba自帶的並行分詞功能進行分詞,其採用的原理是將目標文字按照行分割後,把各行文字分配到多個Python程序並行分詞,然後歸併結果,從而獲得分詞速度可觀的提升。
該過程需要基於python自帶的multiprocessing模組,而且目前暫時不支援windows.在使用的時候,只需要在使用jieba分詞匯入包的時候同時加上下面任意一個命令:
結巴中文分詞文件介紹:https://github.com/fxsjy/jieba
決策樹(CART)
«上一篇
瑪雅人的密碼(利用bfs)下一篇»
相關推薦
jieba分詞中用到的TF-IDF演算法的介紹
注:利用jieba分詞進行關鍵詞抽取(選擇TF-IDF演算法)
這裡介紹基於TF-IDF演算法的關鍵詞抽取(乾貨|詳解自然語言處理之TF-IDF模...
情感分析之詞袋模型TF-IDF演算法(三)
在這篇文章中,主要介紹的內容有:1、將單詞轉換為特徵向量2、TF-IDF計算單詞關聯度在之前的文章中,我們已經介紹過一些文字的...
TF-IDF演算法抽取中文內容的主題關鍵詞
db.ini
#db
[db]
db_port=3306
db_user=user
db_hos...
python基於TF-IDF演算法的關鍵詞提取
importjiaba.analyse
jieba.analyse.extract_tags(content,topK=20,withWeig...
關鍵詞提取演算法—TF/IDF演算法
關鍵詞提取演算法一般可分為有監督學習和無監督學習兩類。
有監督的關鍵詞提取方法可以通過分類的方式進行,通過構建一個較為完善的詞表,然後判斷...
關鍵詞抽取演算法介紹:TF-IDF和TextRank
一、前言
關鍵詞抽取就是從文本里面把跟這篇文件意義最相關的一些詞抽取出來。
這個可以追溯到文獻檢索初期,當時還不支援全文搜尋的時候,關鍵詞就...
關鍵詞提取/關鍵字提取之TF-IDF演算法
TF-IDF(termfrequency–inversedocumentfrequency)是一種用於資訊檢索與資訊探勘的常用加權技術。
TF的意思是詞頻(...
ElasticSearch教程——lucene的相關度評分TF&IDF演算法以及向量空間模型演算法
1、booleanmodel
類似and這種邏輯操作符,先過濾出包含指定term的doc
query"hellowo...
第六章(1.3)自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類
一、原理
使用jieba切詞
用td-idf計算文字的詞頻和逆文件詞頻
排序選出最重要的2個或3個詞作為這段...
解析TF-IDF演算法原理:關鍵詞提取,自動摘要,文字相似度計算
Abstract:TF-IDF演算法是一種常用的詞頻統計方法,常被用於關鍵詞提取、文字摘要、文章相似度計算等。
TF-IDF的演算法思路
...
搜尋
基礎教學
Mysql入門
Sql入門
Android入門
Docker入門
Go語言入門
Ruby程式入門
Python入門
Python進階
Django入門
Python爬蟲入門
最近訪問
jieba分詞中用到的TF-IDF演算法的介紹
spring+3++的javaConfig技術
全球首款短視訊聚合應用「醬爆視訊」開發技術介紹
正則表示式+linux+shell
docker+mysql+pxc叢集(percona-xtradb-cluster)
圖解TCP/IP協議(五)IP相關技術—DNS、ARP、ICMP、DHCP、NAT、IP隧道
Android-udp廣播
Jenkins全流程搭建
矩陣+LUP+分解+解線性方程組+求行列式值+矩陣求逆+演算法說解
數字語音訊號處理學習筆記——語音訊號的短時時域分析(1)
延伸文章資訊
- 1使用python的jieba库中的TF-IDF算法进行关键词提取 - 知乎专栏
目录: 1.什么是关键词? 2.TF-IDF关键词提取算法3.算法实现1.什么是关键词?关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。
- 2jieba分詞中用到的TF-IDF演算法的介紹 - 程式人生
注:利用jieba分詞進行關鍵詞抽取(選擇TF-IDF演算法). 這裡介紹基於TF-IDF演算法的關鍵詞抽取(乾貨|詳解自然語言處理之TF-IDF模型和python實現), ...
- 3Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字
基於TF-IDF演算法的關鍵詞抽取 import jieba import jieba.analyse sentence = '全國港澳研究會會長徐澤在會上發言指出,學習系列重要講話要深刻領會 ...
- 4將使用jieba分詞的語料庫轉化成TFIDF向量 - IT人
二、使用jieba元件對分類語料庫分詞本文參考 ... corpus_tfidf.py 檔案:已分詞語料庫轉為tfidf向量執行檔案。 stopword 目錄:停用詞路徑。
- 5Python的jieba分词及TF-IDF和TextRank 算法提取关键字
基于TF-IDF(term frequency–inverse document frequency) 算法的关键词抽取. import jieba.analyse. jieba.analyse...