jieba 基于TF-IDF 算法的关键词提取| 计算机科学论坛 - LearnKu
文章推薦指數: 80 %
import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本topK 为返回几个TF/IDF 权重最大的 ...
微信登录
jieba基于TF-IDF算法的关键词提取
Galois的个人博客
/
10
/
0
/
创建于1年前
/
更新于1年前
importjieba.analyse
jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,
allowPOS=())
sentence为待提取的文本topK为返回几个TF/IDF权重最大的关键词,默认值为20withWeight为是否一并返回关键词权重值,默认值为FalseallowPOS仅包括指定词性的词,默认值为空,即不筛选
#新建TFIDF实例,idf_path为IDF频率文件
jieba.analyse.TFIDF(idf_path=None)
关键词提取所使用停止词(StopWords)文本语料库可以切换成自定义语料库的路径
#file_name为自定义语料库的路径
jieba.analyse.set_stop_words(file_name)
自定义语料库示例:
!
"
#
$
%
&
'
(
)
*
+
,
-
--
.
..
...
......
...................
./
.一
记者
数
年
月
日
时
分
秒
/
//
0
1
2
3
4
importjieba
importjieba.analyse
content=open('demo.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags=jieba.analyse.extract_tags(content,topK=10)
print(",".join(tags))
关键词一并返回关键词权重值示例:
importjieba
importjieba.analyse
content=open('demo.txt','r',encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags=jieba.analyse.extract_tags(content,topK=10,withWeight=True)
fortagintags:
print("tag:%s\t\tweight:%f"%(tag[0],tag[1]))
nlp
python
本作品采用《CC协议》,转载必须注明作者和本文链接
不要试图用百米冲刺的方法完成马拉松比赛。
本帖由Galois
于1年前解除加精
举报
Galois
版主
1.4k声望
Coder@Galois
出来混,迟早要还的。
0人点赞
讨论数量:0
(= ̄ω ̄=)···暂无内容!
讨论应以学习和精进为目的。
请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!
支持MD
帮助
关注本文
评论
提交
忘记密码?
or
注册
第三方账号登录
微信登录
GitHub登录
匿名举报,为防止滥用,仅管理员可见举报者。
我要举报该,理由是:
垃圾广告:恶意灌水、广告、推广等内容
无意义内容:测试、灌水、文不对题、消极内容、文章品质太差等
违规内容:色情、暴利、血腥、敏感信息等
不友善内容:人身攻击、挑衅辱骂、恶意行为
科学上网:翻墙、VPN、Shadowsocks,政策风险,会被关站!
不懂提问:提问太随意,需要再做一遍《提问的智慧》测验
随意提问:提问没有发布在社区问答分类下
排版混乱:没有合理使用Markdown编写文章,未使用代码高亮
内容结构混乱:逻辑不清晰,内容混乱,难以阅读
标题随意:标题党、标题不释义
尊重版权:分享付费课程、破解软件(付费),侵犯作者劳动成果
其他理由:请补充说明
举报
取消
延伸文章資訊
- 1jieba分詞中用到的TF-IDF演算法的介紹 - 程式人生
注:利用jieba分詞進行關鍵詞抽取(選擇TF-IDF演算法). 這裡介紹基於TF-IDF演算法的關鍵詞抽取(乾貨|詳解自然語言處理之TF-IDF模型和python實現), ...
- 2Python的jieba分词及TF-IDF和TextRank 算法提取关键字
基于TF-IDF(term frequency–inverse document frequency) 算法的关键词抽取. import jieba.analyse. jieba.analyse...
- 3Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字
基於TF-IDF演算法的關鍵詞抽取 import jieba import jieba.analyse sentence = '全國港澳研究會會長徐澤在會上發言指出,學習系列重要講話要深刻領會 ...
- 4使用python的jieba库中的TF-IDF算法进行关键词提取 - 知乎专栏
目录: 1.什么是关键词? 2.TF-IDF关键词提取算法3.算法实现1.什么是关键词?关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。
- 5基於jieba分詞的TF-IDF提取關鍵詞算法中 - 台部落
TF-IDF的概念TF(Term Frequency,縮寫爲TF)也就是詞頻,即一個詞在文中出現的次數,統計出來就是詞頻TF,顯而易見,一個詞在文章中出現很多次, ...