jieba 基于TF-IDF 算法的关键词提取| 计算机科学论坛 - LearnKu

文章推薦指數: 80 %
投票人數:10人

import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本topK 为返回几个TF/IDF 权重最大的 ... 微信登录 jieba基于TF-IDF算法的关键词提取 Galois的个人博客 / 10 / 0 / 创建于1年前 / 更新于1年前 importjieba.analyse jieba.analyse.extract_tags(sentence,topK=20,withWeight=False, allowPOS=()) sentence为待提取的文本topK为返回几个TF/IDF权重最大的关键词,默认值为20withWeight为是否一并返回关键词权重值,默认值为FalseallowPOS仅包括指定词性的词,默认值为空,即不筛选 #新建TFIDF实例,idf_path为IDF频率文件 jieba.analyse.TFIDF(idf_path=None) 关键词提取所使用停止词(StopWords)文本语料库可以切换成自定义语料库的路径 #file_name为自定义语料库的路径 jieba.analyse.set_stop_words(file_name) 自定义语料库示例: ! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 记者 数 年 月 日 时 分 秒 / // 0 1 2 3 4 importjieba importjieba.analyse content=open('demo.txt','r',encoding='utf-8').read() jieba.analyse.set_stop_words("stopwords.txt") tags=jieba.analyse.extract_tags(content,topK=10) print(",".join(tags)) 关键词一并返回关键词权重值示例: importjieba importjieba.analyse content=open('demo.txt','r',encoding='utf-8').read() jieba.analyse.set_stop_words("stopwords.txt") tags=jieba.analyse.extract_tags(content,topK=10,withWeight=True) fortagintags: print("tag:%s\t\tweight:%f"%(tag[0],tag[1])) nlp python 本作品采用《CC协议》,转载必须注明作者和本文链接 不要试图用百米冲刺的方法完成马拉松比赛。

本帖由Galois 于1年前解除加精 举报 Galois 版主 1.4k声望 Coder@Galois 出来混,迟早要还的。

0人点赞 讨论数量:0 (= ̄ω ̄=)···暂无内容! 讨论应以学习和精进为目的。

请勿发布不友善或者负能量的内容,与人为善,比聪明更重要! 支持MD 帮助 关注本文 评论 提交 忘记密码? or 注册 第三方账号登录 微信登录 GitHub登录 匿名举报,为防止滥用,仅管理员可见举报者。

我要举报该,理由是: 垃圾广告:恶意灌水、广告、推广等内容 无意义内容:测试、灌水、文不对题、消极内容、文章品质太差等 违规内容:色情、暴利、血腥、敏感信息等 不友善内容:人身攻击、挑衅辱骂、恶意行为 科学上网:翻墙、VPN、Shadowsocks,政策风险,会被关站! 不懂提问:提问太随意,需要再做一遍《提问的智慧》测验 随意提问:提问没有发布在社区问答分类下 排版混乱:没有合理使用Markdown编写文章,未使用代码高亮 内容结构混乱:逻辑不清晰,内容混乱,难以阅读 标题随意:标题党、标题不释义 尊重版权:分享付费课程、破解软件(付费),侵犯作者劳动成果 其他理由:请补充说明 举报 取消



請為這篇文章評分?