Python jieba库的使用 - 程序员参考

文章推薦指數: 80 %
投票人數:10人

写在前面: 昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。

Python的jieba库是优秀的中文分词 ... 程序员参考 首页 下载中心系统软件网络工具安全相关媒体工具 当前位置首页 > 新闻中心 > 其他综合> 正文 Pythonjieba库的使用 11-26暂无评论其他综合 写在前面:   昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。

Python的jieba库是优秀的中文分词第三方库,本篇博客用来记录jieba库的基本使用。

一.jieba库基本介绍 (1)概述 中文文本需要通过分词获得单个的词语 jieba库提供三种分词模式,最简单只需掌握一个函数 (2)jieba分词的原理 利用一个中文词库,确定汉字之间的关联概率 汉字间概率大的组成词组,形成分词结果 除了分词,用户还可以添加自定义的词组 二.jieba库使用说明 (1)jieba分词的三种模式 精确模式、全模式、搜索引擎模式 -精确模式:把文本精确的切分开,不存在冗余单词-全模式:把文本中所有可能的词语都扫描出来,有冗余 -搜索引擎模式:在精确模式基础上,对长词再次切分 (2)常用函数 三.实例 用jieba统计csv文件里所有的中文词语并将结果插入数据库 1importjieba 2txt=open("房产.csv","r",encoding='utf-8').read() 3words=jieba.lcut(txt)#使用精确模式对文本进行分词 4counts={}#通过键值对的形式存储词语及其出现的次数 5 6forwordinwords: 7iflen(word)==1:#单个词语不计算在内 8continue 9else: 10counts[word]=counts.get(word,0)+1#遍历所有词语,每出现一次其对应的值加1 11 12items=list(counts.items())#将键值对转换成列表 13items.sort(key=lambdax:x[1],reverse=True)#根据词语出现的次数进行从大到小排序 14 15foriinrange(1000): 16word,count=items[i] 17importpymysql 18 19db=pymysql.connect(host="localhost",user="root",password="156132",database="cloud1",charset="utf8mb4") 20cursor=db.cursor() 21sql="insertintofangchan(word,count)values('"+str(word)+"','"+str( 22count)+"')" 23try: 24cursor.execute(sql) 25db.commit() 26#print(school_shengfen+"\t"+school_name+"添加成功") 27except: 28print("插入出错") 29db.rollback() 30 31print("{0:<5}{1:>5}".format(word,count)) 版权保护:本文由程序员参考_编程开发_一站解决(www.cxyck.com)原创,转载请保留链接:/article/132183.html 上一篇:Halcon灰度模板 下一篇:返回列表 猜你喜欢 博客主人萌萌哒 男,单身,无聊上班族,闲着没事喜欢研究代码,密集恐怖深度患者,资深技术宅。

6223文章总数 1541访问次数 2338建站天数 最新文章 Pythonjieba库的使用2021/11/26 Halcon灰度模板2021/11/26 阿里云云效发布研发协同工具,以新的产研协同工作方式助力实现BizDevOps2021/11/26 浏览器的ctrl+F52021/11/26 VueUI图形化项目管理使用2021/11/26 随机文章 json2021/11/23 ES605函数的参数2021/11/24 38k8s2021/11/26 C#下载文件2021/11/23 篇13-and构造/intersect构造/or构造2021/11/24 热门文章 理解CPU负载和CPU使用率2021/11/23 01大数据概述2021/09/16 人口普查题目2021/11/23 团队作业4——项目冲刺【Alpha阶段】第一次ScrumMeeting2021/11/23 输出字母出现频率2021/11/23 标签 pythonJAVAvuejsAndroidspringphpmysqlcJavaScriptLinux安装jQuerySpringBootdockerBootdjangoideaC++字符串文件配置python3TensorFlowiosOpenCVjsonExcel微信小程序redisAjax组件数据函数图片asp.net数组nginx验证码CORE



請為這篇文章評分?