Python jieba库的使用 - 程序员参考
文章推薦指數: 80 %
写在前面: 昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。
Python的jieba库是优秀的中文分词 ...
程序员参考
首页
下载中心系统软件网络工具安全相关媒体工具
当前位置首页 > 新闻中心 > 其他综合>
正文
Pythonjieba库的使用
11-26暂无评论其他综合
写在前面:
昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。
Python的jieba库是优秀的中文分词第三方库,本篇博客用来记录jieba库的基本使用。
一.jieba库基本介绍
(1)概述
中文文本需要通过分词获得单个的词语
jieba库提供三种分词模式,最简单只需掌握一个函数
(2)jieba分词的原理
利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组
二.jieba库使用说明
(1)jieba分词的三种模式
精确模式、全模式、搜索引擎模式
-精确模式:把文本精确的切分开,不存在冗余单词-全模式:把文本中所有可能的词语都扫描出来,有冗余
-搜索引擎模式:在精确模式基础上,对长词再次切分
(2)常用函数
三.实例
用jieba统计csv文件里所有的中文词语并将结果插入数据库
1importjieba
2txt=open("房产.csv","r",encoding='utf-8').read()
3words=jieba.lcut(txt)#使用精确模式对文本进行分词
4counts={}#通过键值对的形式存储词语及其出现的次数
5
6forwordinwords:
7iflen(word)==1:#单个词语不计算在内
8continue
9else:
10counts[word]=counts.get(word,0)+1#遍历所有词语,每出现一次其对应的值加1
11
12items=list(counts.items())#将键值对转换成列表
13items.sort(key=lambdax:x[1],reverse=True)#根据词语出现的次数进行从大到小排序
14
15foriinrange(1000):
16word,count=items[i]
17importpymysql
18
19db=pymysql.connect(host="localhost",user="root",password="156132",database="cloud1",charset="utf8mb4")
20cursor=db.cursor()
21sql="insertintofangchan(word,count)values('"+str(word)+"','"+str(
22count)+"')"
23try:
24cursor.execute(sql)
25db.commit()
26#print(school_shengfen+"\t"+school_name+"添加成功")
27except:
28print("插入出错")
29db.rollback()
30
31print("{0:<5}{1:>5}".format(word,count))
版权保护:本文由程序员参考_编程开发_一站解决(www.cxyck.com)原创,转载请保留链接:/article/132183.html
上一篇:Halcon灰度模板
下一篇:返回列表
猜你喜欢
博客主人萌萌哒
男,单身,无聊上班族,闲着没事喜欢研究代码,密集恐怖深度患者,资深技术宅。
6223文章总数
1541访问次数
2338建站天数
最新文章
Pythonjieba库的使用2021/11/26
Halcon灰度模板2021/11/26
阿里云云效发布研发协同工具,以新的产研协同工作方式助力实现BizDevOps2021/11/26
浏览器的ctrl+F52021/11/26
VueUI图形化项目管理使用2021/11/26
随机文章
json2021/11/23
ES605函数的参数2021/11/24
38k8s2021/11/26
C#下载文件2021/11/23
篇13-and构造/intersect构造/or构造2021/11/24
热门文章
理解CPU负载和CPU使用率2021/11/23
01大数据概述2021/09/16
人口普查题目2021/11/23
团队作业4——项目冲刺【Alpha阶段】第一次ScrumMeeting2021/11/23
输出字母出现频率2021/11/23
标签
pythonJAVAvuejsAndroidspringphpmysqlcJavaScriptLinux安装jQuerySpringBootdockerBootdjangoideaC++字符串文件配置python3TensorFlowiosOpenCVjsonExcel微信小程序redisAjax组件数据函数图片asp.net数组nginx验证码CORE
延伸文章資訊
- 1Python jieba库的使用 - 程序员参考
写在前面: 昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。Python的jieba库是优秀的中文分词 ...
- 2Python jieba库有什么特点,用法是什么 - 群英网络
给大家带来一篇关于Python jieba库分词模式怎么用?的相关教程文章,内容涉及到Python、python教程等相关内容,已被722人关注,更多关于python的内容 ...
- 3Python入门:jieba库的使用 - CSDN博客
jieba 库是一款优秀的Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
- 4Python:jieba库的介绍与使用 - 简书
前言: jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词, ...
- 5学习python的jieba库,一篇文章就够了 - CSDN博客
github地址:https://github.com/fxsjy/jieba/介绍中文分词千千万,人生苦短,我用“结巴”。jieba分词库号称是最好用的中文分词库,具有以下特点:支持 ...