Python入门:jieba库的使用 - CSDN博客
文章推薦指數: 80 %
jieba 库是一款优秀的Python 第三方中文分词库,jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
Python入门:jieba库的使用
留兰香丶
于 2018-05-1721:20:12 发布
162021
收藏
896
分类专栏:
Python基础
文章标签:
Python
中文分词
jieba
Python入门
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/codejas/article/details/80356544
版权
Python基础
专栏收录该内容
3篇文章
3订阅
订阅专栏
jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析
全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据
搜索引擎模式:在精确模式的基础上,对长词再次进行切分
一、jieba库的安装
因为jieba是一个第三方库,所有需要我们在本地进行安装。
Windows下使用命令安装:在联网状态下,在命令行下输入pipinstalljieba进行安装,安装完成后会提示安装成功在pyCharm中安装:打开settings,搜索ProjectInterpreter,在右边的窗口选择+号,点击后在搜索框搜索jieba,点击安装即可
二、jieba三种模式的使用
#-*-coding:utf-8-*-
importjieba
seg_str="好好学习,天天向上。
"
print("/".join(jieba.lcut(seg_str)))#精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str,cut_all=True)))#全模式,使用'cut_all=True'指定
print("/".join(jieba.lcut_for_search(seg_str)))#搜索引擎模式
分词效果:
三、jieba分词简单应用
需求:使用jieba分词对一个文本进行分词,统计次数出现最多的词语,这里以三国演义为例
#-*-coding:utf-8-*-
importjieba
txt=open("三国演义.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)#使用精确模式对文本进行分词
counts={}#通过键值对的形式存储词语及其出现的次数
forwordinwords:
iflen(word)==1:#单个词语不计算在内
continue
else:
counts[word]=counts.get(word,0)+1#遍历所有词语,每出现一次其对应的值加1
items=list(counts.items())
items.sort(key=lambdax:x[1],reverse=True)#根据词语出现的次数进行从大到小排序
foriinrange(3):
word,count=items[i]
print("{0:<5}{1:>5}".format(word,count))
统计结果:你可以随便找一个文本文档,也可以到https://github.com/coderjas/python-quick下载上面例子中的文档。
四、扩展:英文单词统计
上面的例子统计实现了中文文档中出现最多的词语,接着我们就来统计一下一个英文文档中出现次数最多的单词。
原理同上
#-*-coding:utf-8-*-
defget_text():
txt=open("1.txt","r",encoding='UTF-8').read()
txt=txt.lower()
forchin'!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
txt=txt.replace(ch,"")#将文本中特殊字符替换为空格
returntxt
file_txt=get_text()
words=file_txt.split()#对字符串进行分割,获得单词列表
counts={}
forwordinwords:
iflen(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambdax:x[1],reverse=True)
foriinrange(5):
word,count=items[i]
print("{0:<5}->{1:>5}".format(word,count))
统计结果:
留兰香丶
关注
关注
209
点赞
踩
36
评论
896
收藏
打赏
扫一扫,分享内容
点击复制链接
专栏目录
python中文分词库jieba使用方法详解
09-17
主要介绍了python中文分词库jieba使用方法详解,需要的朋友可以参考下
Python第三方库jieba(中文分词)入门与进阶(官方文档)
渴望飞的鱼的博客
02-27
1万+
转自:https://blog.csdn.net/qq_34337272/article/details/79554772
git:https://github.com/fxsjy/jieba
新闻关键字提取和新闻推荐参考:https://blog.csdn.net/mawenqi0729/article/details/80703164
jieba
“结巴”中文分词:做最好的P...
评论 36
您还未登录,请先
登录
后发表或查看评论
jieba,为中文分词而生的Python库
最新发布
weixin_43790276的博客
04-16
345
jieba,为中文分词而生的库
python中使用jieba进行中文分词
热门推荐
学习机器学习
05-14
3万+
一 “结巴”中文分词:做最好的Python中文分词组件 。
支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词支持自定义词典MIT授权协议 GitHub: https://github....
jieba分词的最详细解读
qq_45288176的博客
04-18
1967
目录
一,什么是jieba(结巴)库?
二,jieba库的使用规则
三,jieba库具体使用和实例
一,什么是jieba(结巴)库?
字如其名,结巴库主要用于中文分词,很形象的画面想必一下子就出现在了大家的面前,结巴在说话时一个词一个词从嘴里往外蹦的时候,已经成功地模拟了我们jieba函数的处理过程!!!
其次
1:Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语。
2:Jieba库的分词原理:利用一个中文词库,确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词
jieba分词
坚果的刻薄
06-01
1万+
一、jieba简介
jieba库是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点。
精确模式:
试图将语句最精确的切分,不存在冗余数据,适合做文本分析。
全模式:
将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据。
搜索引擎模式:
在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
#精确模式
jieba.lcut(text,cut_all=False)
#全模式
jieba.lcut
python引入jieba库(引入第三方库的方法)
爱上甜甜
09-05
2万+
1.在没有引入之前,importjieba[显示:Nomodulenamed'jieba']
2.下载第三方库到自己的电脑,譬如jieba(官方下载地址):
https://pypi.org/project/jieba/
3.而后通过cmd运行,参考如下:
参考网址:https://blog.csdn.net/sanqima/article/details/50965439
...
基于python中jieba包的详细使用介绍
TFATS的博客
09-27
1万+
一,jieba的介绍
jieba是目前表现较为不错的Python中文分词组件,它主要有以下特性:
支持四种分词模式:
精确模式
全模式
搜索引擎模式
paddle模式
支持繁体分词
支持自定义词典
MIT授权协议
二,安装和使用
1,安装
pip3installjieba
2,使用
importjieba
三,主要分词功能
1,jieba.cut和jieba.lcut
lcut将返回的对象转化为list对象返回
传入参数解析:
defcut(sel
jieba基本使用过程
lys_828的博客
11-24
9024
jieba分词0引言1jieba库安装2jieba库文件查看3基本使用4词性标注5自定义词典和加载自定义词语6关键词提取与位置查找
0引言
今天起正式开始对于文本挖掘相关知识的学习,之前都是东学一点,西学一点,没有一个体系,希望接下来可以好好把这方面的知识梳理一下,方便学以致用。
今天梳理知识点就是jieba分词,采用逐步梳理的方式进行
python环境使用的是miniconda里面的jupyternotebook
1jieba库安装
关于jieba这个库的介绍,就不多说了,主要就是和分词
python中jieba库使用教程
kaimMarch的博客
09-23
4851
jieba是python的一个中文分词库,下面介绍它的使用方法。
安装
方式1:
pipinstalljieba
方式2:
先下载http://pypi.python.org/pypi/jieba/
然后解压,运行pythonsetup.pyinstall
功能
下面介绍下jieba的主要功能,具体信息可参考github文档:https://github.com/fxsjy/jieba
分词
jieba常用的三种模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式
Python中文分词jieba(小白进)
ArYe
10-24
1万+
cut(sentence,cut_all=False,HMM=True)
1、创建【生成器】对象
importjieba
#将要被切词的文本
sentence='金融数据分析'
#创建【生成器】对象
generator=jieba.cut(sentence)
print(generator)
print结果:
&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;a
jieba详细介绍
飘过的春风
07-27
1万+
原文:https://github.com/fxsjy/jieba
jieba
"结巴"中文分词:做最好的Python中文分词组件"Jieba"
Feature
支持三种分词模式:
精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模...
jieba库是python提供的一个标准的用于分词的函数库_Python之jieba库的使用
weixin_34043312的博客
02-17
1380
jieba库,它是Python中一个重要的第三方中文分词函数库。
1.jieba的下载由于jieba是一个第三方函数库,所以需要另外下载。
电脑搜索“cmd”打开“命令提示符”,然后输入“pipinstalljieba”,稍微等等就下载成功。
(注:可能有些pip版本低,不能下载jieba库,需要手动升级pip至19.0.3的版本,在安装jieba库)当你再次输入“pipinstalljieba...
Pythonjieba库的使用说明
python学习者的博客
09-27
2506
1、jieba库基本介绍
(1)、jieba库概述
jieba是优秀的中文分词第三方库
中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库,需要额外安装
jieba库提供三种分词模式,最简单只需掌握一个函数
(2)、jieba分词的原理
Jieba分词依靠中文词库
利用一个中文词库,确定汉字之间的关联概率
汉字间概率大的组成词组,形成分词结果
除了分词,用户还可以添加自定义的词组
2、jieba库使用说明
(1)、jieba分词的三种模式
精确模式、全模式、搜索引擎模式
精确模
pythonjieba详解-pythonjieba模块详解
weixin_39619478的博客
11-11
583
借鉴于【jieba模块文档】用于自己学习和记录!jieba模块是一个用于中文分词的模块此模块支持三种分词模式精确模式(试图将句子最精确的切开,适合文本分析)全模式(把句子在所有可以成词的成语都扫描出来,速度非常快,但是不能解决歧义的问题)搜索引擎模式(在精确模式的基础上,对长词再次切分,提高召回率)###主要功能1.分词需要分词的字符串可以是unicode或UTF-8字符串、GB...
python笔记——jieba库
azrealq的博客
05-03
3135
文章目录一.概述二.jieba库使用
一.概述
1.jieba库概述
jieba库是一个重要的第三方中文分词函数库,不是安装包自带的,需要通过pip指令安装
pip3installjieba
二.jieba库使用
1.库函数
jieba.cut(s)——精确模式,返回一个可迭代数据类型
jieba.cut(s,cut_all=True)——全模式,输出文本s中可能的单词
jieba.cut_for_search(s)——搜索引擎模式,适合搜索引擎建立索引的分词结果
jieba.lcut(s,cut_a
Python——jieba库
qq_43408367的博客
11-02
1957
jieba库是Python中重要的第三方中文分词函数库,其原理是利用一个中文分词词库,将带分词的内容和分词词库进行比对,通过图结构和动态规划方法找到最大概率词组,除了分词外,jieba库还提供了增加自定义中文单词的功能。
jieba库支持三种分词模式:
1.精确模式:将句子最精确的切开,适合文本分析。
2.全模式:把句子中所有可以成词的词汇都扫描出来,速度很快,但是不能消除歧义。
3.搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
jieba库主要提供分词功能,可以
jieba库详解
weixin_59448049的博客
03-16
2134
jieba是优秀的中文分词第三方库
中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库,需要额外安装
jieba库提供三种分词模式,最简单只需安装一个函数。
jieba库是通过中文词库的方式来识别分词的。
安装命令如下:
点击windows+r,进入命令提示符输入cmd,进入界面后,输入pipinstalljieba。
即可安装,示例如下:
安装界面如下:
jieba库分词依靠中文词库
利用一个中文词库,确定汉字之间的关联概念
汉字间概率大的组成词组,形成.
python怎么安装jieba库?
09-15
1万+
jieba库是python的一个三方扩展库,想要使用就需要大家下载和安装之后才可以,但有不少同学不知道该如何操作,今天小千就来给大家介绍如何安装jieba库。
安装jieba库步骤
在安装之前同学们一定要正确安装python运行环境,这一步就不介绍了。
1.之后我们打开CMD命令提示,按下win+r,在里面输入CDM即可。
2.随后我们在打开的窗口中直接输入命令:pipinstalljieba,然后按下回车之后就会自动开始下载安装,...
python结巴分词(jieba)详解
lukabruce的博客
09-03
1万+
【转自:https://www.cnblogs.com/jackchen-Net/p/8207009.html】
“结巴”中文分词:做最好的Python中文分词组件
"Jieba"(Chinesefor"tostutter")Chinesetextsegmentation:builttobethebestPythonChinesewordsegmentati...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:编程工作室
设计师:CSDN官方博客
返回首页
留兰香丶
CSDN认证博客专家
CSDN认证企业博客
码龄5年
暂无认证
187
原创
4万+
周排名
166万+
总排名
112万+
访问
等级
7228
积分
370
粉丝
779
获赞
170
评论
2655
收藏
私信
关注
热门文章
MyBatis查询结果resultType返回值类型详细介绍
325816
Python入门:jieba库的使用
161904
MyBatisPlus入门使用
49290
foreach实现MyBatis遍历集合与批量操作数据
36666
HTTP协议Host请求头的作用
35756
分类专栏
读书
1篇
优惠券
1篇
营销活动
3篇
Redis
9篇
Netty
1篇
Java8源码
12篇
Spring源码解析
7篇
秒杀活动
1篇
架构设计
1篇
设计模式
14篇
SpringBoot
17篇
Java基础
55篇
Python基础
3篇
Java虚拟机
10篇
Java设计模式
14篇
SpringBoot
17篇
Spring
7篇
MyBatis
15篇
MySQL数据库
10篇
Linux
6篇
Redis
9篇
操作系统与网络
14篇
分布式
5篇
前端
1篇
最新评论
Python入门:jieba库的使用
BIANCHENGZHAZH:
把三国演义的txt文件存在项目目录底下就行了
Python入门:jieba库的使用
qq_44040731:
你可以换成绝对路径试试
mvc:default-servlet-handler标签的作用
StrawHat179:
好文收藏!!!
mvc:default-servlet-handler标签的作用
小狗铂西:
插眼学习,好文收藏
Python入门:jieba库的使用
junbaoj:
会了没我也不会会的话求指导FileNotFoundError:[Errno2]Nosuchfileordirectory:'三国演义.txt'
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
代码整洁之道
工作上的一些思考
业务总结004:检验项目时间轮实践与库存实现方案
2021年3篇
2020年13篇
2019年16篇
2018年110篇
2017年55篇
目录
目录
分类专栏
读书
1篇
优惠券
1篇
营销活动
3篇
Redis
9篇
Netty
1篇
Java8源码
12篇
Spring源码解析
7篇
秒杀活动
1篇
架构设计
1篇
设计模式
14篇
SpringBoot
17篇
Java基础
55篇
Python基础
3篇
Java虚拟机
10篇
Java设计模式
14篇
SpringBoot
17篇
Spring
7篇
MyBatis
15篇
MySQL数据库
10篇
Linux
6篇
Redis
9篇
操作系统与网络
14篇
分布式
5篇
前端
1篇
目录
打赏作者
留兰香丶
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1fxsjy/jieba: 结巴中文分词
载入词典. 开发者可以指定自己自定义的词典,以便包含jieba 词库里没有的词。虽然jieba 有新词识别能力 ...
- 2python——Jieba库整理(基础知识+实例) - 知乎专栏
Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获得单个的词语。 Jieba库的分词原理:利用一个中文词库,确定汉字之间的关联概率,汉字间概率大 ...
- 3jieba - PyPI
pip install jieba ... jieba. “结巴”中文分词:做最好的Python 中文分词组件. “Jieba” (Chinese for “to stutter”) Chine...
- 4python jieba库用法_mb618d1c8a55b34的技术博客
python jieba库用法,结巴分词支持以下3种分词模式:精确模式。试图将句子最精确地切开,适合文.
- 5Python jieba库的使用 - 程序员参考
写在前面: 昨天的课堂测试中有这样一道题目要求:“使用中文分词算法解析所有新闻正文,并统计每个词语出现的数量”。Python的jieba库是优秀的中文分词 ...