中文分词工具jieba分词器的使用 - 51CTO博客
文章推薦指數: 80 %
jieba.cut和jieba.cut_for_search返回的结果都是一个可迭代的生成器,可以 ... jieba可以很方便地获取中文词性,通过jieba.posseg模块实现词性标注.
中文分词工具jieba分词器的使用
关注
CurryCoder
赞
收藏
评论
分享
微博
QQ
微信
文章目录
1.常见的中文分词工具
2.jieba分词算法主要有以下三种:
3.精确分词:精确模式试图将句子最精确地切开,精确分词也是默认的分词方式
4.全模式分词:把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义。
5.搜索引擎模式:在精确模式的基础上,对长词再次进行划分,提高召回率Recall,适用于搜索引擎分词。
6.用lcut生成list
7.获取词性
8.并行分词
9.获取分词结果中词列表的topN
10.自定义添加词和字典
11.注意的地方
12.相关说明
中文分词工具jieba分词器的使用
原创
CurryCoder
2021-07-3010:59:16
博主文章分类:NLP
©著作权
文章标签
jieba
文章分类
其他
编程语言
©著作权归作者所有:来自51CTO博客作者CurryCoder的原创作品,请联系作者获取转载授权,否则将追究法律责任中文分词工具jieba分词器的使用https://blog.51cto.com/u_13933750/3229854
1.常见的中文分词工具
中科院计算所的NLPIR
哈工大LTP
清华大学THULAC
斯坦福分词器
Hanlp分词器
jieba分词
IKAnalyzer
2.jieba分词算法主要有以下三种:
1.基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图(DAG)
2.针对DAG图,采用动态规划计算最大概率路径(最优可能的分词结果),根据最大概率路径分词
3.对新词(词库中没有的词),采用有汉字成词能力的HMM模型进行切分。
importjieba
content="现在,机器学习和深度学习带动人工智能飞速的发展,并在图像处理、语音识别领域取得巨大成功。
"
3.精确分词:精确模式试图将句子最精确地切开,精确分词也是默认的分词方式
segs_1=jieba.cut(content,cut_all=False)
print("/".join(segs_1))
4.全模式分词:把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义。
segs_2=jieba.cut(content,cut_all=True)
print("/".join(segs_2))
5.搜索引擎模式:在精确模式的基础上,对长词再次进行划分,提高召回率Recall,适用于搜索引擎分词。
segs_3=jieba.cut_for_search(content)
print("/".join(segs_3))
6.用lcut生成list
jieba.cut和jieba.cut_for_search返回的结果都是一个可迭代的生成器,可以使用for循环来获得分词后得到的每个词语(unicode编码)。
jieba.lcut对cut的结果进行了封装,l代表list,即返回的结果是一个list集合。
同样的,用jieba.lcut_for_search()也直接返回list集合。
segs_4=jieba.lcut(content)
print(segs_4)
7.获取词性
jieba可以很方便地获取中文词性,通过jieba.posseg模块实现词性标注
importjieba.possegaspsg
[(x.word,x.flag)forxinpsg.lcut(content)]
8.并行分词
并行分词原理是为文本按行分隔后,分配到多个python进程并进行分词,最终归并结果。
并行分词仅支持默认分词器jieba.dt和jieba.posseg.dt,目前暂不支持windows系统。
jieba.enable_parallel(4)#开启并行分词模式,参数为并行进程数
jieba.disable_parallen()#关闭并行分词模式
9.获取分词结果中词列表的topN
fromcollectionsimportCounter
top5=Counter(segs_4).most_common(5)
top5
10.自定义添加词和字典
默认情况下,使用默认分词,是识别不出来这句话中的“字节跳动”这个新词,这里使用用户字典提高分词的准确性。
txt="字节跳动是中国一家新兴的互联网公司。
"
segs_5=jieba.lcut(txt)
segs_5
添加一个新词到字典中,结果就不一样了
jieba.add_word("字节跳动")
segs_6=jieba.lcut(txt)
segs_6
但是,如果要添加很多个词语时,一个个添加效率就不高了。
这时候可以定义一个文件,然后通过load_userdict()函数,加载自定义词典,如下所示:
txt1="火山小视频是字节跳动公司开发的一款应用软件。
"
jieba.load_userdict("user_dict.txt")#user_dict.txt是自己创建的一个自定义的新词词典
segs_7=jieba.lcut(txt1)
segs_7
11.注意的地方
jieba.cut()方法接收三个输入参数:需要分词的字符串、cut_all参数用来控制是否采用全模式、HMM参数用来控制是否使用HMM模型
jieba.cut_for_search()方法接收两个参数:需要分词的字符串、是否使用HMM模型。
该方法适用于搜索引擎构建倒排索引的分词,细粒度较高。
12.相关说明
中文词性标注中的符号说明
赞
收藏
评论
分享
微博
QQ
微信
举报
上一篇:【SingletonPattern】设计模式之单例模式
下一篇:45jQuery中的常用API
举报文章
请选择举报类型
内容侵权
涉嫌营销
内容抄袭
违法信息
其他
具体原因
包含不真实信息
涉及个人隐私
原文链接(必填)
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M
取消
确认
已经收到您得举报信息,我们会尽快审核
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
全部评论
(0)
最热
最新
相关文章
关于词云可视化笔记二(jieba和中文词汇可视化)
jieba是一个python实现的分词库,对中文有着很强大的分词能力。
通过版本一、二、四、五演示了如何一步步提升分词的可用性,当然一两天的功夫很难全部了解jieba的全部功能。
小程序
微信
大数据
jieba中文分词及文本词频统计
中文文本需要通过分词获得单个的词语,jieba库是优秀的中文分词第三方库,jieba提供三种分词模式。
jieba分词的三种模式精确模式:把文本精确的切分开,不存在冗余单词全模式:把文本中所有可能的词语都扫描出来,有冗余搜索引擎模式:在精确模式基础上,对长词再次切分代码示例:import...
词频统计
中文分词
jieba分词
搜索引擎
python
Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码
本文主要Python中,使用结巴分词(jieba)进行关键词提取,和词性标注的方法,以及相关的示例代码。
原文地址:Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码...
python
词性标注
示例代码
结巴分词
python用jieba模块分词实现关键词提取
人工智能大数据与深度学习 公众号:weic2c每个txt文件夹里面存放一个用户的全部微博数据,在result_all文件里面存放了全部用户的微博数据,这里实现读取每个用户的数据并为每个用户提取30个关键字。
将为每个用户提取出来的关键字存放在同一个文件topic_all.txt文
词频
读取文件
数据
solr中文分词mmseg4j使用例子,NGramTokenizerFactory
solr中文分词mmseg4j使用例子 版权信息:可以任意转载,转载时请务必以超链接形式标明文章原文出处,即下面的声明.
solr
analyzer
xml
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)输出结果1、测试对象data1='今天上海的天气真好!我的心情非常高兴!如果去旅游的话我会非常兴奋!和你一起去旅游我会更加幸福!'data2='今天上海天气真差,非常讨厌下雨,把我冻坏了,心情太不高兴了,不高兴,我真的很生气!'data3='美国华裔科学家,祖籍江苏扬州市高邮县,...
情感分析
数据集
电子工程
Python分词工具——jieba
jieba简介 python在数据挖掘领域的使用越来越广泛。
想要使用python做文本分析,分词是必不可少的一个环节在python的第三方包里,jieba应该算得上是分词领域的佼佼者。
GitHub地址:https://github.com/fxsjy/jieba安装方法#全自动安装:easy_installjieba或者pipinstalljieba/pip3i
自定义
搜索引擎
python
jieba:一款为中文分词而生的Python库
中文分词,通俗来说,就是将一句(段)话按一定的规则(算法)拆分成词语、成语、单个文字。
中文分词是很多应用技术的前置技术,如搜索引擎、机器翻译、词性标注、相似度分析等,都是先对文本信息分词处理,再用分词结果来搜索、翻译、对比等。
在Python中,最好用的中文分词库是jieba。
用“结巴”给一个中文分词库命名,非常生动形象,同时还带有一种程序员式的幽默感。
喜欢本文记得关注、收藏、点赞。
【注】代码、资料
python
python开发
机器学习
中文分词
jieba
ik分词和jieba分词哪个好_中文分词(jieba)和语料库制作(gensim)
参考链接:Gensim-文档和语料库本文的内容为以下两个部分: 文本分词(jieba)语料库制作(gensim) 结巴(jieba)分词 在自然语言处理领域中,分词和提取关键词都是对文本处理时通常要进行的步骤。
用Python语言对英文文本进行预处理时可选择NLTK库,中文文本预处理可选择jieba库。
结巴分词是基于统计的分词方法,它对给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律
knowledge
中文分词利器jieba和HanLP
前言从本文开始,我们进入实战部分。
首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习。
中文分词有很多种,常见的比如有中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、Hanlp分词器、jieba分词、IKAnalyzer等。
这里针对jieba和HanLP分别介绍不同场景下的中文分词应用。
jieba分词jieba安装(1)Python2.x下jie
hanlp
中文
分词
利器
Python分词、情感分析工具——SnowNLP
本文内容主要参考GitHub:https://github.com/isnowfy/snownlpwhat'sthe SnowNLP SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法
词性标注
词频
ico
【Python爬虫】基于爬虫技术获取热搜数据保存至本地,并生成词云数据实现可视化
Python爬虫+词云数据生成
词云
python
数据
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)目录NLP分词NLP词性标注NLP情感分析—TEANLP常见功能(输出拼音、支持方法)NLP测试NLP分词sentence=u"今年春节档的电影,我尤其喜欢吴京主演...
情感分析
词性标注
自然语言处理
Python自然语言处理常用库——jieba库
一.分词1、jieba.cut方法接受四个输入参数①需要分词的字符串;②cut_all参数用来控制
paddle
分词器
自定义
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略目录jieba简介jieba安装jieba使用方法jieba简介应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。
(1)支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。
...
python
自然语言处理
中文分词
文本分析
.net中文分词jieba.NET
简介平时经常用Python写些小程序。
在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。
jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。
.net中文分词
.net
中文分词
搜索引擎
词性标注
Python:jieba中文分词的使用笔记
文档:https://github.com/fxsjy/jieba安装pipinstalljieba分词cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False)#参数:sentence需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM
paddle
词频
自定义
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)
NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)目录输出词云图结果输出文本统计设计思路实现代码Python词云图:情人节最好的礼物——给你一张过去的词云图,看看那时我们的爱情输出词云图结果...
词云
设计思路
背景颜色
自然语言处理特征提取
1.基本文本处理技能1.1分词 在语言中,语义的基本单元是单词。
在英语句子中已天然就已经分割成单词(空白符和标点符号隔开),而在汉语中字和字紧紧的连在一起。
所以我们需要进行分词。
分词有很多种算法:基于字符串匹配算法、基于理解的算法、基于统计的算法(如HMM和n-gram)等。
下面重点介绍第一种字符串匹配算法。
1.1.1分词的正向最大匹配 分词的正向最大匹配本质是基于分治和贪婪两种算
子段
自然语言
自然语言处理
CurryCoder
关注
私信
NLP分类的近期文章
简单好用的中文分词工具之HanLP的安装与使用
中文文本中的关键字提取算法总结
中文分词工具jieba分词器的使用
ubuntu16.04系统下安装fasttext文本分类库
如何在NLP领域应用卷积神经网络CNN
近期文章
1.结婚和年龄有直接关系吗?
2.14Facade(门面)模式
3.14PS中的切图基本操作
4.08JavaScript中的函数
5.17综合案例之淘宝轮播图布局
热门文章
Chapter02-信息的存储-上
Chapter01-计算机系统漫游-下
Chapter02-整数的表示
Chapter01-计算机系统漫游-上
七日热门
编程语言
编程语言
编程语言
编程语言
编程语言
编程语言
C语言编程—编程实践
编程范式与编程语言
编程与编程语言分类
编程基础概念:编程语言
分类列表
更多
#前端开发95篇
#生活感悟6篇
#go语言之旅11篇
#微信小程序开发2篇
#Django2.08篇
相关标签
全部
django分词器
django分词器jieba
elasticsearch分词器
es分词器
hanlp分词器
ik分词器
ik分词器分词原理
java中文分词器
java分词器
jieba中文分词python
文章目录
1.常见的中文分词工具
2.jieba分词算法主要有以下三种:
3.精确分词:精确模式试图将句子最精确地切开,精确分词也是默认的分词方式
4.全模式分词:把句子中所有的可能是词语的都扫描出来,速度非常快,但不能解决歧义。
5.搜索引擎模式:在精确模式的基础上,对长词再次进行划分,提高召回率Recall,适用于搜索引擎分词。
6.用lcut生成list
7.获取词性
8.并行分词
9.获取分词结果中词列表的topN
10.自定义添加词和字典
11.注意的地方
12.相关说明
签到送好礼
返回顶部
51CTO博客
首页
关注
热榜
订阅专栏
学堂
精培
鸿蒙社区
CTO训练营
51CTO
班级博客
登录注册
手机随时阅读
新人专享大礼包¥24
写文章
搜索历史
清空
热门搜索
查看【
】的结果
Copyright©2005-202251CTO.COM
版权所有京ICP证060544号
关于我们
官方博客
意见反馈
了解我们
全部文章
在线客服
网站地图
热门标签
友情链接
开源基础软件社区
51CTO学堂
51CTO
延伸文章資訊
- 1Python Examples of jieba.cut_for_search - ProgramCreek.com
def testCutForSearch(self): for content in test_contents: result = jieba.cut_for_search(content) ...
- 2fxsjy/jieba: 结巴中文分词
Contribute to fxsjy/jieba development by creating an account on GitHub. ... jieba.cut_for_search ...
- 3中文分词工具jieba分词器的使用 - 51CTO博客
jieba.cut和jieba.cut_for_search返回的结果都是一个可迭代的生成器,可以 ... jieba可以很方便地获取中文词性,通过jieba.posseg模块实现词性标注.
- 4Python - 知名Jieba 中文斷詞工具教學
透過jieba.cut () 來進行斷詞,cut_all 參數為True 的話為全模式,預設為False,也就是精確模式; jibea.cut_for_search () 是搜索引擎模式 ...
- 5python 結巴分詞(jieba)詳解 - 程式人生
"Jieba" (Chinese for "to stutter") Chinese text segmentation: ... jieba.cut_for_search 方法接受兩個引數:需...