结巴分词jieba添加自定义词典 - CSDN博客
文章推薦指數: 80 %
结巴分词添加自定义词典,有时候很有必要。
比如下面这段话:test_text = """我们的健康码也是绿色的, 这凭什么就限制我们的就医!
结巴分词jieba添加自定义词典
JECK_ケーキ
于 2021-02-0708:23:20 发布
6522
收藏
23
分类专栏:
python
文章标签:
python
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_40340586/article/details/113734784
版权
python
专栏收录该内容
87篇文章
1订阅
订阅专栏
结巴分词添加自定义词典,有时候很有必要。
比如下面这段话:
test_text="""
我们的健康码也是绿色的,
这凭什么就限制我们的就医!
"""
如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”
这里可以使用词典方式,添加自定义词典。
新建一个txt文件,在文件里输入“健康码”
以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。
然后使用
jieba.load_userdict(os.path.join(wk_dir,"jiebaDict.txt"))
wk_dir是词典放置的目录,词典文件名默认为jiebaDict.txt.
再一次分词,就可以得到这个结果。
如果不想用这个词作为一整个词,下次分词时,还是想,健康,和码分开,那么就使用
jieba.del_word("健康码")
那么自定义词典的文件就没有这个词。
下次分词还是会按照默认的方式,分成“健康”,“码”
如果还想添加其他的,那么可以打开jiebaDict.txt文件,一行一行添加想要添加的自定义词典。
或者使用
jieba.add_word("凭什么")
:
自定义词典,应该是每次使用都需要手动加载,不然不会发挥作用。
JECK_ケーキ
关注
关注
1
点赞
踩
3
评论
23
收藏
打赏
扫一扫,分享内容
点击复制链接
专栏目录
jieba分词的自定义词典文档完整版
12-08
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
jieba分词用户自定义词典(即不想被分开的词)
qq_38101190的博客
03-21
1万+
jieba分词简介:
jieba对于一长段文字,其分词原理大体可分为三部:
1.首先用正则表达式将中文段落粗略的分成一个个句子。
2.将每个句子构造成有向无环图,之后寻找最佳切分方案。
3.最后对于连续的单字,采用HMM模型将其再次划分。
三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析;
全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎...
评论 3
您还未登录,请先
登录
后发表或查看评论
python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例
LOVEYSUXIN的专栏
12-11
5621
jieba是目前最好的Python中文分词组件,它主要有以下3种特性:
支持3种分词模式:精确模式、全模式、搜索引擎模式
支持繁体分词
支持自定义词典
1分词
可使用jieba.cut和jieba.cut_for_search方法进行分词,两者所返回的结构都是一个可迭代的generator,可使用for循环来获得分词后得到的每一个词语(unicode),或...
【python】jieba分词,去停用词,自定义字典
HelenLee
03-02
2438
使用jieba分词,去停用词,添加自定义字典。
#encoding=utf-8
importjieba
filename="gp.txt"
stopwords_file="stopwords.txt"
jieba.load_userdict("dict.txt")
stop_f=open(stopwords_file,"r",encoding='utf-8')
stop_word...
结巴分词中一部分自定义字典
09-25
本人在使用jieba分词做项目时,锁整理出来的一部分被切分的词
jieba结巴分词加入自定义词典
热门推荐
weixin_43919570的博客
02-15
1万+
参考jieba官方文档
分词
返回generator
jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),或者用
返回list
jieba.lcut以及jieba.lcut_for_search直接返回list(采用这种方式更加方便)
importjieb...
Pythonjiba分词
leiting_imecas的博客
07-17
2519
特点
1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2,支持繁体分词
3,支持自定义词典
算法实现:
基于Trie树结构
如何在jieba分词中加自定义词典_常见中文分词包比较
weixin_39771791的博客
11-23
42
1jiebajieba.cut方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数:需要分词的字符串;是否使用HMM模型。
该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。
注意:...
jieba自定义词典精准分词.
Jiashilin
05-29
1万+
代码中的两种方式:
添加自定义词典
jieba.load_userdict("3dict.txt")
添加自定义正则
regex1=u'(?:[^\u4e00-\u9fa5()*&……%¥$,,。
.@!!]){1,5}期'#非汉字xxx期
regex2=r'(?:[0-9]{1,3}[.]?[0-9]{1,3})%'...
jieba库:Tokenizer()类详解:(四)加载用户自定义词典
最新发布
qq_51945755的博客
11-09
417
2021SC@SDUSC
源码:
defload_userdict(self,f):
'''
Loadpersonalizeddicttoimprovedetectrate.
Parameter:
-f:Aplaintextfilecontainswordsandtheirocurrences.
Canbeafile-likeobject,or
与自定义词典分词_jieba中文分词详解
weixin_33584986的博客
01-14
1939
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。
“结巴”分词是一个Python中文分词组件,可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。
特点jieba分词支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义...
[Python知识图谱]三.Jieba工具中文分词、添加自定义词典及词性标注详解
杨秀璋的专栏
07-28
1万+
本系列文章主要结合Python语言实现知识图谱构建相关工程,具有一定创新性和实用性,非常希望各位博友交流讨论,相互促进成长。
前面两篇文章详细讲解了哈工大Pyltp工具,包括中文分词、词性标注、实体识别、依存句法分析和语义角色标注等。
但是其中文分词效果不是很理想,如“贵州财经大学”总是切分成“贵州”、“财经”和“大学”,这是因为词典中这些词的权重较高。
这篇文章主要介绍最经典的自然语言处理工具之一——Jieba,包括中文分词、添加自定义词典及词性标注等内容。
jieba之sedict(自定义字典)
wangsiji_buaa的博客
05-10
1万+
代码:importjieba
string="李小福是创新办主任也是云计算方面的专家"
#精确模式分词
cut_result=jieba.cut(string)
print("==="*20)
print("/".join(cut_result))
#创新办没有识别出来
#用自定义词典来定义创新办
#创新办3i
jieba.load_userdict("userdi...
Jieba中文分词(一)——分词与自定义字典
吉姆0818
04-14
2488
jieba分词特点支持四种分词模式:精确模式试图将句子最精确地切开,适合文本分析;全模式把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式在精确模式的基础...
如何在jieba分词中加自定义词典_R-数据挖掘|jiebaR分词
weixin_39759995的博客
11-23
156
一、jiebaR主要函数1.worker():加载jiebaR库的分词引擎worker(type="mix",dict=DICTPATH,hmm=HMMPATH,user=USERPATH,
idf=IDFPATH,stop_word=STOPPATH,write=T,qmax=20,topn=5,
encoding="UTF-8",de...
jieba自定义字典全局生效
阳宗德的博客
10-28
124
jieba自定义字典全局生效
开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。
importjieba
#加载自定义词典提高准确性下面两种方式为临时生效
jieba.load_userdict("./jiebaUserDict.txt")
jieba.add_word("中保网盾",tag="n")
全局生效办法:
查找jieba字典库
添加自定义字典
清理缓存
生效
以ubuntu为例,其他同理:
#查
python分词模块jieba的使用
lovehave的博客
02-01
223
前言
之前了解jieba主要是在分词方面的使用,最近在具体的学习jieba相关的使用,才感受到jieba作为最好的中文分词组件功能的强大,下面对jieba具体功能的使用做一些总结。
jieba的安装
jieba的安装在原生python环境和anaconda环境不尽相同(之前一直以为anaconda是自带jieba的,使用是才发现需要安装),总体上一共有以下几种安装方式:
全自动安装(原生pyth...
Pythonjieba分词(使用默认词典,自定义词典,对文件内容分词并统计词频)
qq_44331100的博客
11-06
8275
本文仅作为本人的笔记分享,便于以后查找,也可以提供一些学习笔记给同学们,如有错误,欢迎批评指正
一.jieba分词的三种模式
1.全模式:将可以成词的词语都扫描出来,但是不解决歧义
2.精确模式:将所有句子精确地分开
3.搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
importjieba
'''
jieba分词的三种模式:
1.全模式:将可以成词的词语都扫描出来,但是不解决歧义
2.精确模式:将所有句子精确地分开
3.搜索引擎模式:在精
jieba分词自定义词表简介
feng98ren的专栏
05-24
1万+
一、jieba分词增加自定义词表在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、jieba分词提供的其他词典:点我查看jieba分词提供的其他字典,点我查看jieba分词词性标记含义然后这...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
JECK_ケーキ
CSDN认证博客专家
CSDN认证企业博客
码龄5年
暂无认证
102
原创
9万+
周排名
1万+
总排名
8万+
访问
等级
1376
积分
32
粉丝
41
获赞
37
评论
177
收藏
私信
关注
热门文章
结巴分词jieba添加自定义词典
6499
pandas把索引变成列
6305
python字典通过键值获取键名,通过value获取key
3722
python实现判断一个列表中的一个或多个元素是否存在于一个字符串中。
3415
python获取列表中指定元素的下标
3306
分类专栏
pandas
13篇
笔记
5篇
python
87篇
nlp
2篇
词云图
4篇
matplotlib
5篇
win
2篇
ts
vim
1篇
最新评论
pycharm调出参数提示气泡
那个保牙的:
太给力了,这个功能搜了半天,在你这找到答案了,谢谢!
python制作正态分布图,画出拒绝域
万分星芒不及你~熙缘:
是不是错了
记录一次数据分析的过程。
儿童视力数据(1)
JECK_ケーキ:
数据是我自己搜集的数据,你需要可以发给你,留下联系方式即可
制作一个中国蔬菜产量图
m0_69382521:
博主的技术面很广哦,小菜鸟求带,可以加你微信随时和您交流吗
记录一次数据分析的过程。
儿童视力数据(1)
顾Li-Li:
数据在哪可下载?
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
pandas怎么样扩展数据,就是把加权数据,转换成个案数据
ppt设置字体,抄过来的。
记录一下实验室打开excel文件的尴尬。
2022年11篇
2021年67篇
2020年24篇
2019年1篇
目录
目录
分类专栏
pandas
13篇
笔记
5篇
python
87篇
nlp
2篇
词云图
4篇
matplotlib
5篇
win
2篇
ts
vim
1篇
目录
打赏作者
JECK_ケーキ
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1jieba分词+自定义词典补充+停用词词库补充+词频统计 - 知乎专栏
Python 中文文本分析实战:jieba分词+自定义词典补充+停用词词库补充+词频统计 · 安装结巴: pip install jiaba · 基于Trie树结构实现高效的词图扫描,生成句子中...
- 2结巴分词jieba添加自定义词典 - CSDN博客
结巴分词添加自定义词典,有时候很有必要。比如下面这段话:test_text = """我们的健康码也是绿色的, 这凭什么就限制我们的就医!
- 3Jieba中文分词(一) ——分词与自定义字典 - 腾讯云
Jieba中文分词(一) ——分词与自定义字典 ... 初始化时,先加载词典文件dict.txt,遍历每一行,生成词语-词数的键值对和总词数,并将生成结果保存 ...
- 4詞性標註、關鍵詞提取、添加自定義詞典完整代碼示例- 台部落
jieba 是目前最好的Python 中文分詞組件,它主要有以下3 種特性: 支持3 種分詞模式:精確模式、全模式、搜索引擎模式支持繁體分詞支持自定義詞典1 ...
- 5中文斷詞 - iT 邦幫忙
載入詞典 · 開發者可以指定自己自定義的詞典,以便包含jieba詞庫裡沒有的詞。 · 用法:jieba.load_userdict(file_name)#file_name為文件類對像或自定義詞...