jieba结巴分词加入自定义词典 - CSDN博客
文章推薦指數: 80 %
添加自定义词典. 开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
jieba结巴分词加入自定义词典
Am最温柔
于 2020-02-1520:18:37 发布
17234
收藏
39
分类专栏:
毕业论文相关
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43919570/article/details/104333181
版权
毕业论文相关
专栏收录该内容
15篇文章
2订阅
订阅专栏
文章目录
分词返回generator返回list
添加自定义词典动态调整词典
参考
jieba官方文档
分词
返回generator
jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),或者用
返回list
jieba.lcut以及jieba.lcut_for_search直接返回list(采用这种方式更加方便)
importjieba
jieba.cut("大连圣亚在大连")
#输出:
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
jieba.load_userdict(r"C:\Users\ASUS\Desktop\user_dict.txt")
print([iforiinjieba.cut("大连圣亚在大连")])
#输出:['大连圣亚','在','大连']
此处错误记录:当文件路径前我没有加r的时候,会报错:SyntaxError:(unicodeerror)‘unicodeescape’codeccan’tdecodebytesinposition2-3:truncated\UXXXXXXXXescape
词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
其中词频我不太懂指的是什么。
动态调整词典
使用add_word(word,freq=None,tag=None)和del_word(word)可在程序中动态修改词典。
这是对“添加自定义词典”功能的补充。
使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来,这个我不太懂在干啥。
jieba.add_word("大连圣亚")
print([iforiinjieba.cut("大连圣亚在大连")])
#输出:['大连圣亚','在','大连']
jieba.lcut("大连圣亚在大连")
#输出:['大连圣亚','在','大连']
开发者涨薪指南
48位大咖的思考法则、工作方式、逻辑体系
Am最温柔
关注
关注
8
点赞
踩
1
评论
39
收藏
打赏
扫一扫,分享内容
点击复制链接
专栏目录
评论 1
您还未登录,请先
登录
后发表或查看评论
相关推荐
下载
jieba分词的自定义词典文档完整版
12-08
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
博客
jieba分词用户自定义词典(即不想被分开的词)
qq_38101190的博客
03-21
1万+
jieba分词简介:
jieba对于一长段文字,其分词原理大体可分为三部:
1.首先用正则表达式将中文段落粗略的分成一个个句子。
2.将每个句子构造成有向无环图,之后寻找最佳切分方案。
3.最后对于连续的单字,采用HMM模型将其再次划分。
三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析;
全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎...
博客
jieba分词增加自定义词表
huludan的专栏
10-03
2万+
在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:
1、领域权威词汇字典
2、搜狗输入法领域词库、百度输入法领域词库
3、jieba分词提供的其他词典:点我查看jieba分词提供的其他字典
然后这三种类型的用户此表取个并集即可,在Python中使用集合操作即可,例如,三种字典均为列表(listt),如下操作即可去除重复:
set(u
博客
python使用结巴分词(jieba)创建自己的词典/词库
qq_41623154的博客
07-24
9632
原文地址:https://ptorch.com/news/204.html
为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建自己的词典。
一、创...
博客
结巴分词jieba添加自定义词典
weixin_40340586的博客
02-07
6523
结巴分词添加自定义词典,有时候很有必要。
比如下面这段话:
test_text="""
我们的健康码也是绿色的,
这凭什么就限制我们的就医!
"""
如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”
这里可以使用词典方式,添加自定义词典。
新建一个txt文件,在文件里输入“健康码”
以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。
然后使用
jieba.load_userdict(os.path.join(wk_dir,"jiebaD
博客
Jieba中文分词(一)——分词与自定义字典
吉姆0818
04-14
2488
jieba分词特点支持四种分词模式:精确模式试图将句子最精确地切开,适合文本分析;全模式把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式在精确模式的基础...
博客
jieba自定义词典精准分词.
Jiashilin
05-29
1万+
代码中的两种方式:
添加自定义词典
jieba.load_userdict("3dict.txt")
添加自定义正则
regex1=u'(?:[^\u4e00-\u9fa5()*&……%¥$,,。
.@!!]){1,5}期'#非汉字xxx期
regex2=r'(?:[0-9]{1,3}[.]?[0-9]{1,3})%'...
博客
jieba分词自定义词表简介
feng98ren的专栏
05-24
1万+
一、jieba分词增加自定义词表在使用jieba分词时经常会发现一些未登录词,因此增加领域词表就变得很重要,下面提供增加几种途径:1、领域权威词汇字典2、搜狗输入法领域词库、百度输入法领域词库3、jieba分词提供的其他词典:点我查看jieba分词提供的其他字典,点我查看jieba分词词性标记含义然后这...
博客
Pythonjiba分词
leiting_imecas的博客
07-17
2519
特点
1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
2,支持繁体分词
3,支持自定义词典
算法实现:
基于Trie树结构
博客
与自定义词典分词_jieba中文分词详解
weixin_33584986的博客
01-14
1939
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。
“结巴”分词是一个Python中文分词组件,可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。
特点jieba分词支持四种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义...
博客
如何在jieba分词中加自定义词典_常见中文分词包比较
weixin_39771791的博客
11-23
42
1jiebajieba.cut方法接受三个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型jieba.cut_for_search方法接受两个参数:需要分词的字符串;是否使用HMM模型。
该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。
注意:...
博客
Pythonjieba分词(使用默认词典,自定义词典,对文件内容分词并统计词频)
qq_44331100的博客
11-06
8275
本文仅作为本人的笔记分享,便于以后查找,也可以提供一些学习笔记给同学们,如有错误,欢迎批评指正
一.jieba分词的三种模式
1.全模式:将可以成词的词语都扫描出来,但是不解决歧义
2.精确模式:将所有句子精确地分开
3.搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
importjieba
'''
jieba分词的三种模式:
1.全模式:将可以成词的词语都扫描出来,但是不解决歧义
2.精确模式:将所有句子精确地分开
3.搜索引擎模式:在精
博客
python中使用jieba进行中文分词
热门推荐
学习机器学习
05-14
3万+
一 “结巴”中文分词:做最好的Python中文分词组件 。
支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词支持自定义词典MIT授权协议 GitHub: https://github....
博客
jieba分词自定义dict字典
boss的博客
03-14
4863
下面是没有加入字典之前:
importjieba
text="我想知道区块链有什么用"
a=jieba.cut(text)
print("/".join(a))
===》我/想/知道/区块/链有/什么/用
下面是加入字典之后:
首先要在同一个包下面创建一个tet文件,
然后里面写上你要不分开的词,词频,词性(可省略)
如块链3n将块链这个词切割开
再用jieb...
博客
python分词模块jieba的使用
lovehave的博客
02-01
223
前言
之前了解jieba主要是在分词方面的使用,最近在具体的学习jieba相关的使用,才感受到jieba作为最好的中文分词组件功能的强大,下面对jieba具体功能的使用做一些总结。
jieba的安装
jieba的安装在原生python环境和anaconda环境不尽相同(之前一直以为anaconda是自带jieba的,使用是才发现需要安装),总体上一共有以下几种安装方式:
全自动安装(原生pyth...
博客
jieba分词自定义词典
Dorisi_H_n_q的博客
08-24
4428
从语料库down下来的词频表,结合业务实际分词进行调优,添加云计算(jieba无法准确划分该词)等词及词频,down的文件格式使用python的文件读写进行调整:
withopen(file='./Minedic.txt',mode='r',encoding='utf-8')asf:
read=f.readlines()
forlineinread:
st...
博客
jieba之sedict(自定义字典)
wangsiji_buaa的博客
05-10
1万+
代码:importjieba
string="李小福是创新办主任也是云计算方面的专家"
#精确模式分词
cut_result=jieba.cut(string)
print("==="*20)
print("/".join(cut_result))
#创新办没有识别出来
#用自定义词典来定义创新办
#创新办3i
jieba.load_userdict("userdi...
博客
如何在jieba分词中加自定义词典_R-数据挖掘|jiebaR分词
weixin_39759995的博客
11-23
156
一、jiebaR主要函数1.worker():加载jiebaR库的分词引擎worker(type="mix",dict=DICTPATH,hmm=HMMPATH,user=USERPATH,
idf=IDFPATH,stop_word=STOPPATH,write=T,qmax=20,topn=5,
encoding="UTF-8",de...
博客
python使用jieba库进行分词并添加新词
最新发布
ThePythonFucker的博客
03-18
1080
因为放各种文字都可能侵权,所以我在代码里就用x来代替了,使用时记得先替换成自己需要的文本
importjieba
text='xxxx'#此处填写文本
print(text)
print('\n\n---------------------cut_all=False----------------------\n')
seq_list=jieba.cut(text,cut_all=False)
print(list(seq_list))
print('\n\n...
博客
解决jieba分词load_userdict加载自定义词库太慢的问题
李BOY的博客
12-24
2万+
@(Python)
文章目录1.技术背景2.结巴分词加载自身词库方法介绍3.修改jieba默认词库4.清除jieba.cache缓存,重启jieba5.效果展示5.1没修改词库前5.2修改词库后6.结论
1.技术背景
importjieba
jieba.load_userdict("100MB.txt")
问题来源相信大家对上面2句话很熟悉,jieba分词加载自定义...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
Am最温柔
CSDN认证博客专家
CSDN认证企业博客
码龄4年
暂无认证
175
原创
17万+
周排名
1万+
总排名
26万+
访问
等级
3014
积分
48
粉丝
111
获赞
36
评论
465
收藏
私信
关注
热门文章
stata中变量生成命令:gen和egen
58705
stata将字符类型转为数字类型
54121
stata的清洗数据——去除重复数据
25836
stata字符串类型转数值日期方法
22076
【pycharm】RunConfigurationError:Pleasespecifyscriptname
17435
分类专栏
菜菜做题
91篇
C++
11篇
数据库优化器论文阅读
1篇
力扣SQL
1篇
数据库系统概论
2篇
编译原理
2篇
数据结构
7篇
华为机试
20篇
C语言
11篇
gcc
git
1篇
linux
4篇
postgresql
1篇
笔记
4篇
stata
5篇
jupyter
毕业论文相关
15篇
机器学习
pandas
1篇
numpy
2篇
codeblocks
1篇
pycharm
1篇
爬虫
2篇
最新评论
力扣刷题对heap-use-after-freeonaddress错误原因之一猜想
weixin_46057850:
可以,完美解决
stata中变量生成命令:gen和egen
Leo_Tse:
终于弄明白了egen=extragenerate
stata横向合并
Eva满:
请问,如何将101518三年的全国调查数据进行合并,三年的样本数量不同,有的变量不同,合并好目前是想算均值t检验,helpmerge还是合并不成功
stata字符串类型转数值日期方法
m0_66794782:
数字类型的如何转化为字符型的呢
stata将字符类型转为数字类型
一个想要变强的小白:
谢谢!!
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
字符串转换整数(atoi)
寻找两个正序数组的中位数
剑指Offer11.旋转数组的最小数字
2022年6篇
2021年97篇
2020年72篇
2019年1篇
目录
目录
分类专栏
菜菜做题
91篇
C++
11篇
数据库优化器论文阅读
1篇
力扣SQL
1篇
数据库系统概论
2篇
编译原理
2篇
数据结构
7篇
华为机试
20篇
C语言
11篇
gcc
git
1篇
linux
4篇
postgresql
1篇
笔记
4篇
stata
5篇
jupyter
毕业论文相关
15篇
机器学习
pandas
1篇
numpy
2篇
codeblocks
1篇
pycharm
1篇
爬虫
2篇
目录
打赏作者
Am最温柔
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1詞性標註、關鍵詞提取、添加自定義詞典完整代碼示例- 台部落
jieba 是目前最好的Python 中文分詞組件,它主要有以下3 種特性: 支持3 種分詞模式:精確模式、全模式、搜索引擎模式支持繁體分詞支持自定義詞典1 ...
- 2jieba结巴分词加入自定义词典 - CSDN博客
添加自定义词典. 开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率
- 3结巴分词jieba添加自定义词典 - CSDN博客
结巴分词添加自定义词典,有时候很有必要。比如下面这段话:test_text = """我们的健康码也是绿色的, 这凭什么就限制我们的就医!
- 4Jieba中文分词(一) ——分词与自定义字典 - 腾讯云
Jieba中文分词(一) ——分词与自定义字典 ... 初始化时,先加载词典文件dict.txt,遍历每一行,生成词语-词数的键值对和总词数,并将生成结果保存 ...
- 5jieba分詞、自定義詞典提取高頻詞、詞性標註及獲取詞的位置
支援自定義詞典. 演算法. 基於Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG); 採用了動態規劃查詢最大概率 ...