Python:jieba中文分词的使用笔记 - 华为云社区
文章推薦指數: 80 %
【摘要】 文档:https://github.com/fxsjy/jieba 安装pip install jieba 1 分词cut/lcut(self, sentence, cut_all=False, HMM=True, ...
云社区
博客
博客详情
微信
微博
分享文章到微博
复制链接
复制链接到剪贴板
Python:jieba中文分词的使用笔记
彭世瑜
发表于2021/08/1323:45:28
2021/08/13
【摘要】文档:https://github.com/fxsjy/jieba
安装
pipinstalljieba
1
分词
cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False)
#参数:
sentence需要分词的字符串;
cut_all参数用来控制是否采用全模式;
HMM...
文档:https://github.com/fxsjy/jieba
安装
pipinstalljieba
1
分词
cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False)
#参数:
sentence需要分词的字符串;
cut_all参数用来控制是否采用全模式;
HMM参数用来控制是否使用HMM模型;
use_paddle参数用来控制是否使用paddle模式下的分词模式
切出了词典中没有的词语,效果不理想,可以关闭新词发现HMM=False
1
2
3
4
5
6
7
8
9
自定义词典
格式:
词语、词频(可省略)、词性(可省略)
1
示例user-dict.txt
创新办3i
云计算5
凱特琳nz
台中
1
2
3
4
载入词典
#载入词典
jieba.load_userdict(file_name)
1
2
修改词典
#动态修改词典
add_word(word,freq=None,tag=None)
del_word(word)
#调节单个词语的词频
suggest_freq(segment,tune=True)
1
2
3
4
5
6
改变主词典的路径
#加载自定义词典
jieba_token=jieba.Tokenizer(dictionary='user-dict.txt')
#或者手动初始化
jieba.initialize(dictionary='user-dict.txt')
#或者改变主词典的路径
jieba.set_dictionary('user-dict.txt')
1
2
3
4
5
6
7
8
9
文章来源:pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/114291284
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:[email protected]进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
Python
中文分词
点赞
收藏
关注作者
作者其他文章
评论(0)
登录后可评论,请登录或注册
0/1000
评论
抱歉,系统识别当前为高风险访问,暂不支持该操作
评论
全部回复
上滑加载中
设置昵称
在此一键设置昵称,即可参与社区互动!
*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。
*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。
确认
取消
关于作者
推荐阅读
相关产品
新窗
关闭
延伸文章資訊
- 1中文斷詞 - iT 邦幫忙
注意:自動計算的詞頻在使用HMM新詞發現功能時可能無效。 >>> print('/'.join(jieba.cut('我們中出了一個叛徒', HMM=True))) 我们/中出/了/一个/叛徒>...
- 2Python:jieba中文分词的使用笔记 - 华为云社区
【摘要】 文档:https://github.com/fxsjy/jieba 安装pip install jieba 1 分词cut/lcut(self, sentence, cut_all=F...
- 3jieba结巴分词原理浅析与理解HMM应用在中文分词及部分代码 ...
背景. 这篇博客主要阐述我们在分词任务中常用的分词库结巴jieba分词的实现原理,以及之前博客中讲到的HMM在分词中的应用,算是复习与加深理解一下HMM ...
- 4如何使用jieba 結巴中文分詞程式(Example) - Coderwall
A protip by fukuball about python and jieba. ... 對於辨識新詞(字典詞庫中不存在的詞)則使用了HMM 模型(Hidden Markov Model...
- 5Python - 知名Jieba 中文斷詞工具教學
Jieba 原理介紹 · 使用前綴詞典進行詞圖掃描,生成所有成詞情況的有向無環圖(DAG, directed acyclic graph ). 例如:上=> 上海=> 上海市 · 使用HMM 模...