Python:jieba中文分词的使用笔记 - 华为云社区
文章推薦指數: 80 %
【摘要】 文档:https://github.com/fxsjy/jieba 安装pip install jieba 1 分词cut/lcut(self, sentence, cut_all=False, HMM=True, ...
云社区
博客
博客详情
微信
微博
分享文章到微博
复制链接
复制链接到剪贴板
Python:jieba中文分词的使用笔记
彭世瑜
发表于2021/08/1323:45:28
2021/08/13
【摘要】文档:https://github.com/fxsjy/jieba
安装
pipinstalljieba
1
分词
cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False)
#参数:
sentence需要分词的字符串;
cut_all参数用来控制是否采用全模式;
HMM...
文档:https://github.com/fxsjy/jieba
安装
pipinstalljieba
1
分词
cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False)
#参数:
sentence需要分词的字符串;
cut_all参数用来控制是否采用全模式;
HMM参数用来控制是否使用HMM模型;
use_paddle参数用来控制是否使用paddle模式下的分词模式
切出了词典中没有的词语,效果不理想,可以关闭新词发现HMM=False
1
2
3
4
5
6
7
8
9
自定义词典
格式:
词语、词频(可省略)、词性(可省略)
1
示例user-dict.txt
创新办3i
云计算5
凱特琳nz
台中
1
2
3
4
载入词典
#载入词典
jieba.load_userdict(file_name)
1
2
修改词典
#动态修改词典
add_word(word,freq=None,tag=None)
del_word(word)
#调节单个词语的词频
suggest_freq(segment,tune=True)
1
2
3
4
5
6
改变主词典的路径
#加载自定义词典
jieba_token=jieba.Tokenizer(dictionary='user-dict.txt')
#或者手动初始化
jieba.initialize(dictionary='user-dict.txt')
#或者改变主词典的路径
jieba.set_dictionary('user-dict.txt')
1
2
3
4
5
6
7
8
9
文章来源:pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/114291284
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:[email protected]进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
Python
中文分词
点赞
收藏
关注作者
作者其他文章
评论(0)
登录后可评论,请登录或注册
0/1000
评论
抱歉,系统识别当前为高风险访问,暂不支持该操作
评论
全部回复
上滑加载中
设置昵称
在此一键设置昵称,即可参与社区互动!
*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。
*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。
确认
取消
关于作者
推荐阅读
相关产品
新窗
关闭
延伸文章資訊
- 1Python自然語言處理(二):使用jieba進行中文斷詞
原本打算用英文寫的,可是jieba是在斷中文,還用英文寫就有點怪XD. “Python自然語言 ... print('預設:', '|'.join(jieba.cut(text, cut_all...
- 2jieba分詞詳解_鴻煊的學習筆記
HMM即隱馬爾科夫模型,是一種基於馬爾科夫假設的統計模型。之所以為“隱”,是因為相較於馬爾科夫過程HMM有著未知的引數。在世界上,能看到的往往都是表象, ...
- 3(八)通俗易懂理解——jieba中的HMM中文分词原理 - 知乎专栏
jieba是基于统计的分词方法,jieba分词采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型, ...
- 4分詞之精確模式(使用HMM維特比算法發現新詞) - CSDN博客
py 檔則儲存了HMM的參數,從檔名可以看得出來,它們分別是HMM的初始概率、轉移概率及發射概率(皆以對數值表示),在 __init__.py 裡會被用到。 jieba/ ...
- 5fxsjy/jieba: 结巴中文分词
注意:自动计算的词频在使用HMM 新词发现功能时可能无效。 代码示例:. >>> print('/'.join(jieba.cut ...