Python:jieba中文分词的使用笔记 - 华为云社区

文章推薦指數: 80 %
投票人數:10人

【摘要】 文档:https://github.com/fxsjy/jieba 安装pip install jieba 1 分词cut/lcut(self, sentence, cut_all=False, HMM=True, ... 云社区 博客 博客详情 微信 微博 分享文章到微博 复制链接 复制链接到剪贴板 Python:jieba中文分词的使用笔记 彭世瑜 发表于2021/08/1323:45:28 2021/08/13 【摘要】文档:https://github.com/fxsjy/jieba 安装 pipinstalljieba 1 分词 cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False) #参数: sentence需要分词的字符串; cut_all参数用来控制是否采用全模式; HMM... 文档:https://github.com/fxsjy/jieba 安装 pipinstalljieba 1 分词 cut/lcut(self,sentence,cut_all=False,HMM=True,use_paddle=False) #参数: sentence需要分词的字符串; cut_all参数用来控制是否采用全模式; HMM参数用来控制是否使用HMM模型; use_paddle参数用来控制是否使用paddle模式下的分词模式 切出了词典中没有的词语,效果不理想,可以关闭新词发现HMM=False 1 2 3 4 5 6 7 8 9 自定义词典 格式: 词语、词频(可省略)、词性(可省略) 1 示例user-dict.txt 创新办3i 云计算5 凱特琳nz 台中 1 2 3 4 载入词典 #载入词典 jieba.load_userdict(file_name) 1 2 修改词典 #动态修改词典 add_word(word,freq=None,tag=None) del_word(word) #调节单个词语的词频 suggest_freq(segment,tune=True) 1 2 3 4 5 6 改变主词典的路径 #加载自定义词典 jieba_token=jieba.Tokenizer(dictionary='user-dict.txt') #或者手动初始化 jieba.initialize(dictionary='user-dict.txt') #或者改变主词典的路径 jieba.set_dictionary('user-dict.txt') 1 2 3 4 5 6 7 8 9 文章来源:pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/114291284 【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:[email protected]进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

Python 中文分词 点赞 收藏 关注作者 作者其他文章 评论(0) 登录后可评论,请登录或注册 0/1000 评论 抱歉,系统识别当前为高风险访问,暂不支持该操作 评论 全部回复 上滑加载中 设置昵称 在此一键设置昵称,即可参与社区互动! *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

确认 取消 关于作者 推荐阅读 相关产品 新窗 关闭



請為這篇文章評分?