Python 结巴分词(jieba)使用方法文档及示例代码 - cjavapy.com
文章推薦指數: 80 %
本文主要介绍Python中,结巴分词(jieba)的使用相关介绍文档,使用结巴分词(jieba)进行分词的方法,以及相关的示例代码。
C
C++
C#
Java
Python
JavaScript
资源共享
其它
Linux
Docker
LinuxVPS
首页
Python
Python编程分享
正文内容Python结巴分词(jieba)使用
PythonPandas通过读取txt文件内容创建DataFrame
PythonPandaslist(列表)数据列拆分成多行的方法
PythonPyCrypto(PyCryptodome)ASE实现对文件加密和解密方法
Python排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)
Pythonpandas合并两个或多个DataFrame的方法代码
Python找出英文单词列表(list)中最长单词链
Python两个字典(dic)中相同key合并(value分别作合成后字典key和value)
Python使用pip安装tld报错:Cannotuninstall'six'
Pythonpandas在给定的日期范围内生成多个随机日期
Pythonpandasjoin交叉连接(crossjoin)的使用及示例代码
Python通过两个字符串(分隔符)分割拆(split)分字符串的方法代码总结
Python大量多个列表(list)合并(合并有相同元素的列表)
Pythonnumpy通过一定规则重复数据组中的数据
PythonTensorFlow(CPU版和GPU版)安装配置及简单示例代码
Python3BeautifulSoup安装及爬取网站网页示例代码
Python实现unescape解码JS(escape,encodeURI等方法)url编码字符串
Python(Python2Python3)读写配置文件(ConfigParser)方法
Python将大量多个list中有重复的元素的合成一个list
Pythonfind、index和re.search查找包含字符串不区分大小的方法
Python替换每个单词中的第一个字符的方法及示例代码
Python获取二维数组中每列第二个最小值的方法及示例代码
Python使用unicodedata来判断所有标点符号方法及示例代码
Python使用Lambda对list(列表)中指定格式字符串元素排序方法
Python生成指定范围数字正数和负数列表(list)
Python将字符串写入文本文件中指定位置和删除行示例代码
Python获取两个list列表中元素平均值的方法及示例代码
Python将数组(np.array)或DataFrame及相关属性保存到文件的方法
Python、aes.js和node.js实现AES(Crypto)加密与解密实现代码
Python正则表达式零宽正负向断言的用法及示例代码
Python删除配置文件中[]方括号内与之间的内容的方法
Python获取解析curl命令行字符串中参数转换成字典(Dictionary)
Python合并两个字典(Dictionary)中相同key的value的方法及示例代码
Python使用ftplib切换指定ftp目录不存在则创建目录和上传下载文件
Python中@staticmethod和@classmethod区别及使用示例代码
Python内置装饰器(@property、@staticmethod、@classmethod)使用及示例代码
Python自定义装饰器使用写法及示例代码
Python方法函数使用多个装饰器及示例代码
Python结巴分词(jieba)使用方法文档及示例代码
Python使用结巴分词(jieba)并行分词及示例代码
Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码
Python结巴分词(jieba)的延迟加载机制及示例代码
Python使用结巴分词(jieba)调用命令行分词及示例代码
Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码
Python通过字典(dict)中value获取前n个最大的元素方法及示例代码
Python使用subprocess调用系统命令方法及示例代码
Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法
PythonDataFrame根据列(column)值选择查找行(row)的方法及示例代码
Python使用装饰器实现类中同名方法通过参数调用
Python查找列表(list)中最小或最大的唯一对象元素的方法及示例代码
Python通过装饰器控制函数定义(类似宏定义)
Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}")
Python3.7获取@dataclass类中字段类型(Field)的方法
PythonDataFrame列表类型的列(Series)折分成多行的方法
PythonPandasDataFrame多个条件过滤筛选数据的方法
PythonDataFrame全连接(fulljoin)的方法及示例代码
Python通过装饰器判断位置参数和关键字参数的方法及示例代码
Python将字符串仅分割拆分成两部分的方法及示例代码
Python仅使用一个for循环不用使用if条件进行奇偶数求和
Python交错合并多个list列表的方法及示例代码
Python通过拆分字典的key创建嵌套字典的方法及示例代码
Python获取多个list数组的交集的方法
Python输入多个0和1返回不同的二制数可能的排列数的方法及示例代码
Python删除list列表中出现的任何空列表的方法
Python指定条件过滤list列表(列表中元素为元组(tuple))方法
Python字符串分割(split)指定多个分隔符的方法
Pythonxlwingspandas获取Excel中某列的数据的最大值和最小值
Pythonopenpyxl和xlwings读取操作Excel的区别及使用示例
Pythonpandas新建sheet保存到Excel文件的方法及示例代码
Python保存数据到Excel文件的方法(pandas、xlwt、openpyxl、xlsxwriter)
Pythonpandas保存Excel自动调整列宽的方法及示例代码
Pythonpandas读取和保存DataFrame到Excel中多个sheet的方法及示例代码
PythonNumPyndarray顺时针排序的方法及示例代码
Pythonpandas遍历DataFrame中的行数据的方法及示例代码
Pythonpandas查询过滤某列的值的方法及示例代码
PythonpandasDataFrame转换成NumPy中array数组的方法及示例代码
PythonNumPy将其中的array数组存储到csv文件的方法及示例代码
Python将XML转换成JSON数据的方法总结
Pythonfor循环中访问index索引的方法及示例代码
Pythonpandasdataframeiloc和loc的用法及区别
PythonSQLAlchemy查询结果使用json.dumps()转成JSON字符串方法
Python打印输出多个三角形组成的三角形
Pythonpandas将DataFrame两列合成一列的方法
PythonSeleniumChromeDriver获取指定标签元素内的html
Pythonpandasread_html()获取动态或静态页面中的table表格数据到Excel文件
Python实现密码规则验证(正则表达式)
Python利用字符串切片实现文本内容加密及解密
Python解析URL及参数的方法(Python2和Python3)
PythonDataFrame按某一列中的值计算其它列的最大值和最小值
Pythonpandas对两个DataFrame排序并合并连接的方法
Pythonfor循环遍历字典(dict)的方法
Python两个或多个字典(dict)合并(取字典并集)
Python嵌套的字典(dict)转成object对象的方法
Python将字典(dict)转换为DataFrame的几种方法
Python通过列表list创建生成字典dict的方法
Python使用*和**解包字典dict和列表或元组参数(*args,**kwargs)
Python读取Excel文件中列数据到list列表的几种方法
PythonDjango配置使用django-ratelimit限制网站接口访问频率
Python读取写入txt文本文件内容及简单记录日志
Pythonpandas通过字段部分匹配合并连接两个DataFrame
PythonpandasDataFrame常用操作(新增、删除、修改和查询)
Python结巴分词(jieba)使用方法文档及示例代码
levi
编辑于
2022-03-21
本文主要介绍Python中,结巴分词(jieba)的使用相关介绍文档,使用结巴分词(jieba)进行分词的方法,以及相关的示例代码。
1、结巴分词(jieba)的介绍1)支持四种分词模式精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。
同时支持词性标注。
paddle模式使用需安装paddlepaddle-tiny,pipinstallpaddlepaddle-tiny==1.6.1。
目前paddle模式支持jiebav0.40及以上版本。
jiebav0.40以下版本,请升级jieba,pipinstalljieba--upgrade 。
PaddlePaddle官网2)支持繁体分词3)支持自定义词典2、结巴分词(jieba)的安装代码对Python2/3均兼容1)全自动安装easy_installjieba或者pipinstalljieba或者pip3installjieba注意:pip默认安装使用的是国外的源,可能由于网络问题安装失败,则可以尝试使用如下,pipinstalljieba-ihttps://pypi.tuna.tsinghua.edu.cn/simple2)半自动安装先下载http://pypi.python.org/pypi/jieba/,解压后运行pythonsetup.pyinstall3)手动安装将jieba目录放置于当前目录或者site-packages目录4)使用介绍通过importjieba来引用如果需要使用paddle模式下的分词和词性标注功能,请先安装paddlepaddle-tiny,pipinstallpaddlepaddle-tiny==1.6.1。
3、结巴分词(jieba)的使用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大,概率路径,找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法1)使用jieba分词jieba.cut:方法接受四个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型;use_paddle参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;jieba.cut_for_search:方法接受两个参数:需要分词的字符串;是否使用HMM模型。
该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。
注意:不建议直接输入GBK字符串,可能无法预料地错误解码成UTF-8jieba.cut:以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut:以及jieba.lcut_for_search直接返回listjieba.Tokenizer(dictionary=DEFAULT_DICT):新建自定义分词器,可用于同时使用不同词典。
jieba.dt为默认分词器,所有全局分词相关函数都是该分词器的映射。
使用示例:#encoding=utf-8
importjieba
jieba.enable_paddle()#启动paddle模式。
0.40版之后开始支持,早期版本不支持
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
forstrinstrs:
seg_list=jieba.cut(str,use_paddle=True)#使用paddle模式
print("PaddleMode:"+'/'.join(list(seg_list)))
seg_list=jieba.cut("我来到北京清华大学",cut_all=True)
print("FullMode:"+"/".join(seg_list))#全模式
seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
print("DefaultMode:"+"/".join(seg_list))#精确模式
seg_list=jieba.cut("他来到了网易杭研大厦")#默认是精确模式
print(",".join(seg_list))
seg_list=jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")#搜索引擎模式
print(",".join(seg_list))输出:【全模式】:我/来到/北京/清华/清华大学/华大/大学【精确模式】:我/来到/北京/清华大学【新词识别】:他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,后,在,日本,京都,大学,日本京都大学,深造2)添加自定义词典载入词典:开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率,用法:jieba.load_userdict(file_name)#file_name为文件类对象或自定义词典的路径,词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
file_name若为路径或二进制方式打开的文件,则文件必须为UTF-8编码。
词频省略时使用自动计算的能保证分出该词的词频。
例如:创新办3i云计算5凱特琳nz台中更改分词器:(默认为jieba.dt)的tmp_dir和cache_file属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。
(自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt,用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py)3、调整结巴分词(jieba)的词典1)使用add_word(word,freq=None,tag=None)和del_word(word)可在程序中动态修改词典。
2)使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来。
注意:自动计算的词频在使用HMM新词发现功能时可能无效。
代码示例:>>>print('/'.join(jieba.cut('如果放到post中将出错。
',HMM=False)))
如果/放到/post/中将/出错/。
>>>jieba.suggest_freq(('中','将'),True)
494
>>>print('/'.join(jieba.cut('如果放到post中将出错。
',HMM=False)))
如果/放到/post/中/将/出错/。
>>>print('/'.join(jieba.cut('「苹果」正确应该不会被切开',HMM=False)))
「/苹果/」/正确/应该/不会/被/切开
>>>jieba.suggest_freq('苹果',True)
13353)"通过用户自定义词典来增强歧义纠错能力"--- https://github.com/fxsjy/jieba/issues/14官方文档:https://github.com/fxsjy/jieba
推荐文档
Python使用结巴分词(jieba)并行分词及示例代码
Python结巴分词(jieba)的延迟加载机制及示例代码
JavafastJson的maven配置以及下载使用方法及相关文档
Pythonpandas.DataFrame.nlargest函数方法的使用
Pythonpandas.DataFrame.nsmallest函数方法的使用
Pythonpandas.DataFrame.pipe函数方法的使用
Pythonpandas.DataFrame.pop函数方法的使用
Pythonpandas.DataFrame.prod函数方法的使用
Pythonpandas.DataFrame.quantile函数方法的使用
Pythonpandas.DataFrame.radd函数方法的使用
Pythonpandas.DataFrame.reindex函数方法的使用
Pythonpandas.DataFrame.replace函数方法的使用
Pythonpandas.DataFrame.resample函数方法的使用
Pythonpandas.DataFrame.rolling函数方法的使用
Pythonpandas.DataFrame.sample函数方法的使用
Pythonpandas.DataFrame.squeeze函数方法的使用
Pythonpandas.DataFrame.sub函数方法的使用
Pythonpandas.DataFrame.tail函数方法的使用
Pythonpandas.DataFrame.transpose函数方法的使用
Pythonpandas.DataFrame.tshift函数方法的使用
Pythonpandas.DataFrame.update函数方法的使用
Pythonpandas.DataFrame.where函数方法的使用
Pythonnumpy.core.records.fromarrays函数方法的使用
Pythonnumpy.core.records.fromstring函数方法的使用
Pythonnumpy.ndarray.item函数方法的使用
欢迎!
nopain,nogain~
在线代码编辑运行工具
在线正则表达式测试工具
编程问题探讨交流,关注微博和加QQ群:
1
2
3
4
5
云服务器
阿里云新人福利在校生激励政策如何搭建公司网站
相关文档
Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码
Python使用结巴分词(jieba)调用命令行分词及示例代码
Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码
Pythonpandas.DataFrame.notna函数方法的使用
Pythonpandas.DataFrame.nunique函数方法的使用
Pythonpandas.DataFrame.pivot函数方法的使用
Pythonpandas.DataFrame.pow函数方法的使用
JavaSLF4J下载引用配置使用方法
Pythonpandas.DataFrame.query函数方法的使用
Pythonpandas.DataFrame.rank函数方法的使用
Pythonpandas.DataFrame.rename函数方法的使用
Python方法函数使用多个装饰器及示例代码
Pythonpandas.DataFrame.rfloordiv函数方法的使用
Pythonpandas.DataFrame.round函数方法的使用
Pythonpandas.DataFrame.shift函数方法的使用
Pythonpandas.DataFrame.stack函数方法的使用
Pythonpandas.DataFrame.sum函数方法的使用
Pythonpandas.DataFrame.take函数方法的使用
Pythonpandas.DataFrame.truncate函数方法的使用
Pythonpandas.DataFrame.unstack函数方法的使用
Pythonpandas.DataFrame.var函数方法的使用
Pythonnumpy.fft.hfft函数方法的使用
Pythonnumpy.core.records.fromrecords函数方法的使用
Pythonnumpy.core.records.fromfile函数方法的使用
Linux使用bash脚本登陆网站方法及示例代码
大家感兴趣的内容
①Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法
②PythonPandaslist(列表)数据列拆分成多行的方法
③Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}")
④Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串
⑤PythonPandasDataFrame.to_html使用及设置CSS样式的方法
随机列表
Python字典(dict)popitem()方法
Python字典(dict)setdefault()方法
Python字典(dict)update()方法
Python字典(dict)values()方法
Python元组(tuple)方法
Python元组(tuple)count()方法
Python元组(tuple)index()方法
Python集合(set)方法
编程问题探讨-
投诉建议
Copyright©cjavapy.com|吉ICP备18005501号-1|  吉公网安备22010602000410号
延伸文章資訊
- 1python jieba分詞(結巴分詞)、提取詞,載入詞,修改詞頻
轉載請註明出處"結巴"中文分詞:做最好的Python 中文分片語件,分詞模組jieba,它是python比較好用的分詞模組, 支援中文簡體,繁體分詞,還支援自定義 ...
- 2Python 结巴分词(jieba)使用方法文档及示例代码 - cjavapy.com
本文主要介绍Python中,结巴分词(jieba)的使用相关介绍文档,使用结巴分词(jieba)进行分词的方法,以及相关的示例代码。
- 3如何使用jieba 結巴中文分詞程式(Example) - Coderwall
近來玩了一下jieba 結巴這個Python Based 的開源中文斷詞程式,感覺大好,順手發了一些pull request,今天早上就成為contributor 了! 感覺真爽!
- 4Python jieba 中文斷詞套件 - 大學生's Blog
jieba中文斷詞套件. 结巴中文分词. https://github.com/fxsjy/jieba. 交大資管開發的結巴(jieba)斷詞台灣繁體特化版本.
- 5fxsjy/jieba: 结巴中文分词
“结巴”中文分词:做最好的Python 中文分词组件. "Jieba" (Chinese for "to stutter") Chinese text segmentation: built t...