Python 结巴分词(jieba)使用方法文档及示例代码 - cjavapy.com

文章推薦指數: 80 %
投票人數:10人

本文主要介绍Python中,结巴分词(jieba)的使用相关介绍文档,使用结巴分词(jieba)进行分词的方法,以及相关的示例代码。

C C++ C# Java Python JavaScript 资源共享 其它 Linux Docker LinuxVPS 首页 Python Python编程分享 正文内容Python结巴分词(jieba)使用 PythonPandas通过读取txt文件内容创建DataFrame PythonPandaslist(列表)数据列拆分成多行的方法 PythonPyCrypto(PyCryptodome)ASE实现对文件加密和解密方法 Python排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母) Pythonpandas合并两个或多个DataFrame的方法代码 Python找出英文单词列表(list)中最长单词链 Python两个字典(dic)中相同key合并(value分别作合成后字典key和value) Python使用pip安装tld报错:Cannotuninstall'six' Pythonpandas在给定的日期范围内生成多个随机日期 Pythonpandasjoin交叉连接(crossjoin)的使用及示例代码 Python通过两个字符串(分隔符)分割拆(split)分字符串的方法代码总结 Python大量多个列表(list)合并(合并有相同元素的列表) Pythonnumpy通过一定规则重复数据组中的数据 PythonTensorFlow(CPU版和GPU版)安装配置及简单示例代码 Python3BeautifulSoup安装及爬取网站网页示例代码 Python实现unescape解码JS(escape,encodeURI等方法)url编码字符串 Python(Python2Python3)读写配置文件(ConfigParser)方法 Python将大量多个list中有重复的元素的合成一个list Pythonfind、index和re.search查找包含字符串不区分大小的方法 Python替换每个单词中的第一个字符的方法及示例代码 Python获取二维数组中每列第二个最小值的方法及示例代码 Python使用unicodedata来判断所有标点符号方法及示例代码 Python使用Lambda对list(列表)中指定格式字符串元素排序方法 Python生成指定范围数字正数和负数列表(list) Python将字符串写入文本文件中指定位置和删除行示例代码 Python获取两个list列表中元素平均值的方法及示例代码 Python将数组(np.array)或DataFrame及相关属性保存到文件的方法 Python、aes.js和node.js实现AES(Crypto)加密与解密实现代码 Python正则表达式零宽正负向断言的用法及示例代码 Python删除配置文件中[]方括号内与之间的内容的方法 Python获取解析curl命令行字符串中参数转换成字典(Dictionary) Python合并两个字典(Dictionary)中相同key的value的方法及示例代码 Python使用ftplib切换指定ftp目录不存在则创建目录和上传下载文件 Python中@staticmethod和@classmethod区别及使用示例代码 Python内置装饰器(@property、@staticmethod、@classmethod)使用及示例代码 Python自定义装饰器使用写法及示例代码 Python方法函数使用多个装饰器及示例代码 Python结巴分词(jieba)使用方法文档及示例代码 Python使用结巴分词(jieba)并行分词及示例代码 Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码 Python结巴分词(jieba)的延迟加载机制及示例代码 Python使用结巴分词(jieba)调用命令行分词及示例代码 Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码 Python通过字典(dict)中value获取前n个最大的元素方法及示例代码 Python使用subprocess调用系统命令方法及示例代码 Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法 PythonDataFrame根据列(column)值选择查找行(row)的方法及示例代码 Python使用装饰器实现类中同名方法通过参数调用 Python查找列表(list)中最小或最大的唯一对象元素的方法及示例代码 Python通过装饰器控制函数定义(类似宏定义) Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}") Python3.7获取@dataclass类中字段类型(Field)的方法 PythonDataFrame列表类型的列(Series)折分成多行的方法 PythonPandasDataFrame多个条件过滤筛选数据的方法 PythonDataFrame全连接(fulljoin)的方法及示例代码 Python通过装饰器判断位置参数和关键字参数的方法及示例代码 Python将字符串仅分割拆分成两部分的方法及示例代码 Python仅使用一个for循环不用使用if条件进行奇偶数求和 Python交错合并多个list列表的方法及示例代码 Python通过拆分字典的key创建嵌套字典的方法及示例代码 Python获取多个list数组的交集的方法 Python输入多个0和1返回不同的二制数可能的排列数的方法及示例代码 Python删除list列表中出现的任何空列表的方法 Python指定条件过滤list列表(列表中元素为元组(tuple))方法 Python字符串分割(split)指定多个分隔符的方法 Pythonxlwingspandas获取Excel中某列的数据的最大值和最小值 Pythonopenpyxl和xlwings读取操作Excel的区别及使用示例 Pythonpandas新建sheet保存到Excel文件的方法及示例代码 Python保存数据到Excel文件的方法(pandas、xlwt、openpyxl、xlsxwriter) Pythonpandas保存Excel自动调整列宽的方法及示例代码 Pythonpandas读取和保存DataFrame到Excel中多个sheet的方法及示例代码 PythonNumPyndarray顺时针排序的方法及示例代码 Pythonpandas遍历DataFrame中的行数据的方法及示例代码 Pythonpandas查询过滤某列的值的方法及示例代码 PythonpandasDataFrame转换成NumPy中array数组的方法及示例代码 PythonNumPy将其中的array数组存储到csv文件的方法及示例代码 Python将XML转换成JSON数据的方法总结 Pythonfor循环中访问index索引的方法及示例代码 Pythonpandasdataframeiloc和loc的用法及区别 PythonSQLAlchemy查询结果使用json.dumps()转成JSON字符串方法 Python打印输出多个三角形组成的三角形 Pythonpandas将DataFrame两列合成一列的方法 PythonSeleniumChromeDriver获取指定标签元素内的html Pythonpandasread_html()获取动态或静态页面中的table表格数据到Excel文件 Python实现密码规则验证(正则表达式) Python利用字符串切片实现文本内容加密及解密 Python解析URL及参数的方法(Python2和Python3) PythonDataFrame按某一列中的值计算其它列的最大值和最小值 Pythonpandas对两个DataFrame排序并合并连接的方法 Pythonfor循环遍历字典(dict)的方法 Python两个或多个字典(dict)合并(取字典并集) Python嵌套的字典(dict)转成object对象的方法 Python将字典(dict)转换为DataFrame的几种方法 Python通过列表list创建生成字典dict的方法 Python使用*和**解包字典dict和列表或元组参数(*args,**kwargs) Python读取Excel文件中列数据到list列表的几种方法 PythonDjango配置使用django-ratelimit限制网站接口访问频率 Python读取写入txt文本文件内容及简单记录日志 Pythonpandas通过字段部分匹配合并连接两个DataFrame PythonpandasDataFrame常用操作(新增、删除、修改和查询) Python结巴分词(jieba)使用方法文档及示例代码 levi 编辑于 2022-03-21 本文主要介绍Python中,结巴分词(jieba)的使用相关介绍文档,使用结巴分词(jieba)进行分词的方法,以及相关的示例代码。

1、结巴分词(jieba)的介绍1)支持四种分词模式精确模式:试图将句子最精确地切开,适合文本分析;全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。

同时支持词性标注。

paddle模式使用需安装paddlepaddle-tiny,pipinstallpaddlepaddle-tiny==1.6.1。

目前paddle模式支持jiebav0.40及以上版本。

jiebav0.40以下版本,请升级jieba,pipinstalljieba--upgrade 。

PaddlePaddle官网2)支持繁体分词3)支持自定义词典2、结巴分词(jieba)的安装代码对Python2/3均兼容1)全自动安装easy_installjieba或者pipinstalljieba或者pip3installjieba注意:pip默认安装使用的是国外的源,可能由于网络问题安装失败,则可以尝试使用如下,pipinstalljieba-ihttps://pypi.tuna.tsinghua.edu.cn/simple2)半自动安装先下载http://pypi.python.org/pypi/jieba/,解压后运行pythonsetup.pyinstall3)手动安装将jieba目录放置于当前目录或者site-packages目录4)使用介绍通过importjieba来引用如果需要使用paddle模式下的分词和词性标注功能,请先安装paddlepaddle-tiny,pipinstallpaddlepaddle-tiny==1.6.1。

3、结巴分词(jieba)的使用基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用了动态规划查找最大,概率路径,找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法1)使用jieba分词jieba.cut:方法接受四个输入参数:需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型;use_paddle参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;jieba.cut_for_search:方法接受两个参数:需要分词的字符串;是否使用HMM模型。

该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是unicode或UTF-8字符串、GBK字符串。

注意:不建议直接输入GBK字符串,可能无法预料地错误解码成UTF-8jieba.cut:以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut:以及jieba.lcut_for_search直接返回listjieba.Tokenizer(dictionary=DEFAULT_DICT):新建自定义分词器,可用于同时使用不同词典。

jieba.dt为默认分词器,所有全局分词相关函数都是该分词器的映射。

使用示例:#encoding=utf-8 importjieba jieba.enable_paddle()#启动paddle模式。

0.40版之后开始支持,早期版本不支持 strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"] forstrinstrs: seg_list=jieba.cut(str,use_paddle=True)#使用paddle模式 print("PaddleMode:"+'/'.join(list(seg_list))) seg_list=jieba.cut("我来到北京清华大学",cut_all=True) print("FullMode:"+"/".join(seg_list))#全模式 seg_list=jieba.cut("我来到北京清华大学",cut_all=False) print("DefaultMode:"+"/".join(seg_list))#精确模式 seg_list=jieba.cut("他来到了网易杭研大厦")#默认是精确模式 print(",".join(seg_list)) seg_list=jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")#搜索引擎模式 print(",".join(seg_list))输出:【全模式】:我/来到/北京/清华/清华大学/华大/大学【精确模式】:我/来到/北京/清华大学【新词识别】:他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,后,在,日本,京都,大学,日本京都大学,深造2)添加自定义词典载入词典:开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。

虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率,用法:jieba.load_userdict(file_name)#file_name为文件类对象或自定义词典的路径,词典格式和dict.txt一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。

file_name若为路径或二进制方式打开的文件,则文件必须为UTF-8编码。

词频省略时使用自动计算的能保证分出该词的词频。

例如:创新办3i云计算5凱特琳nz台中更改分词器:(默认为jieba.dt)的tmp_dir和cache_file属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。

(自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt,用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py)3、调整结巴分词(jieba)的词典1)使用add_word(word,freq=None,tag=None)和del_word(word)可在程序中动态修改词典。

2)使用suggest_freq(segment,tune=True)可调节单个词语的词频,使其能(或不能)被分出来。

注意:自动计算的词频在使用HMM新词发现功能时可能无效。

代码示例:>>>print('/'.join(jieba.cut('如果放到post中将出错。

',HMM=False))) 如果/放到/post/中将/出错/。

>>>jieba.suggest_freq(('中','将'),True) 494 >>>print('/'.join(jieba.cut('如果放到post中将出错。

',HMM=False))) 如果/放到/post/中/将/出错/。

>>>print('/'.join(jieba.cut('「苹果」正确应该不会被切开',HMM=False))) 「/苹果/」/正确/应该/不会/被/切开 >>>jieba.suggest_freq('苹果',True) 13353)"通过用户自定义词典来增强歧义纠错能力"--- https://github.com/fxsjy/jieba/issues/14官方文档:https://github.com/fxsjy/jieba 推荐文档 Python使用结巴分词(jieba)并行分词及示例代码 Python结巴分词(jieba)的延迟加载机制及示例代码 JavafastJson的maven配置以及下载使用方法及相关文档 Pythonpandas.DataFrame.nlargest函数方法的使用 Pythonpandas.DataFrame.nsmallest函数方法的使用 Pythonpandas.DataFrame.pipe函数方法的使用 Pythonpandas.DataFrame.pop函数方法的使用 Pythonpandas.DataFrame.prod函数方法的使用 Pythonpandas.DataFrame.quantile函数方法的使用 Pythonpandas.DataFrame.radd函数方法的使用 Pythonpandas.DataFrame.reindex函数方法的使用 Pythonpandas.DataFrame.replace函数方法的使用 Pythonpandas.DataFrame.resample函数方法的使用 Pythonpandas.DataFrame.rolling函数方法的使用 Pythonpandas.DataFrame.sample函数方法的使用 Pythonpandas.DataFrame.squeeze函数方法的使用 Pythonpandas.DataFrame.sub函数方法的使用 Pythonpandas.DataFrame.tail函数方法的使用 Pythonpandas.DataFrame.transpose函数方法的使用 Pythonpandas.DataFrame.tshift函数方法的使用 Pythonpandas.DataFrame.update函数方法的使用 Pythonpandas.DataFrame.where函数方法的使用 Pythonnumpy.core.records.fromarrays函数方法的使用 Pythonnumpy.core.records.fromstring函数方法的使用 Pythonnumpy.ndarray.item函数方法的使用 欢迎! nopain,nogain~ 在线代码编辑运行工具 在线正则表达式测试工具 编程问题探讨交流,关注微博和加QQ群: 1 2 3 4 5 云服务器 阿里云新人福利在校生激励政策如何搭建公司网站 相关文档 Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码 Python使用结巴分词(jieba)调用命令行分词及示例代码 Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码 Pythonpandas.DataFrame.notna函数方法的使用 Pythonpandas.DataFrame.nunique函数方法的使用 Pythonpandas.DataFrame.pivot函数方法的使用 Pythonpandas.DataFrame.pow函数方法的使用 JavaSLF4J下载引用配置使用方法 Pythonpandas.DataFrame.query函数方法的使用 Pythonpandas.DataFrame.rank函数方法的使用 Pythonpandas.DataFrame.rename函数方法的使用 Python方法函数使用多个装饰器及示例代码 Pythonpandas.DataFrame.rfloordiv函数方法的使用 Pythonpandas.DataFrame.round函数方法的使用 Pythonpandas.DataFrame.shift函数方法的使用 Pythonpandas.DataFrame.stack函数方法的使用 Pythonpandas.DataFrame.sum函数方法的使用 Pythonpandas.DataFrame.take函数方法的使用 Pythonpandas.DataFrame.truncate函数方法的使用 Pythonpandas.DataFrame.unstack函数方法的使用 Pythonpandas.DataFrame.var函数方法的使用 Pythonnumpy.fft.hfft函数方法的使用 Pythonnumpy.core.records.fromrecords函数方法的使用 Pythonnumpy.core.records.fromfile函数方法的使用 Linux使用bash脚本登陆网站方法及示例代码 大家感兴趣的内容 ①Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法 ②PythonPandaslist(列表)数据列拆分成多行的方法 ③Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}") ④Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串 ⑤PythonPandasDataFrame.to_html使用及设置CSS样式的方法 随机列表 Python字典(dict)popitem()方法 Python字典(dict)setdefault()方法 Python字典(dict)update()方法 Python字典(dict)values()方法 Python元组(tuple)方法 Python元组(tuple)count()方法 Python元组(tuple)index()方法 Python集合(set)方法 编程问题探讨- 投诉建议 Copyright©cjavapy.com|吉ICP备18005501号-1|&nbsp&nbsp吉公网安备22010602000410号



請為這篇文章評分?