Python 结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及 ...
文章推薦指數: 80 %
本文主要介绍Python中,使用结巴分词(jieba)中的Tokenize方法,并返回分词的词语在原文的起止位置,和ChineseAnalyzer的使用,以及相关的示例代码。
C
C++
C#
Java
Python
JavaScript
资源共享
其它
Linux
Docker
LinuxVPS
首页
Python
Python编程分享
正文内容Python结巴分词(jieba)To
PythonPandas通过读取txt文件内容创建DataFrame
PythonPandaslist(列表)数据列拆分成多行的方法
PythonPyCrypto(PyCryptodome)ASE实现对文件加密和解密方法
Python排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母)
Pythonpandas合并两个或多个DataFrame的方法代码
Python找出英文单词列表(list)中最长单词链
Python两个字典(dic)中相同key合并(value分别作合成后字典key和value)
Python使用pip安装tld报错:Cannotuninstall'six'
Pythonpandas在给定的日期范围内生成多个随机日期
Pythonpandasjoin交叉连接(crossjoin)的使用及示例代码
Python通过两个字符串(分隔符)分割拆(split)分字符串的方法代码总结
Python大量多个列表(list)合并(合并有相同元素的列表)
Pythonnumpy通过一定规则重复数据组中的数据
PythonTensorFlow(CPU版和GPU版)安装配置及简单示例代码
Python3BeautifulSoup安装及爬取网站网页示例代码
Python实现unescape解码JS(escape,encodeURI等方法)url编码字符串
Python(Python2Python3)读写配置文件(ConfigParser)方法
Python将大量多个list中有重复的元素的合成一个list
Pythonfind、index和re.search查找包含字符串不区分大小的方法
Python替换每个单词中的第一个字符的方法及示例代码
Python获取二维数组中每列第二个最小值的方法及示例代码
Python使用unicodedata来判断所有标点符号方法及示例代码
Python使用Lambda对list(列表)中指定格式字符串元素排序方法
Python生成指定范围数字正数和负数列表(list)
Python将字符串写入文本文件中指定位置和删除行示例代码
Python获取两个list列表中元素平均值的方法及示例代码
Python将数组(np.array)或DataFrame及相关属性保存到文件的方法
Python、aes.js和node.js实现AES(Crypto)加密与解密实现代码
Python正则表达式零宽正负向断言的用法及示例代码
Python删除配置文件中[]方括号内与之间的内容的方法
Python获取解析curl命令行字符串中参数转换成字典(Dictionary)
Python合并两个字典(Dictionary)中相同key的value的方法及示例代码
Python使用ftplib切换指定ftp目录不存在则创建目录和上传下载文件
Python中@staticmethod和@classmethod区别及使用示例代码
Python内置装饰器(@property、@staticmethod、@classmethod)使用及示例代码
Python自定义装饰器使用写法及示例代码
Python方法函数使用多个装饰器及示例代码
Python结巴分词(jieba)使用方法文档及示例代码
Python使用结巴分词(jieba)并行分词及示例代码
Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码
Python结巴分词(jieba)的延迟加载机制及示例代码
Python使用结巴分词(jieba)调用命令行分词及示例代码
Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码
Python通过字典(dict)中value获取前n个最大的元素方法及示例代码
Python使用subprocess调用系统命令方法及示例代码
Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法
PythonDataFrame根据列(column)值选择查找行(row)的方法及示例代码
Python使用装饰器实现类中同名方法通过参数调用
Python查找列表(list)中最小或最大的唯一对象元素的方法及示例代码
Python通过装饰器控制函数定义(类似宏定义)
Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}")
Python3.7获取@dataclass类中字段类型(Field)的方法
PythonDataFrame列表类型的列(Series)折分成多行的方法
PythonPandasDataFrame多个条件过滤筛选数据的方法
PythonDataFrame全连接(fulljoin)的方法及示例代码
Python通过装饰器判断位置参数和关键字参数的方法及示例代码
Python将字符串仅分割拆分成两部分的方法及示例代码
Python仅使用一个for循环不用使用if条件进行奇偶数求和
Python交错合并多个list列表的方法及示例代码
Python通过拆分字典的key创建嵌套字典的方法及示例代码
Python获取多个list数组的交集的方法
Python输入多个0和1返回不同的二制数可能的排列数的方法及示例代码
Python删除list列表中出现的任何空列表的方法
Python指定条件过滤list列表(列表中元素为元组(tuple))方法
Python字符串分割(split)指定多个分隔符的方法
Pythonxlwingspandas获取Excel中某列的数据的最大值和最小值
Pythonopenpyxl和xlwings读取操作Excel的区别及使用示例
Pythonpandas新建sheet保存到Excel文件的方法及示例代码
Python保存数据到Excel文件的方法(pandas、xlwt、openpyxl、xlsxwriter)
Pythonpandas保存Excel自动调整列宽的方法及示例代码
Pythonpandas读取和保存DataFrame到Excel中多个sheet的方法及示例代码
PythonNumPyndarray顺时针排序的方法及示例代码
Pythonpandas遍历DataFrame中的行数据的方法及示例代码
Pythonpandas查询过滤某列的值的方法及示例代码
PythonpandasDataFrame转换成NumPy中array数组的方法及示例代码
PythonNumPy将其中的array数组存储到csv文件的方法及示例代码
Python将XML转换成JSON数据的方法总结
Pythonfor循环中访问index索引的方法及示例代码
Pythonpandasdataframeiloc和loc的用法及区别
PythonSQLAlchemy查询结果使用json.dumps()转成JSON字符串方法
Python打印输出多个三角形组成的三角形
Pythonpandas将DataFrame两列合成一列的方法
PythonSeleniumChromeDriver获取指定标签元素内的html
Pythonpandasread_html()获取动态或静态页面中的table表格数据到Excel文件
Python实现密码规则验证(正则表达式)
Python利用字符串切片实现文本内容加密及解密
Python解析URL及参数的方法(Python2和Python3)
PythonDataFrame按某一列中的值计算其它列的最大值和最小值
Pythonpandas对两个DataFrame排序并合并连接的方法
Pythonfor循环遍历字典(dict)的方法
Python两个或多个字典(dict)合并(取字典并集)
Python嵌套的字典(dict)转成object对象的方法
Python将字典(dict)转换为DataFrame的几种方法
Python通过列表list创建生成字典dict的方法
Python使用*和**解包字典dict和列表或元组参数(*args,**kwargs)
Python读取Excel文件中列数据到list列表的几种方法
PythonDjango配置使用django-ratelimit限制网站接口访问频率
Python读取写入txt文本文件内容及简单记录日志
Pythonpandas通过字段部分匹配合并连接两个DataFrame
PythonpandasDataFrame常用操作(新增、删除、修改和查询)
Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码
levi
编辑于
2020-07-17
本文主要介绍Python中,使用结巴分词(jieba)中的Tokenize方法,并返回分词的词语在原文的起止位置,和ChineseAnalyzer的使用,以及相关的示例代码。
1、Tokenize的使用返回词语在原文的起止位置注意:输入参数只接受unicode1)默认模式esult=jieba.tokenize(u'永和服装饰品有限公司')fortkinresult:print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))输出:word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限公司start:6end:102)搜索模式result=jieba.tokenize(u'永和服装饰品有限公司',mode='search')fortkinresult:print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))输出:word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限start:6end:8word公司start:8end:10word有限公司start:6end:102、ChineseAnalyzer的使用ChineseAnalyzerforWhoosh搜索引擎1)引用ChineseAnalyzerfromjieba.analyseimportChineseAnalyzer2)用法#-*-coding:UTF-8-*-
from__future__importunicode_literals
importsys,os
sys.path.append("../")
fromwhoosh.indeximportcreate_in,open_dir
fromwhoosh.fieldsimport*
fromwhoosh.qparserimportQueryParser
fromjieba.analyse.analyzerimportChineseAnalyzer
analyzer=ChineseAnalyzer()
schema=Schema(title=TEXT(stored=True),path=ID(stored=True),content=TEXT(stored=True,analyzer=analyzer))
ifnotos.path.exists("tmp"):
os.mkdir("tmp")
ix=create_in("tmp",schema)#forcreatenewindex
#ix=open_dir("tmp")#forreadonly
writer=ix.writer()
writer.add_document(
title="document1",
path="/a",
content="Thisisthefirstdocumentwe’veadded!"
)
writer.add_document(
title="document2",
path="/b",
content="Thesecondone你中文测试中文isevenmoreinteresting!吃水果"
)
writer.add_document(
title="document3",
path="/c",
content="买水果然后来世博园。
"
)
writer.add_document(
title="document4",
path="/c",
content="工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
)
writer.add_document(
title="document4",
path="/c",
content="咱俩交换一下吧。
"
)
writer.commit()
searcher=ix.searcher()
parser=QueryParser("content",schema=ix.schema)
forkeywordin("水果世博园","你","first","中文","交换机","交换"):
print("resultof",keyword)
q=parser.parse(keyword)
results=searcher.search(q)
forhitinresults:
print(hit.highlights("content"))
print("="*10)
fortinanalyzer("我的好朋友是李明;我爱北京天安门;IBM和Microsoft;Ihaveadream.thisisintetestingandinterestedmealot"):
print(t.text)官方文档:https://github.com/fxsjy/jieba相关文档:Python结巴分词(jieba)使用方法文档及示例代码Python使用结巴分词(jieba)并行分词及示例代码Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码Python结巴分词(jieba)的延迟加载机制及示例代码Python使用结巴分词(jieba)调用命令行分词及示例代码
推荐文档
Python使用结巴分词(jieba)并行分词及示例代码
Python结巴分词(jieba)的延迟加载机制及示例代码
Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码
欢迎!
nopain,nogain~
在线代码编辑运行工具
在线正则表达式测试工具
编程问题探讨交流,关注微博和加QQ群:
1
2
3
4
5
云服务器
阿里云新人福利在校生激励政策如何搭建公司网站
相关文档
Python结巴分词(jieba)使用方法文档及示例代码
Python使用结巴分词(jieba)调用命令行分词及示例代码
大家感兴趣的内容
①Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法
②PythonPandaslist(列表)数据列拆分成多行的方法
③Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}")
④Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串
⑤PythonPandasDataFrame.to_html使用及设置CSS样式的方法
随机列表
Python字典(dict)popitem()方法
Python字典(dict)setdefault()方法
Python字典(dict)update()方法
Python字典(dict)values()方法
Python元组(tuple)方法
Python元组(tuple)count()方法
Python元组(tuple)index()方法
Python集合(set)方法
编程问题探讨-
投诉建议
Copyright©cjavapy.com|吉ICP备18005501号-1|  吉公网安备22010602000410号
延伸文章資訊
- 1Python jieba.tokenize方法代碼示例- 純淨天空
在下文中一共展示了jieba.tokenize方法的18個代碼示例,這些例子默認根據受歡迎 ... 需要導入模塊: import jieba [as 別名] # 或者: from jieba i...
- 2fxsjy/jieba: 结巴中文分词
Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。 jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。 代码示例.
- 3Python Examples of jieba.Tokenizer - ProgramCreek.com
Python jieba.Tokenizer() Examples. The following are 14 code examples for showing how to use jieb...
- 4Python Examples of jieba.tokenize - ProgramCreek.com
Python jieba.tokenize() Examples. The following are 30 code examples for showing how to use jieba...
- 5jieba 词性标注& 并行分词| 计算机科学论坛 - LearnKu
jieba 词性标注# 新建自定义分词器jieba.posseg.POSTokenizer(tokenizer=None) # 参数可指定内部使用的jieba.Tokenizer 分词器。 ji...