Python 结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及 ...

文章推薦指數: 80 %
投票人數:10人

本文主要介绍Python中,使用结巴分词(jieba)中的Tokenize方法,并返回分词的词语在原文的起止位置,和ChineseAnalyzer的使用,以及相关的示例代码。

C C++ C# Java Python JavaScript 资源共享 其它 Linux Docker LinuxVPS 首页 Python Python编程分享 正文内容Python结巴分词(jieba)To PythonPandas通过读取txt文件内容创建DataFrame PythonPandaslist(列表)数据列拆分成多行的方法 PythonPyCrypto(PyCryptodome)ASE实现对文件加密和解密方法 Python排序最长英文单词链(列表中前一个单词末字母是下一个单词的首字母) Pythonpandas合并两个或多个DataFrame的方法代码 Python找出英文单词列表(list)中最长单词链 Python两个字典(dic)中相同key合并(value分别作合成后字典key和value) Python使用pip安装tld报错:Cannotuninstall'six' Pythonpandas在给定的日期范围内生成多个随机日期 Pythonpandasjoin交叉连接(crossjoin)的使用及示例代码 Python通过两个字符串(分隔符)分割拆(split)分字符串的方法代码总结 Python大量多个列表(list)合并(合并有相同元素的列表) Pythonnumpy通过一定规则重复数据组中的数据 PythonTensorFlow(CPU版和GPU版)安装配置及简单示例代码 Python3BeautifulSoup安装及爬取网站网页示例代码 Python实现unescape解码JS(escape,encodeURI等方法)url编码字符串 Python(Python2Python3)读写配置文件(ConfigParser)方法 Python将大量多个list中有重复的元素的合成一个list Pythonfind、index和re.search查找包含字符串不区分大小的方法 Python替换每个单词中的第一个字符的方法及示例代码 Python获取二维数组中每列第二个最小值的方法及示例代码 Python使用unicodedata来判断所有标点符号方法及示例代码 Python使用Lambda对list(列表)中指定格式字符串元素排序方法 Python生成指定范围数字正数和负数列表(list) Python将字符串写入文本文件中指定位置和删除行示例代码 Python获取两个list列表中元素平均值的方法及示例代码 Python将数组(np.array)或DataFrame及相关属性保存到文件的方法 Python、aes.js和node.js实现AES(Crypto)加密与解密实现代码 Python正则表达式零宽正负向断言的用法及示例代码 Python删除配置文件中[]方括号内与之间的内容的方法 Python获取解析curl命令行字符串中参数转换成字典(Dictionary) Python合并两个字典(Dictionary)中相同key的value的方法及示例代码 Python使用ftplib切换指定ftp目录不存在则创建目录和上传下载文件 Python中@staticmethod和@classmethod区别及使用示例代码 Python内置装饰器(@property、@staticmethod、@classmethod)使用及示例代码 Python自定义装饰器使用写法及示例代码 Python方法函数使用多个装饰器及示例代码 Python结巴分词(jieba)使用方法文档及示例代码 Python使用结巴分词(jieba)并行分词及示例代码 Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码 Python结巴分词(jieba)的延迟加载机制及示例代码 Python使用结巴分词(jieba)调用命令行分词及示例代码 Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码 Python通过字典(dict)中value获取前n个最大的元素方法及示例代码 Python使用subprocess调用系统命令方法及示例代码 Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法 PythonDataFrame根据列(column)值选择查找行(row)的方法及示例代码 Python使用装饰器实现类中同名方法通过参数调用 Python查找列表(list)中最小或最大的唯一对象元素的方法及示例代码 Python通过装饰器控制函数定义(类似宏定义) Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}") Python3.7获取@dataclass类中字段类型(Field)的方法 PythonDataFrame列表类型的列(Series)折分成多行的方法 PythonPandasDataFrame多个条件过滤筛选数据的方法 PythonDataFrame全连接(fulljoin)的方法及示例代码 Python通过装饰器判断位置参数和关键字参数的方法及示例代码 Python将字符串仅分割拆分成两部分的方法及示例代码 Python仅使用一个for循环不用使用if条件进行奇偶数求和 Python交错合并多个list列表的方法及示例代码 Python通过拆分字典的key创建嵌套字典的方法及示例代码 Python获取多个list数组的交集的方法 Python输入多个0和1返回不同的二制数可能的排列数的方法及示例代码 Python删除list列表中出现的任何空列表的方法 Python指定条件过滤list列表(列表中元素为元组(tuple))方法 Python字符串分割(split)指定多个分隔符的方法 Pythonxlwingspandas获取Excel中某列的数据的最大值和最小值 Pythonopenpyxl和xlwings读取操作Excel的区别及使用示例 Pythonpandas新建sheet保存到Excel文件的方法及示例代码 Python保存数据到Excel文件的方法(pandas、xlwt、openpyxl、xlsxwriter) Pythonpandas保存Excel自动调整列宽的方法及示例代码 Pythonpandas读取和保存DataFrame到Excel中多个sheet的方法及示例代码 PythonNumPyndarray顺时针排序的方法及示例代码 Pythonpandas遍历DataFrame中的行数据的方法及示例代码 Pythonpandas查询过滤某列的值的方法及示例代码 PythonpandasDataFrame转换成NumPy中array数组的方法及示例代码 PythonNumPy将其中的array数组存储到csv文件的方法及示例代码 Python将XML转换成JSON数据的方法总结 Pythonfor循环中访问index索引的方法及示例代码 Pythonpandasdataframeiloc和loc的用法及区别 PythonSQLAlchemy查询结果使用json.dumps()转成JSON字符串方法 Python打印输出多个三角形组成的三角形 Pythonpandas将DataFrame两列合成一列的方法 PythonSeleniumChromeDriver获取指定标签元素内的html Pythonpandasread_html()获取动态或静态页面中的table表格数据到Excel文件 Python实现密码规则验证(正则表达式) Python利用字符串切片实现文本内容加密及解密 Python解析URL及参数的方法(Python2和Python3) PythonDataFrame按某一列中的值计算其它列的最大值和最小值 Pythonpandas对两个DataFrame排序并合并连接的方法 Pythonfor循环遍历字典(dict)的方法 Python两个或多个字典(dict)合并(取字典并集) Python嵌套的字典(dict)转成object对象的方法 Python将字典(dict)转换为DataFrame的几种方法 Python通过列表list创建生成字典dict的方法 Python使用*和**解包字典dict和列表或元组参数(*args,**kwargs) Python读取Excel文件中列数据到list列表的几种方法 PythonDjango配置使用django-ratelimit限制网站接口访问频率 Python读取写入txt文本文件内容及简单记录日志 Pythonpandas通过字段部分匹配合并连接两个DataFrame PythonpandasDataFrame常用操作(新增、删除、修改和查询) Python结巴分词(jieba)Tokenize和ChineseAnalyzer的使用及示例代码 levi 编辑于 2020-07-17 本文主要介绍Python中,使用结巴分词(jieba)中的Tokenize方法,并返回分词的词语在原文的起止位置,和ChineseAnalyzer的使用,以及相关的示例代码。

1、Tokenize的使用返回词语在原文的起止位置注意:输入参数只接受unicode1)默认模式esult=jieba.tokenize(u'永和服装饰品有限公司')fortkinresult:print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))输出:word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限公司start:6end:102)搜索模式result=jieba.tokenize(u'永和服装饰品有限公司',mode='search')fortkinresult:print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))输出:word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限start:6end:8word公司start:8end:10word有限公司start:6end:102、ChineseAnalyzer的使用ChineseAnalyzerforWhoosh搜索引擎1)引用ChineseAnalyzerfromjieba.analyseimportChineseAnalyzer2)用法#-*-coding:UTF-8-*- from__future__importunicode_literals importsys,os sys.path.append("../") fromwhoosh.indeximportcreate_in,open_dir fromwhoosh.fieldsimport* fromwhoosh.qparserimportQueryParser fromjieba.analyse.analyzerimportChineseAnalyzer analyzer=ChineseAnalyzer() schema=Schema(title=TEXT(stored=True),path=ID(stored=True),content=TEXT(stored=True,analyzer=analyzer)) ifnotos.path.exists("tmp"): os.mkdir("tmp") ix=create_in("tmp",schema)#forcreatenewindex #ix=open_dir("tmp")#forreadonly writer=ix.writer() writer.add_document( title="document1", path="/a", content="Thisisthefirstdocumentwe’veadded!" ) writer.add_document( title="document2", path="/b", content="Thesecondone你中文测试中文isevenmoreinteresting!吃水果" ) writer.add_document( title="document3", path="/c", content="买水果然后来世博园。

" ) writer.add_document( title="document4", path="/c", content="工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作" ) writer.add_document( title="document4", path="/c", content="咱俩交换一下吧。

" ) writer.commit() searcher=ix.searcher() parser=QueryParser("content",schema=ix.schema) forkeywordin("水果世博园","你","first","中文","交换机","交换"): print("resultof",keyword) q=parser.parse(keyword) results=searcher.search(q) forhitinresults: print(hit.highlights("content")) print("="*10) fortinanalyzer("我的好朋友是李明;我爱北京天安门;IBM和Microsoft;Ihaveadream.thisisintetestingandinterestedmealot"): print(t.text)官方文档:https://github.com/fxsjy/jieba相关文档:Python结巴分词(jieba)使用方法文档及示例代码Python使用结巴分词(jieba)并行分词及示例代码Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码Python结巴分词(jieba)的延迟加载机制及示例代码Python使用结巴分词(jieba)调用命令行分词及示例代码 推荐文档 Python使用结巴分词(jieba)并行分词及示例代码 Python结巴分词(jieba)的延迟加载机制及示例代码 Python使用结巴分词(jieba)提取关键词和词性标注方法及示例代码 欢迎! nopain,nogain~ 在线代码编辑运行工具 在线正则表达式测试工具 编程问题探讨交流,关注微博和加QQ群: 1 2 3 4 5 云服务器 阿里云新人福利在校生激励政策如何搭建公司网站 相关文档 Python结巴分词(jieba)使用方法文档及示例代码 Python使用结巴分词(jieba)调用命令行分词及示例代码 大家感兴趣的内容 ①Python字符串变量中去除换行(\n,\r)和空格等特殊字符的方法 ②PythonPandaslist(列表)数据列拆分成多行的方法 ③Python2.7安装pip报错sys.stderr.write(f"ERROR:{exc}") ④Python(Python2、Python3)读取gzip(.gz)文件中utf8(utf-8)编码字符串 ⑤PythonPandasDataFrame.to_html使用及设置CSS样式的方法 随机列表 Python字典(dict)popitem()方法 Python字典(dict)setdefault()方法 Python字典(dict)update()方法 Python字典(dict)values()方法 Python元组(tuple)方法 Python元组(tuple)count()方法 Python元组(tuple)index()方法 Python集合(set)方法 编程问题探讨- 投诉建议 Copyright©cjavapy.com|吉ICP备18005501号-1|&nbsp&nbsp吉公网安备22010602000410号



請為這篇文章評分?