Jieba、NLTK等中英文分词工具进行分词 - CSDN博客
文章推薦指數: 80 %
实验目的:利用给定的中英文文本序列(见Chinese.txt 和English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行 ...
Jieba、NLTK等中英文分词工具进行分词
木禾DING
于 2019-03-2023:03:40 发布
22155
收藏
88
分类专栏:
NLP
文章标签:
NLP
Python
Jieba
NLTK
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ding_programmer/article/details/88698931
版权
NLP
专栏收录该内容
2篇文章
1订阅
订阅专栏
实验目的:
利用给定的中英文文本序列(见Chinese.txt和English.txt),分别利用以下给定的中
英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析。
实验工具:
中文Jieba(重点),尝试三种分词模式与自定义词典功能、SnowNLP、THULAC、NLPIR、StanfordCoreNLP、
英文NLTK、SpaCy、StanfordCoreNLP
实验环境:
语言:Python3.7.0
IDE:Pycharm
需要使用pip安装很多包,这里请大家去搜索相关教程安装
实验步骤:
首先进行中文分词:
一、jieba
importjieba
importre
Chinese=‘央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻,分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。
3月15日晚间,新京报记者就此事致电湖北神丹健康食品有限公司方面,其工作人员表示不知情,需要了解清楚情况,截至发稿暂未取得最新回应。
新京报记者还查询发现,湖北神丹健康食品有限公司为农业产业化国家重点龙头企业、高新技术企业,此前曾因涉嫌虚假宣传“中国最大的蛋品企业”而被罚6万元。
’
str=re.sub('[^\w]','',chinese)#使用正则去符号,之后都是用这个str字符串
seg_list=jieba.cut(s_list,cut_all=False)#精确模式
print('/'.join(seg_list))
分词的结果:
央视/315/晚会/曝光/湖北省/知名/的/神丹/牌莲田牌/土/鸡蛋/实为/普通/鸡蛋/冒充/同时/在/商标/上/玩/猫腻/分别/注册/鲜土/注册/好土/商标/让/消费者/误以为/是/土/鸡蛋/3/月/15/日/晚间/新/京报/记者/就/此事/致电/湖北/神丹/健康/食品/有限公司/方面/其/工作人员/表示/不知情/需要/了解/清楚/情况/截至/发稿/暂未/取得/最新/回应/新/京报/记者/还/查询/发现/湖北/神丹/健康/食品/有限公司/为/农业/产业化/国家/重点/龙头企业/高新技术/企业/此前/曾/因涉嫌/虚假/宣传/中国/最大/的/蛋品/企业/而/被/罚/6/万元
载入自创建的词典
使用jieba.load_userdict(file)
file=open(dict,'r')#载入一个词典,这个词典的内容为:神丹牌、莲花牌、土鸡蛋、新京报
jieba.load_userdict(file)
file.close()
seg_list=jieba.cut(str,cut_all=False)#精确模式str为之前的字符串
print('/'.join(seg_list))
结果:
央视/315/晚会/曝光/湖北省/知名/的/神丹牌/莲田牌/土鸡蛋/实为/普通/鸡蛋/冒充/同时/在/商标/上/玩/猫腻/分别/注册/鲜土/注册/好土/商标/让/消费者/误以为/是/土鸡蛋/3/月/15/日/晚间/新京报/记者/就/此事/致电/湖北/神丹/健康/食品/有限公司/方面/其/工作人员/表示/不知情/需要/了解/清楚/情况/截至/发稿/暂未/取得/最新/回应/新京报/记者/还/查询/发现/湖北/神丹/健康/食品/有限公司/为/农业/产业化/国家/重点/龙头企业/高新技术/企业/此前/曾/因涉嫌/虚假/宣传/中国/最大/的/蛋品/企业/而/被/罚/6/万元
显然载入词典之后,神丹牌、莲花牌、土鸡蛋、新京报合在了一起
二、SnowNlp
fromsnownlpimportSnowNLP
s=SnowNLP(str)#str为之前去掉符号的中文字符串
print(s.words)#进行分词
print(s.pinyin)#得到拼音
print(s.summary(3))#进行总结summary
print(s.keywords(3))#得到关键词
print(s.han)#把繁体字变成简体字
分词的结果:是一个列表
['央视','315','晚会','曝光','湖北省','知名','的','神丹','牌','莲','田','牌','土','鸡蛋','实','为','普通','鸡蛋','冒充','同时','在','商标','上','玩猫','腻','分别','注册','鲜','土','注册','好','土','商标','让','消费者','误','以为','是','土','鸡蛋','3','月','15','日','晚间','新京','报','记者','就','此事','致电','湖北','神','丹','健康','食品','有限公司','方面','其','工作','人员','表示','不','知情','需要','了解','清楚','情况','截至','发稿','暂','未','取得','最新','回应','新京','报','记者','还','查询','发现','湖北','神','丹','健康','食品','有限公司','为','农业','产业化','国家','重点','龙头','企业','高新技术','企业','此前','曾','因','涉嫌','虚假','宣传','中国','最','大','的','蛋品','企业','而','被','罚','6','万','元']
三、Thulac
t=thulac.thulac()#进行分词和标注词性
text=t.cut(str,text=False)#进行分词和标注词性,若text=True则为str,否则为默认模式返回值为list
print(text)
[['央视','v'],['315','m'],['晚会','n'],['曝光','v'],['湖北省','ns'],['知名','a'],['的','u'],['神丹牌','nz'],['莲田牌','nz'],['土鸡蛋','n'],['实','a'],['为','v'],['普通','a'],['鸡蛋','n'],['冒充','v'],['同时','d'],['在','p'],['商标','n'],['上','f'],['玩','v'],['猫腻','n'],['分别','d'],['注册','v'],['鲜土','n'],['注册','v'],['好','a'],['土','n'],['商标','n'],['让','v'],['消费者','n'],['误','d'],['以为','v'],['是','v'],['土鸡蛋','n'],['3月','t'],['15日','t'],['晚间','t'],['新','a'],['京报','n'],['记者','n'],['就','p'],['此事','r'],['致电','v'],['湖北','ns'],['神丹','nz'],['健康','a'],['食品','n'],['有限公司','n'],['方面','n'],['其','r'],['工作','v'],['人员','n'],['表示','v'],['不','d'],['知情','v'],['需要','v'],['了','u'],['解','v'],['清楚','a'],['情况','n'],['截至','v'],['发稿','v'],['暂','d'],['未','d'],['取得','v'],['最新','a'],['回应','v'],['新','a'],['京报','n'],['记者','n'],['还','d'],['查询','v'],['发现','v'],['湖北','ns'],['神丹','nz'],['健康','a'],['食品','n'],['有限公司','n'],['为','p'],['农业','n'],['产业化','v'],['国','m'],['家','q'],['重点','n'],['龙头','n'],['企业','n'],['高新技术','n'],['企业','n'],['此前','t'],['曾','d'],['因','p'],['涉嫌','v'],['虚假','a'],['宣传','v'],['中国','ns'],['最','d'],['大','a'],['的','u'],['蛋品','n'],['企业','n'],['而','c'],['被','p'],['罚','v'],['6万','m'],['元','q']]
若
t2=thulac.thulac(seg_only=True)#只进行分词segment
则只进行分词,不标注词性
四、Pynlpir
pynlpir.open()
print(pynlpir.segment(str))#分词
[('央','verb'),('视','verb'),('315','numeral'),('晚会','noun'),('曝光','verb'),('湖北省','noun'),('知名','adjective'),('的','particle'),('神','noun'),('丹','distinguishingword'),('牌','noun'),('、','punctuationmark'),('莲','noun'),('田','noun'),('牌','noun'),('“','punctuationmark'),('土','noun'),('鸡蛋','noun'),('”','punctuationmark'),('实','adjective'),('为','verb'),('普通','adjective'),('鸡蛋','noun'),('冒充','verb'),(',','punctuationmark'),('同时','conjunction'),('在','preposition'),('商标','noun'),('上','nounoflocality'),('玩','verb'),('猫腻','noun'),(',','punctuationmark'),('分别','adverb'),('注册','verb'),('“','punctuationmark'),('鲜','adjective'),('土','noun'),('”','punctuationmark'),('、','punctuationmark'),('注册','verb'),('“','punctuationmark'),('好','adjective'),('土','noun'),('”','punctuationmark'),('商标','noun'),(',','punctuationmark'),('让','verb'),('消费者','noun'),('误','adverb'),('以为','verb'),('是','verb'),('“','punctuationmark'),('土','noun'),('鸡蛋','noun'),('”','punctuationmark'),('。
','punctuationmark'),('3月','timeword'),('15日','timeword'),('晚间','timeword'),(',','punctuationmark'),('新京报',None),('记者','noun'),('就','adverb'),('此事','pronoun'),('致电','verb'),('湖北','noun'),('神','noun'),('丹','distinguishingword'),('健康','adjective'),('食品','noun'),('有限公司','noun'),('方面','noun'),(',','punctuationmark'),('其','pronoun'),('工作','verb'),('人员','noun'),('表示','verb'),('不','adverb'),('知','verb'),('情','noun'),(',','punctuationmark'),('需要','verb'),('了解','verb'),('清楚','adjective'),('情况','noun'),(',','punctuationmark'),('截至','verb'),('发稿','verb'),('暂','adverb'),('未','adverb'),('取得','verb'),('最新','adjective'),('回应','verb'),('。
','punctuationmark'),('新京报',None),('记者','noun'),('还','adverb'),('查询','verb'),('发现','verb'),(',','punctuationmark'),('湖北','noun'),('神','noun'),('丹','distinguishingword'),('健康','adjective'),('食品','noun'),('有限公司','noun'),('为','preposition'),('农业','noun'),('产业化','verb'),('国家','noun'),('重点','noun'),('龙头','noun'),('企业','noun'),('、','punctuationmark'),('高新技术','noun'),('企业','noun'),(',','punctuationmark'),('此前','timeword'),('曾','adverb'),('因','preposition'),('涉嫌','verb'),('虚假','adjective'),('宣传','verb'),('“','punctuationmark'),('中国','noun'),('最','adverb'),('大','adjective'),('的','particle'),('蛋品','noun'),('企业','noun'),('”','punctuationmark'),('而','conjunction'),('被','preposition'),('罚','verb'),('6万','numeral'),('元','classifier'),('。
','punctuationmark')]
五、StanfordCoreNLP:
nlp=StanfordCoreNLP(r'G:\\stanford-corenlp-full-2018-10-05\\stanford-corenlp-full-2018-10-05',lang='zh')
print(nlp.word_tokenize(s_list))#返回一个列表
#print(nlp.pos_tag(str))#词性标注
#print(nlp.parse(str))#解析
结果:
['央视','315','晚会','曝光','湖北省','知名','的','神丹','牌','莲','田','牌','土','鸡蛋','实为','普通','鸡蛋','冒充','同时','在','商标','上','玩','猫腻','分别','注册','鲜土','注册','好','土','商标','让','消费者','误以为','是','土','鸡蛋','3月','15日','晚间','新京报','记者','就此事','致电','湖北','神丹','健康','食品','有限','公司','方面','其','工作','人员','表示','不知情','需要','了解','清楚','情况','截至','发稿','暂','未','取得','最新','回应','新京报','记者','还','查询','发现','湖北','神丹','健康','食品','有限','公司','为','农业','产业化','国家','重点','龙头','企业','高','新','技术','企业','此前','曾','因','涉嫌','虚假','宣传','中国','最','大','的','蛋品','企业','而','被','罚','6万','元']
进行英文分词:
Englisth=‘TrumpwasbornandraisedintheNewYorkCityboroughofQueensandreceivedaneconomicsdegreefromtheWhartonSchool.Hewasappointedpresidentofhisfamily'srealestatebusinessin1971,renameditTheTrumpOrganization,andexpandeditfromQueensandBrooklynintoManhattan.Thecompanybuiltorrenovatedskyscrapers,hotels,casinos,andgolfcourses.Trumplaterstartedvarioussideventures,includinglicensinghisnameforrealestateandconsumerproducts.Hemanagedthecompanyuntilhis2017inauguration.Heco-authoredseveralbooks,includingTheArtoftheDeal.HeownedtheMissUniverseandMissUSAbeautypageantsfrom1996to2015,andheproducedandhostedTheApprentice,arealitytelevisionshow,from2003to2015.Forbesestimateshisnetworthtobe$3.1billion.’
六、nltk:
importnltk
importre
english='H:\\自然语言处理\\Experiment2\\English.txt'
withopen(english,'r',encoding='utf-8')asfile:
u=file.read()
str=re.sub('[^\w]','',u)
print(nltk.word_tokenize(str))
print(nltk.pos_tag(nltk.word_tokenize(str)))#对分完词的结果进行词性标注
结果:
['Trump','was','born','and','raised','in','the','New','York','City','borough','of','Queens','and','received','an','economics','degree','from','the','Wharton','School','He','was','appointed','president','of','his','familys','real','estate','business','in','1971','renamed','it','The','Trump','Organization','and','expanded','it','from','Queens','and','Brooklyn','into','Manhattan','The','company','built','or','renovated','skyscrapers','hotels','casinos','and','golf','courses','Trump','later','started','various','side','ventures','including','licensing','his','name','for','real','estate','and','consumer','products','He','managed','the','company','until','his','2017','inauguration','He','coauthored','several','books','including','The','Art','of','the','Deal','He','owned','the','Miss','Universe','and','Miss','USA','beauty','pageants','from','1996','to','2015','and','he','produced','and','hosted','The','Apprentice','a','reality','television','show','from','2003','to','2015','Forbes','estimates','his','net','worth','to','be','31','billion']
七、spacy:
importspacy
nlp=spacy.load('en_core_web_sm')
document=nlp(str)
print(document.text.split())
结果:
['Trump','was','born','and','raised','in','the','New','York','City','borough','of','Queens','and','received','an','economics','degree','from','the','Wharton','School','He','was','appointed','president','of','his','familys','real','estate','business','in','1971','renamed','it','The','Trump','Organization','and','expanded','it','from','Queens','and','Brooklyn','into','Manhattan','The','company','built','or','renovated','skyscrapers','hotels','casinos','and','golf','courses','Trump','later','started','various','side','ventures','including','licensing','his','name','for','real','estate','and','consumer','products','He','managed','the','company','until','his','2017','inauguration','He','coauthored','several','books','including','The','Art','of','the','Deal','He','owned','the','Miss','Universe','and','Miss','USA','beauty','pageants','from','1996','to','2015','and','he','produced','and','hosted','The','Apprentice','a','reality','television','show','from','2003','to','2015','Forbes','estimates','his','net','worth','to','be','31','billion']
八、StanfordcoreNLP:
nlp=StanfordCoreNLP(r'G:\\stanford-corenlp-full-2018-10-05\\stanford-corenlp-full-2018-10-05',lang='en')
print(nlp.word_tokenize(str))
结果;
['Trump','was','born','and','raised','in','the','New','York','City','borough','of','Queens','and','received','an','economics','degree','from','the','Wharton','School','He','was','appointed','president','of','his','familys','real','estate','business','in','1971','renamed','it','The','Trump','Organization','and','expanded','it','from','Queens','and','Brooklyn','into','Manhattan','The','company','built','or','renovated','skyscrapers','hotels','casinos','and','golf','courses','Trump','later','started','various','side','ventures','including','licensing','his','name','for','real','estate','and','consumer','products','He','managed','the','company','until','his','2017','inauguration','He','coauthored','several','books','including','The','Art','of','the','Deal','He','owned','the','Miss','Universe','and','Miss','USA','beauty','pageants','from','1996','to','2015','and','he','produced','and','hosted','The','Apprentice','a','reality','television','show','from','2003','to','2015','Forbes','estimates','his','net','worth','to','be','31','billion']
以上就是八种分词工具的分词过程,我建议:中文分词使用jieba进行分词,英文使用NLTK进行分词。
开发者涨薪指南
48位大咖的思考法则、工作方式、逻辑体系
木禾DING
关注
关注
16
点赞
踩
5
评论
88
收藏
打赏
扫一扫,分享内容
点击复制链接
专栏目录
评论 5
您还未登录,请先
登录
后发表或查看评论
相关推荐
博客
jiebanltk进行中英文分词
WangYouJin321的博客
01-14
2088
Jieba、NLTK等中英文分词工具进行分词
建议:中文分词使用jieba(SnowNlp、THULAC、NLPIR、StanfordCoreNLP)进行分词,英文使用NLTK进行分词;还有git上的一个英文文本分词(无空格)模块wordninja。
1.中文分词
1.jieba分词
importjiebaimportre
Chinese=‘央视315晚会曝光湖北省知名的神丹牌、莲田牌“...
博客
英文文本分词之工具NLTK
weixin_43543177的博客
06-09
781
英文文本分词之工具NLTK安装NLTK停用词和标点符号包放置验证
安装NLTK
pipinstallnltk
分词需要用到两个包:stopwords和punkt,需要下载:
importnltk
nltk.download('stopwords')
nltk.download('punkt')
如果你能运行成功,那么恭喜,但多半要和我一样,被墙,然后下载失败。
于是乎,需要手动下载,这里我已经打包好了,百度提取即可。
链接:https://pan.baidu.com/s/1ddVRG86W-dyk
博客
自然语言处理中的中英文分词工具
weixin_43442997的博客
06-18
1453
自然语言处理中的中英文分词工具jieba中文分词jieba库的安装jieba的基本功能jieba简单运用nltk英文分词nltk及nltk_data的安装nltk的基本功能nltk的简单运用总结
分词是自然语言处理的基础,分词的准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。
英文语句使用空格将单词进行分隔,除了某些特定词,如NewYork等。
但中文不同,天然缺少分隔符,需要自行分词和断句。
目前,中文常用的分词工具有jieba“结巴”中文分词、哈工大LTP等;英文常用的分词工具有nlt
博客
NLP自然语言处理中英文分词工具集锦与基本使用jieba,snowNLP,StanfordCoreNLP,thulac等
种花家的奋斗兔的博客
03-20
3884
目录
NLP分词工具集锦
分词实例用文件
一、中文分词工具
(1)Jieba
(2)snowNLP分词工具
(3)thulac分词工具
(4)pynlpir分词工具
(5)StanfordCoreNLP分词工具
(6)Hanlp分词工具
二、英文分词工具
1.NLTK:
2.SpaCy:
3.StanfordCoreNLP:
NLP分词工具集锦
分词实例用文件...
下载
结巴jieba分词中文分词停用词表2000条数据
08-03
结巴中文分词停用表,整合百度分词、哈工大等停用词表2000余条数据
即拿即用,效果好,提升分词速度准确率。
博客
python英语分词_NLTK(一):英文分词分句
weixin_39610678的博客
11-23
763
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。
一、NLTK的安装如果是python2.x的环境,安装命令如下:sudopipinstallnltk如果是python3.x的环境,安装命令如下:sudopip3installnltk成功地执行了上述命令后,NLTK的安装还没有彻底地完成,还需要在python中执行如下的代码:importnltknl...
下载
jieba分词关键字含英文和特殊字符的处理方法
01-21
1.默认情况
语句中关键字在含有英文和特殊字符时(machine-1234),使用jieba往往将我们的关键词分割的非常零碎,比如:
#默认情况
importjieba
str1=查找machine-1234的产品说明书
forwinjieba.cut(str1):
print(w)
#运行结果
>>>查找
>>>machine
>>>-
>>>1234
>>>的
>>>产品
>>>说明书
2.利用自定义字典
通常情况下,我们可以加载预定义字典来包含词库里不存在的词,以达到正确分词的效果
#利用用户自定义字典
importjieba
str1=查找mac
下载
电子英汉词典.zip
12-19
设计一个系统能完成电子英汉词典的功能,包括单词的增添、显示、修正、删除、寻找、保存。
该系统需要用结构体数组,每个数据的结构应当包括单词的英文拼写及其中文释义,在执行一个具体的功能后,程序会重新显示功能菜单。
在执行单词的修正和和删除时,需要输入密码,密码正确才能进行这两个操作。
博客
利用python的jieba库、wordcloud库,实现中英文文本的快速分词(代码详解版)
热门推荐
tanlangqie的博客
05-29
1万+
本文实现对中英文文本的快速分词,其中环境为:py3.5+jieba+wordcloud这两个库。
其中jieba可通过pipinstalljieba直接安装。
wordcloud通过whl形式安装,whl文件所在网站为:wordloud.whl文件在这个网站中自己下载
贴出我的项目文件夹构成,方便理解代码:
#-*-coding:utf-8-*-
#fun:利...
博客
自然语言处理(一)——中英文分词
南木的博客
05-24
4649
文章目录一、Jieba分词二、SnowNlp分词三、nltk分词四、thunlp分词五、nlpIR分词六、Stanford分词七、结论
中英文分词工具有很多,今天我们来使用Jieba分词、SnowNlp分词、nltk分词、thunlp分词、NLPIR分词、Stanford分词等六种分词工具来对给定中英文文本进行分词。
一、Jieba分词
结巴分词是用于中文分词的分词工具,安装与使用都比较容易掌握,...
下载
英文分词工具
10-28
这是一个英文分词工具里面有详细的介绍使用方法
博客
Python|中英文分词jieba模块|词云wordcloud模块|应用Demo
最新发布
希望每天都能进步一点点
12-27
552
运行环境
python3.9
pycharm
1.安装WordCloud模块
pip3installwordcloud
pip3installjieba
2.生成词云
2.1根据字典生成词云
字典的键表示当前的词汇,值表示当前词汇出现的次数
.py
fromwordcloudimportWordCloud
data=dict((('你好',2),('什么',5),('没事',1),('喜欢',7),('睡觉',3)))
t=WordCloud(
博客
自然语言处理爬过的坑:使用python结巴对中文分词并且进行过滤,建立停用词。
常见的中文停用词表大全
weixin_41931602的博客
05-24
1万+
原代码:defnatural_language_processing(self,response):
#对所抓取的预料进行自然语言处理
title=response.meta['title']
#printtitle
content=response.meta['content']
#printcont...
博客
英文分词工具NLTK、SpaCy、StanfordCoreNLP的安装和分词语句(Python)
weixin_43826681的博客
04-01
414
目录一、NLTK1.安装2.分词语句二、SpaCy1.安装2.分词语句三、StanfordCoreNLP1.安装2.分词语句
一、NLTK
1.安装
pipinstallnltk
2.分词语句
fromnltk.tokenizeimportword_tokenize
withopen("English.txt","r",encoding="UTF-8")asf:
en_text=f.readline()
print(en_text)
word_list
下载
分词常用词典英汉词典.zip
11-25
该词典描述的是一些词分析,用于分词,利用给定的中英文文本序列(见Chinese.txt和English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析。
博客
自然语言处理之jieba分词
weixin_30298497的博客
02-24
452
英文分词可以使用空格,中文就不同了,一些分词的原理后面再来说,先说下python中常用的jieba这个工具。
首先要注意自己在做练习时不要使用jieba.Py命名文件,否则会出现
jiebahasnoattributenamedcut…等这些,如果删除了自己创建的jieba.py还有错误是因为没有删除jieba.pyc文件。
(1)基本分词函数和用法
首先介绍下分词的三种模...
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
木禾DING
CSDN认证博客专家
CSDN认证企业博客
码龄4年
暂无认证
110
原创
4万+
周排名
1万+
总排名
39万+
访问
等级
4584
积分
138
粉丝
575
获赞
85
评论
1877
收藏
私信
关注
热门文章
矩阵的列空间、行空间、维数、秩理解
36955
随机种子的详解
31732
利用matlab求解非线性规划问题
25770
Jieba、NLTK等中英文分词工具进行分词
22123
pytorch中的item()用法
18607
分类专栏
DeepLearning
13篇
MachineLearning
3篇
opencv
6篇
数据结构
16篇
爬虫
1篇
Python
18篇
NLP
2篇
算法题
20篇
计算机网络
3篇
数学建模
9篇
操作系统
1篇
人工智能
6篇
JAVA
3篇
计算机图形学
2篇
Tensorflow
4篇
Latex
1篇
计算机组成原理
1篇
最新评论
数学建模人口模型及matlab算法解
75H:
请问cstd这些是什么变量,没看懂
C++01背包和完全背包
大于5:
尝试自己运行一下,就知道区别了。
c语言问题,用十进制整数指定输入的宽度%nd
GJC5:
问题是输入
矩阵的列空间、行空间、维数、秩理解
daxiangxiang000:
好像文章没说明行空间的问题吧
随机种子的详解
weixin_58822457:
散列表对数据的储存和查找可以用到
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
Pytorch中torch.cat与torch.stack拼接函数
pytorchtensor和numpy的相互转换
pytorch矩阵和向量乘法
2022年2篇
2021年3篇
2020年29篇
2019年75篇
2018年2篇
目录
目录
分类专栏
DeepLearning
13篇
MachineLearning
3篇
opencv
6篇
数据结构
16篇
爬虫
1篇
Python
18篇
NLP
2篇
算法题
20篇
计算机网络
3篇
数学建模
9篇
操作系统
1篇
人工智能
6篇
JAVA
3篇
计算机图形学
2篇
Tensorflow
4篇
Latex
1篇
计算机组成原理
1篇
目录
打赏作者
木禾DING
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:--)
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
0
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值
延伸文章資訊
- 1Python - 知名Jieba 中文斷詞工具教學
但是可想而知它的這個工具對簡體中文分詞會比較準確,繁體中文雖然用這工具也還可以,但是有一些像是台灣用語就比較難斷得很好。
- 2“结巴”中文分词:做最好的Python 中文分词组件 - 51CTO博客
结巴”中文分词:做最好的Python 中文分词组件,由于中文文本中的单词不像英文那样靠空格来分割,因此中文存在一个重要的分词问题,像昨天我发表的文本 ...
- 3基于python中jieba包的中文分词中详细使用 - 51CTO博客
基于python中jieba包的中文分词中详细使用(一). 01.前言. 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的 ...
- 4Jieba、NLTK等中英文分词工具进行分词 - CSDN博客
实验目的:利用给定的中英文文本序列(见Chinese.txt 和English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行 ...
- 5fxsjy/jieba: 结巴中文分词
“结巴”中文分词:做最好的Python 中文分词组件. "Jieba" (Chinese for "to stutter") Chinese text segmentation: built t...