Python jieba.tokenize方法代碼示例- 純淨天空

2025-01-09

文章推薦指數： 80 %

投票人數：10人

在下文中一共展示了jieba.tokenize方法的18個代碼示例，這些例子默認根據受歡迎 ... 需要導入模塊: import jieba [as 別名] # 或者: from jieba import tokenize [as ... 當前位置:首頁>>代碼示例>>Python>>正文本文整理匯總了Python中jieba.tokenize方法的典型用法代碼示例。

如果您正苦於以下問題：Pythonjieba.tokenize方法的具體用法？Pythonjieba.tokenize怎麽用？Pythonjieba.tokenize使用的例子？那麽恭喜您,這裏精選的方法代碼示例或許可以為您提供幫助。

您也可以進一步了解該方法所在類jieba的用法示例。

在下文中一共展示了jieba.tokenize方法的18個代碼示例，這些例子默認根據受歡迎程度排序。

您可以為喜歡或者感覺有用的代碼點讚，您的評價將有助於我們的係統推薦出更棒的Python代碼示例。

示例1:create_data 點讚6 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defcreate_data(X:dt.Frame=None)->Union[str,List[str], dt.Frame,List[dt.Frame], np.ndarray,List[np.ndarray], pd.DataFrame,List[pd.DataFrame]]: #exitgracefullyifmethodiscalledasadatauploadratherthandatamodify ifXisNone: return[] #Tokenizethechinesetext importjieba X=dt.Frame(X).to_pandas() #Ifnocolumnstotokenize,usethefirstcolumn iflen(cols_to_tokenize)==0: cols_to_tokenize.append(X.columns[0]) forcolincols_to_tokenize: X[col]=X[col].astype('unicode').fillna(u'NA') X[col]=X[col].apply(lambdax:"".join([r[0]forrinjieba.tokenize(x)])) returndt.Frame(X)開發者ID:h2oai，項目名稱:driverlessai-recipes，代碼行數:19，代碼來源:tokenize_chinese.py 示例2:test_tokenizer 點讚6 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftest_tokenizer(): txts=["我不要你花錢,這些路曲近通幽", "這個消息不脛兒走", "這個消息不徑而走", "這個消息不脛而走", "複方甘草口服溶液限田基", "張老師經常背課到深夜，我們要體晾老師的心苦。

", '新進人員時，知識當然還不過，可是人有很有精神，麵對工作很認真的話，很快就學會、體會。

', ",我遇到了問題怎麽辦", ",我遇到了問題", "問題", "北川景子參演了林詣彬導演的《速度與激情3》", "林誌玲亮相網友:確定不是波多野結衣？", "龜山千廣和近藤公園在龜山公園裏喝酒賞花", "小牛曲清去蛋白提取物乙"] t=Tokenizer() fortextintxts: print(text) print('deault',t.tokenize(text,'default')) print('search',t.tokenize(text,'search')) print('ngram',t.tokenize(text,'ngram'))開發者ID:shibing624，項目名稱:pycorrector，代碼行數:23，代碼來源:tokenizer_test.py 示例3:test_detector_tokenizer 點讚6 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftest_detector_tokenizer(): sents=["我不要你花錢,這些路曲近通幽", "這個消息不脛兒走", "這個消息不徑而走", "這個消息不脛而走", "複方甘草口服溶液限田基", "張老師經常背課到深夜，我們要體晾老師的心苦。

", '新進人員時，知識當然還不過，可是人有很有精神，麵對工作很認真的話，很快就學會、體會。

', "北川景子參演了林詣彬導演的《速度與激情3》", "林誌玲亮相網友:確定不是波多野結衣？", "龜山千廣和近藤公園在龜山公園裏喝酒賞花", "問題" ] d=Detector() d.check_detector_initialized() detector_tokenizer=d.tokenizer fortextinsents: print(text) print('deault',detector_tokenizer.tokenize(text,'default')) print('search',detector_tokenizer.tokenize(text,'search'))開發者ID:shibing624，項目名稱:pycorrector，代碼行數:22，代碼來源:tokenizer_test.py 示例4:__call__ 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] def__call__(self,text,**kargs): words=jieba.tokenize(text,mode="search") token=Token() for(w,start_pos,stop_pos)inwords: ifnotaccepted_chars.match(w)andlen(w)<=1: continue token.original=token.text=w token.pos=start_pos token.startchar=start_pos token.endchar=stop_pos yieldtoken開發者ID:deepcs233，項目名稱:jieba_fast，代碼行數:13，代碼來源:analyzer.py 示例5:testTokenize 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftestTokenize(self): forcontentintest_contents: result=jieba.tokenize(content) assertisinstance(result,types.GeneratorType),"TestTokenizeGeneratorerror" result=list(result) assertisinstance(result,list),"TestTokenizeerroroncontent:%s"%content fortkinresult: print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]),file=sys.stderr) print("testTokenize",file=sys.stderr)開發者ID:deepcs233，項目名稱:jieba_fast，代碼行數:11，代碼來源:jieba_test.py 示例6:testTokenize_NOHMM 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftestTokenize_NOHMM(self): forcontentintest_contents: result=jieba.tokenize(content,HMM=False) assertisinstance(result,types.GeneratorType),"TestTokenizeGeneratorerror" result=list(result) assertisinstance(result,list),"TestTokenizeerroroncontent:%s"%content fortkinresult: print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]),file=sys.stderr) print("testTokenize_NOHMM",file=sys.stderr)開發者ID:deepcs233，項目名稱:jieba_fast，代碼行數:11，代碼來源:jieba_test.py 示例7:cuttest 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defcuttest(test_sent): globalg_mode result=jieba.tokenize(test_sent,mode=g_mode,HMM=False) fortkinresult: print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))開發者ID:deepcs233，項目名稱:jieba_fast，代碼行數:7，代碼來源:test_tokenize_no_hmm.py 示例8:cuttest 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defcuttest(test_sent): globalg_mode result=jieba.tokenize(test_sent,mode=g_mode) fortkinresult: print("word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2]))開發者ID:deepcs233，項目名稱:jieba_fast，代碼行數:7，代碼來源:test_tokenize.py 示例9:test_segment 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftest_segment(): """測試疾病名糾錯""" error_sentence_1='這個新藥奧美砂坦脂片能治療心絞痛，效果還可以'#奧美沙坦酯片 print(error_sentence_1) print(segment(error_sentence_1)) importjieba print(list(jieba.tokenize(error_sentence_1))) importjieba.possegaspseg words=pseg.lcut("我愛北京天安門")#jieba默認模式 print('old:',words) #jieba.enable_paddle()#啟動paddle模式。

0.40版之後開始支持，早期版本不支持 #words=pseg.cut("我愛北京天安門",use_paddle=True)#paddle模式 #forword,flaginwords: #print('new:','%s%s'%(word,flag))開發者ID:shibing624，項目名稱:pycorrector，代碼行數:16，代碼來源:tokenizer_test.py 示例10:posseg 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defposseg(text): #type:(Text)->List[Token] result=[] for(word,start,end)injieba.tokenize(text): pseg_data=[(w,f)for(w,f)inpseg.cut(word)] result.append((pseg_data,start,end)) returnresult開發者ID:GaoQ1，項目名稱:rasa_nlu_gq，代碼行數:10，代碼來源:jieba_pseg_extractor.py 示例11:train 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftrain(self, training_data:TrainingData, config:RasaNLUModelConfig, **kwargs:Any)->None: forexampleintraining_data.training_examples: example.set("tokens",self.tokenize(example.text))開發者ID:weizhenzhao，項目名稱:rasa_nlu，代碼行數:8，代碼來源:jieba_tokenizer.py 示例12:process 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defprocess(self,message:Message,**kwargs:Any)->None: message.set("tokens",self.tokenize(message.text))開發者ID:weizhenzhao，項目名稱:rasa_nlu，代碼行數:4，代碼來源:jieba_tokenizer.py 示例13:tokenize 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftokenize(text:Text)->List[Token]: importjieba tokenized=jieba.tokenize(text) tokens=[Token(word,start)for(word,start,end)intokenized] returntokens開發者ID:weizhenzhao，項目名稱:rasa_nlu，代碼行數:8，代碼來源:jieba_tokenizer.py 示例14:posseg 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defposseg(text): #type:(Text)->List[Token] importjieba importjieba.possegaspseg result=[] for(word,start,end)injieba.tokenize(text): pseg_data=[(w,f)for(w,f)inpseg.cut(word)] result.append((pseg_data,start,end)) returnresult開發者ID:weizhenzhao，項目名稱:rasa_nlu，代碼行數:14，代碼來源:jieba_pseg_extractor.py 示例15:train 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftrain(self,training_data,config,**kwargs): #type:(TrainingData,RasaNLUModelConfig,**Any)->None forexampleintraining_data.training_examples: example.set("tokens",self.tokenize(example.text))開發者ID:Ma-Dan，項目名稱:rasa_bot，代碼行數:6，代碼來源:jieba_tokenizer.py 示例16:process 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] defprocess(self,message,**kwargs): #type:(Message,**Any)->None message.set("tokens",self.tokenize(message.text))開發者ID:Ma-Dan，項目名稱:rasa_bot，代碼行數:5，代碼來源:jieba_tokenizer.py 示例17:tokenize 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftokenize(self,text): #type:(Text)->List[Token] importjieba tokenized=jieba.tokenize(text) tokens=[Token(word,start)for(word,start,end)intokenized] returntokens開發者ID:Ma-Dan，項目名稱:rasa_bot，代碼行數:9，代碼來源:jieba_tokenizer.py 示例18:tokenize 點讚5 #需要導入模塊:importjieba[as別名] #或者:fromjiebaimporttokenize[as別名] deftokenize(self,message:Message,attribute:Text)->List[Token]: importjieba text=message.get(attribute) tokenized=jieba.tokenize(text) tokens=[Token(word,start)for(word,start,end)intokenized] returntokens開發者ID:botfront，項目名稱:rasa-for-botfront，代碼行數:11，代碼來源:jieba_tokenizer.py 注：本文中的jieba.tokenize方法示例由純淨天空整理自Github/MSDocs等源碼及文檔管理平台，相關代碼片段篩選自各路編程大神貢獻的開源項目，源碼版權歸原作者所有，傳播和使用請參考對應項目的License；未經允許，請勿轉載。

請為這篇文章評分？

延伸文章資訊

jieba——分詞、添加詞典、詞性標註、Tokenize - 台部落

jieba——分詞、添加詞典、詞性標註、Tokenize 1.分詞jieba.cut 方法接受三個輸入參數: 需要分詞的字符串；cut_all 參數用來控制是否採用全模式；HMM ...

jieba 词性标注& 并行分词| 计算机科学论坛 - LearnKu

jieba 词性标注# 新建自定义分词器jieba.posseg.POSTokenizer(tokenizer=None) # 参数可指定内部使用的jieba.Tokenizer 分词器。 ji...

fxsjy/jieba: 结巴中文分词

Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。 jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。代码示例.

Python jieba.tokenize方法代碼示例- 純淨天空

在下文中一共展示了jieba.tokenize方法的18個代碼示例，這些例子默認根據受歡迎 ... 需要導入模塊: import jieba [as 別名] # 或者: from jieba i...

Python Examples of jieba.tokenize - ProgramCreek.com

Python jieba.tokenize() Examples. The following are 30 code examples for showing how to use jieba...

Python jieba.tokenize方法代碼示例- 純淨天空

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

月子中心

剖腹產

下訂單英文書信

著迷

憂鬱症發作怎麼辦

心悸症狀

重度憂鬱症

Python jieba.tokenize方法代碼示例- 純淨天空

文章推薦指數： 80 %

請為這篇文章評分？

延伸文章資訊

最新文章

相關網站資訊

月子中心

剖腹產

下訂單 英文 書信

著迷

憂鬱症發作怎麼辦

心悸症狀

重度憂鬱症

下訂單英文書信