彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag ...
文章推薦指數: 80 %
文本分析時常會用到詞性(Part of Speech,簡稱POS)作為判斷依據。
現在流行的中文斷詞器結巴(Jieba)具備詞性判斷的功能,這篇將整理56種詞性標記代號的 ...
:::
HOME
SITEMAP
ABOUT
MENU
HOME回到首頁
SITEMAP網站地圖
ABOUT關於布丁
PUBLICATIONS發表
WORKS作品
ARCHIVES文章列表
LABELS標籤
DONATE捐款
SUBSCRIBE訂閱
CONTACT聯絡布丁
HELP
:::
彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag/IdentifythePartofSpeechinChineseandEnglish
11月12,2017
程式語言/JavaScript
,
JavaScript
,
Programming/JavaScript
,
Research/TextMining
9Comments
Edit
Copy
Download
(圖片來源:e-TutorialWorld)文本分析時常會用到詞性(PartofSpeech,簡稱POS)作為判斷依據。
現在流行的中文斷詞器結巴(Jieba)具備詞性判斷的功能,這篇將整理56種詞性標記代號的意義,並加上標點符號的自訂詞典以補足結巴無法辨識標點符號的問題。
此外,結巴僅會將英文詞性標示為「eng」,這難以用在中英混雜的文本中。
因此我又另外找了Node.js上的pos函式庫,這是基於MarkWaston的FastTag詞性標註演算法,能夠為英文字分辨出45種不同的詞性。
中文斷詞器:結巴/ChinesewordSegmentation:Jieba結巴是目前中文界最流行的斷詞演算法。
原本是fxsjy在Python上開發的演算法,但現在廣泛用於各種程式語言,包括Node.js上的NodeJieba或JavaScript上的Jieba-JS,可參考我這篇線上中文斷詞工具:Jieba-JS。
雖然結巴原作者使用簡體中文,但也支持正體(繁體)中文的斷詞處理,也能夠使用自定義詞典與停用字詞典,而且是自由的MIT授權。
演算法上實作了基於前綴詞典所帶來的高效率詞圖掃描,能夠產生句子中漢字所有可能成詞情況所構成的有向無環圖(DAG)。
接著採用動態規劃查找最大機率的路徑,找出基於詞頻的最大斷詞組合。
對於未出現在詞典上的未知詞,結巴踩用了基於漢字成詞能力的HMM模型,並使用Viterbi演算法來辨識。
結巴斷詞器提供了四種模式:精確模式:精準地斷詞,是基礎的斷詞模式。
輸入「我來到北京清華大學」,產生「我,來到,北京,清華大學」。
新詞辨識:僅找出詞典沒有的詞彙。
輸入「他來到了網易杭研大廈」,產生「他,來到,了,網易,杭研,大廈」。
搜尋引擎模式:找出所有可能的組合,便於搜尋引擎建立關鍵字,也適用於文本分析。
(注意底線的部分)輸入「小明碩士畢業於中國科學院計算所,後在日本東京大學深造」,產生「小明,碩士,畢業,於,中國,科學,學院,科學院,中國科學院,計算,計算所,後,在,日本,京都,大學,日本京都大學,深造」。
全模式:混合以上三種做法的模式。
輸入「我來到北京清華大學」,產生「我,來到,北京,清華,清華大學,華大,大學」。
值得注意的是,在正體(繁體)中文的使用情境下,請使用有正體(繁體)中文詞典的dict.txt.big。
Python切換詞典用法請看如何使用JIEBA結巴中文分詞程式。
結巴的詞性標註/PortsofSpeechinJieba結巴提供了詞性標註,而詞性標註方法與ICTCLAS漢語詞性標註集兼容。
但結巴的詞性標註多達56種,比ICTCLAS的39種更多。
我們有必要好好來看看這些詞性到底是什麼。
以下詞性代碼中有標註「*」的,表示是結巴特有的詞性標註,不在ICTCLAS的範圍內。
然而結巴的詞性標註實在太多,有時候反而不好應用。
於是我又參考現代漢語詞性所定義的12種:名詞(n)、動詞(v)、形容詞(adj)、數詞(m)、量詞(q)、代詞(pron)、副詞(adv)、介詞(prep)、連詞(conj)、助詞(u)、嘆詞(int)、擬聲詞(o),嘗試將結巴的56種詞性標註對應到主要的12種。
在文本分析時,比較重要的可能會是名詞(n)、動詞(v)、形容詞(adj)這三種詞性。
附帶一提,許多詞性都是屬於語素(Morpheme),這是只最小的語法單位,是最小的語音語義結合體。
以下是我整理結巴詞性標註的表格檔案:結巴斷詞器的詞性標註分析許多詞性的對應是我個人的判斷,不一定準確。
請多多指教。
詞性代碼現代漢語詞性詞性名稱詞性代碼的命名方式與補充說明舉例a形容詞形容詞取英語形容詞adjective的第1個字母。
大,好,新ag形容詞形語素形容詞性語素。
形容詞代碼為a,語素代碼g前面置以a。
奇,私,秀ad形容詞副形詞直接作狀語的形容詞。
形容詞代碼a和副詞代碼d並在一起。
完全,突然,直接an形容詞名形詞具有名詞功能的形容詞。
形容詞代碼a和名詞代碼n並在一起。
安全,困難,矛盾b形容詞區別詞取漢字“別”的聲母。
主要,副,總c連詞連接詞取英語連詞conjunction的第1個字母。
和,而,但d副詞副詞取adverb的第2個字母,因其第1個字母已用於形容詞。
不,也,就dg副詞副語素副詞性語素。
副詞代碼為d,語素代碼g前面置以d。
只有兩個。
俱,輒df*動詞能願動詞:不要專指不要不要e嘆詞嘆詞取英語嘆詞exclamation的第1個字母。
嗯,哎,咦eng*外語外語f動詞方位詞(趨向動詞)取漢字“方”的聲母。
上,中,後g(難以判斷)語素絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母。
浠,僭,涔h副詞前接成分取英語head的第1個字母。
只有兩個。
非,超低i形容詞成語取英語成語idiom的第1個字母。
一口氣,大吃一驚,九曲迴腸j名詞簡稱略語取漢字“簡”的聲母。
法,人大,漢k代詞後接成分只有四個。
們,者,型,式l(難以判斷)慣用語慣用語尚未成為成語,有點“臨時性”,取“臨”的聲母。
發言人,是不是,沒想到m數詞數詞取英語numeral的第3個字母,n,u已有他用。
年,一,月,多mg*名詞干支只有兩個。
巳,寅mq*代詞指示代詞布丁註:不太確定。
這件,這場,一方面n名詞名詞取英語名詞noun的第1個字母。
人,時,國家ng名詞名語素名詞性語素。
名詞代碼為n,語素代碼g前面置以n。
子,身,師,眾nr名詞人名名詞代碼n和“人(ren)”的聲母並在一起。
連,王,楊nrfg*名詞完整人名明確可以辨別為人名的詞。
李自成,張居正,康熙nrt*名詞外國名詞布丁註:不太確定。
二人,闖王,崇禎ns名詞地名名詞代碼n和處所詞代碼s並在一起。
臺灣,美國,日本nt名詞機構團體“團”的聲母為t,名詞代碼n和t並在一起。
國務院,外交部nz名詞其他專名“專”的聲母的第1個字母為z,名詞代碼n和z並在一起。
百科,和平,英語o擬聲詞擬聲詞取英語擬聲詞onomatopoeia的第1個字母。
哈哈,砰,嗚,嘿嘿p介詞介詞取英語介詞prepositional的第1個字母。
在,為,對q量詞量詞取英語quantity的第1個字母。
道,個,家r代詞代詞取英語代詞pronoun的第2個字母,因p已用於介詞。
他,我,這rg*代詞茲只有一個。
茲rr*代詞多數代詞只有三個。
其他人,妳們,偺們rz*代詞這位只有一個。
這位s名詞處所詞(方位名詞)取英語space的第1個字母。
心中,國內,身上t副詞時間詞取英語time的第1個字母。
當,現在,當時tg名詞時語素時間詞性語素。
時間詞代碼為t,在語素的代碼g前面置以t。
現,晚,春u助詞助詞取英語助詞auxiliary的第2個字母,因a已用於形容詞。
等,之,來說ud*助詞結構助詞:得只有一個。
得uj*助詞結構助詞:的只有一個。
的uv*助詞結構助詞:地只有一個。
地ug*助詞動態助詞:過只有一個。
過ul*助詞動態助詞:了只有一個。
了uz*助詞動態助詞:著只有一個。
著v動詞動詞取英語動詞verb的第一個字母。
是,有,說vg動詞動語素動詞性語素。
動詞代碼為v。
在語素的代碼g前面置以V。
喝,言,怒vd動詞副動詞直接作狀語的動詞。
動詞和副詞的代碼並在一起。
只有三個。
持續,狡辯,逆勢vi*動詞不及物動詞(內動詞)只有四個。
等同於,徜徉於,沉溺於,沉緬於vn動詞名動詞指具有名詞功能的動詞。
動詞和名詞的代碼並在一起。
發展,工作,研究vq*動詞完成動詞只有四個。
去過,去淨,唸過,捱過w(標點符號)標點符號布丁註:結巴並沒有內建標點符號詞性。
x(未知詞)非語素字非語素字只是一個符號,字母x通常用於代表未知數、符號。
榪,姆,灞y助詞語氣詞(語氣助詞)取漢字“語”的聲母。
呢,吧,嗎z形容詞狀態詞取漢字“狀”的聲母的前一個字母。
涓,優良,最佳zg*副詞副狀態詞布丁註:不太確定。
很,此,較其中值得注意的是,結巴預設會將標點符號標示為「x」,而不是「w」。
而且英文會被標示為「eng」。
所以我們得要為此想其他辦法。
標點符號的部分,我們可以用結巴自訂詞典的功能來擴充。
至於被標示為「eng」的英文,我打算再轉交給FastTag來處理。
標點符號的自訂詞典/Userdictionaryforpunctuations因為結巴並沒有為標點符號的詞性標註「w」加入任何設定,所以這個部分我們得要自行設定才行。
在文本分析的時候,比較常會用到的有對話分析的括弧,以及表示情感跟不確定性的驚歎號與問號(請參考文本探勘分析器這篇),因此我們有必要把這些符號區隔開來。
標點符號的部分參考了教育部《重訂標點符號手冊》修訂版跟ThePunctuationGuide。
我依照結巴自訂詞典的格式,做了一個標點符號的詞性字典供大家參考,請從下面網址下載:userdict.utf8內容如下:.99999w-PERIOD
。
99999w-PERIOD
,99999w-COMMA
,99999w-COMMA
、99999w-BACK-SLOPING-COMMA
;99999w-PARENTHESES-SEMICOLON
;99999w-PARENTHESES-SEMICOLON
:99999w-PARENTHESES-COLON
:99999w-PARENTHESES-COLON
“99999w-PARENTHESES-QUOTATION-LEFT
”99999w-PARENTHESES-QUOTATION-RIGHT
「99999w-PARENTHESES-QUOTATION-LEFT
」99999w-PARENTHESES-QUOTATION-RIGHT
『99999w-PARENTHESES-QUOTATION-LEFT
』99999w-PARENTHESES-QUOTATION-RIGHT
[99999w-PARENTHESES-SQUARE-BRACKET-LEFT
]99999w-PARENTHESES-SQUARE-BRACKET-RIGHT
{99999w-PARENTHESES-BRACE-LEFT
}99999w-PARENTHESES-BRACE-RIGHT
(99999w-PARENTHESES-LEFT
)99999w-PARENTHESES-RIGHT
(99999w-PARENTHESES-LEFT
)99999w-PARENTHESES-RIGHT
?99999w-QUESTION
?99999w-QUESTION
!99999w-EXCTAMATION
!99999w-EXCTAMATION
-99999w-DASH
—99999w-DASH
~99999w-DASH
——99999w-DASH
…99999w-ELLIPSIS
……99999w-ELLIPSIS
﹏﹏99999w-GUILLEMET
《99999w-GUILLEMET-LEFT
》99999w-GUILLEMET-RIGHT
〈99999w-GUILLEMET-LEFT
〉99999w-GUILLEMET-RIGHT
_99999w-GUILLEMET-RIGHT
.99999w-SEPARATION-DOT
/99999w-SLASH
\99999w-FORWARD-SLASH
許多文本分析的教學都會直接過濾標點符號。
但如果我們分析的是字數較少的短文,像是社群媒體的留言、討論區的內容。
那標點符號就會是分析的重點之一。
舉例來說,光是分析討論區中誰用問號最多,就能找出討論區中的主要發問人。
英文的詞性標註:FastTag/PortsofSpeechinEnglish:FastTag
FastTag是MarkWatson開發的詞性標註工具,詞性是來自於基於EricBrill彙整的英文字典與規則。
PercyWegmann把FastTag移植到Node.js,成為pos-js套件。
雖然Wastson最新的FastTagv2有59種詞性標註,但移植後的pos-js只有45種。
儘管如此,pos-js的45種詞性也還是太多了。
我參考了維基百科的Partofspeech條目中的英文的詞性定義跟WordsGo的英文八大詞性說明,再將英文詞性分成9種主要詞性分類,包括名詞(noun,n.)、動詞(verb,v.)、形容詞(adjective,adj.)、副詞(adverb,adv.)、代名詞(pronoun,pron.)、介系詞(preposition,prep.)、連接詞(conjunction,conj.)、感嘆詞(interjection,int.)、冠詞(article,determiner)。
不在主要詞性分類中的詞性,我加上括號來區別。
跟中文一樣的,在文本分析上,名詞(n)、動詞(v)、形容詞(adj)這三種也可能會是比較重要的詞性。
以下是我整理pos-js詞性標註的表格檔案:
pos-jstags
讓我們來看看移植FastTag的pos-js可以辨別那些詞性吧:
詞性代碼
主要詞性分類
詞性說明
例子
CC
連接詞
連接詞(CoordConjuncn)
and,but,or
CD
名詞
數字(Cardinalnumber)
one,two
DT
冠詞
冠詞(Determiner)
the,some
EX
名詞
存在詞(Existentialthere)
there
FW
(外語)
外語(ForeignWord)
mondieu
IN
介系詞
介詞(Preposition)
of,in,by
JJ
形容詞
形容詞(Adjective)
big
JJR
形容詞
形容詞,比較級(Adj.,comparative)
bigger
JJS
形容詞
形容詞,最高級(Adj.,superlative)
biggest
LS
標點符號
列點標示(Listitemmarker)
1,One
MD
動詞
助動詞(Modal)
can,should
NN
名詞
名詞,單數或不可數(Noun,sing.ormass)
dog
NNS
名詞
名詞,複數(Noun,plural)
dogs
NNP
名詞
專有名詞,單數(Propernoun,sing.)
Edinburgh
NNPS
名詞
專有名詞,複數(Propernoun,plural)
Smiths
POS
介系詞
名詞所有格的完結(Possessiveending)
Õs
PDT
形容詞
前限定詞(Predeterminer)
all,both
PP$
代名詞
所有代名詞(Possessivepronoun)
my,oneÕs
PRP
代名詞
人稱代名詞(Personalpronoun)
I,you,she
RB
副詞
助動詞(Adverb)
quickly
RBR
副詞
助動詞,比較級(Adverb,comparative)
faster
RBS
副詞
助動詞,最高級(Adverb,superlative)
fastest
RP
介系詞
虛詞(Particle)
up,off
SYM
標點符號
符號(Symbol)
+,%,&
TO
介系詞
to
to
UH
感嘆詞
感嘆詞(Interjection)
oh,oops
URL
名詞
網址(URL)
http://blog.pulipuli.info/
VB
動詞
動詞,原型(verb,baseform)
eat
VBD
動詞
動詞,過去式(verb,pasttense)
ate
VBG
動詞
動詞,現在進行式(verb,gerund)
eating
VBN
動詞
動詞,過去完成式(verb,pastpart)
eaten
VBP
動詞
動詞,現在式(Verb,present)
eat
VBZ
動詞
動詞,現在式第三人用(Verb,present)
eats
WDT
名詞
Wh開頭的限定詞(Wh-determiner)
which,that
WP
代名詞
Wh代名詞(Whpronoun)
who,what
WP$
代名詞
Wh所有格(Possessive-Wh)
whose
WRB
副詞
Wh助動詞(Wh-adverb)
how,where
,
(標點符號)
逗點符號(Comma)
,
.
(標點符號)
句子完結符號(Sent-finalpunct)
.!?
:
(標點符號)
句子中間符號(Mid-sentpunct.)
:;Ñ
$
(標點符號)
金錢符號(Dollarsign)
$
#
(標點符號)
英鎊符號(Poundsign)
#
"
(標點符號)
括號(quote)
"
(
(標點符號)
左括弧(Leftparen)
(
)
(標點符號)
右括弧(Rightparen)
)
小結/Conclusion
我在做碩士論文時就有用中研院的CKIP來做詞性分析。
但是因為外部呼叫CKIP速度過慢,而且無法自訂詞彙,跟可自行建置的結巴斷詞器相比,方便性落了一大截。
後來在使用結巴斷詞器的時候,赫然發現許多詞性代號都無法讓人一目瞭然。
接著又發現結巴把外文詞彙通通只被標示為「eng」,而且標點符號沒有標示詞性。
這些種種讓我索性乾脆捲起袖子,好好地把結巴斷詞器的詞性、pos-js的詞性、標點符號全部整理一下,就完成這一篇了。
不過,光是整理完詞性標註,詞性辨識的工作還不算完成。
現在的問題是要如何把結巴斷詞器的搜尋引擎模式、詞性標註模式跟pos-js的詞性標註整合在一起。
我還得花點時間來想想怎麼把它們都在一起,這篇就先到此為止吧。
這篇對中文與英文詞性標註的整理就到這裡為止。
當然,我並不是語言學家,對於詞性的判斷上可能會有錯誤。
歡迎大家在下面留言處提出指教,我會虛心檢討。
如果你也跟我一樣對結巴的詞性代號煩惱已久,那這篇可能可以對你有些幫助。
如果你覺得我整理的不錯的話,請幫我在AddThis分享工具按讚、將這篇分享到Facebook等社群媒體吧!感謝你的耐心閱讀,讓我們下一篇見。
布丁布丁吃布丁
彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag/IdentifythePartofSpeechinChineseandEnglish
是由
布丁布丁吃布丁
製作,以創用CC姓名標示-非商業性-相同方式分享3.0台灣授權條款釋出。
這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。
L
P
關於布丁
訂閱BLOG
贊助
RelatedPosts
總共9則留言
(
我要發問
,
隱藏留言
顯示留言
)
布丁布丁吃布丁2017年11月13日晚上8:27結巴跟pos-js的詞性對到主要詞性的對應表:https://docs.google.com/spreadsheets/d/1pH5odD3H7IuqhtqCbOGan3YPzdxomJkbT3cZv1JZg5M/edit?usp=sharingadj形容詞adv副詞conj連接詞int感嘆詞m數詞(結巴獨有)n名詞o擬聲詞prep介系詞,介詞pron代詞,代名詞punc標點符號q量詞u助詞,結巴獨有unknown未知詞v動詞如果要做文本分析的話,我們比較注重的是n名詞、v動詞、adj形容詞供大家參考。
回覆刪除回覆布丁布丁吃布丁2017年11月13日晚上9:17如果要將這個對應表插入資料庫,可以用我寫的CSVtoSQLTablehttp://blog.pulipuli.info/2017/11/csv-to-sql-tablecsv-import-csv-file.html刪除回覆回覆布丁布丁吃布丁2017年11月17日下午1:17adjadvconjintmnopreppronpuncquunknownv刪除回覆回覆布丁布丁吃布丁2019年6月9日下午3:42繪製成表格了https://docs.google.com/spreadsheets/d/1pwCzYQ_8UIiYgsUvwk3Ei8P9-HetS9BEXoa5izh7F1E/edit?usp=sharing刪除回覆回覆回覆匿名2018年1月18日下午2:03Jieba在詞性上最大的問題在於一個詞僅能有個詞性,且這個詞性是字典給什麼就是什麼,例如,"預期巨大(9921)下季營收將有巨大的成長動能",Jieba並無法依語意給出適當的詞性。
回覆刪除回覆布丁布丁吃布丁2018年1月18日下午2:40是的,所以詞性辨識仍有許多有待改善的空間如果您有比較推薦的詞性標註工具,還請您不吝分享喔刪除回覆回覆回覆布丁布丁吃布丁2019年1月19日凌晨2:13今天在分析時,赫然發現多了一種詞性標註「yg」有這樣標註的文字有:複/yg臺/yg係/yg製/yg鬆/yg迴/yg釐/yg這些詞都有各自的詞性,實在很難全部直接歸類...不過我看大部分被分出來的詞都有名詞的屬性,所以我就把它對應到n名詞了回覆刪除回覆回覆まろ(MaroHuang)2021年9月30日下午5:47太了不起了,我正因為dict.txt裡有許多不明的詞性而困擾回覆刪除回覆布丁布丁吃布丁2021年9月30日晚上7:26Toまろ(MaroHuang),能幫得上忙就好不過還是要確認一下,你的斷詞器是結巴嗎?其他斷詞器可能會用不同的代號喔刪除回覆回覆回覆新增留言載入更多…
CommentTools:
Chooseone...
UploadImage(imgur)
UploadVideo(Streamable)
UploadTemporaryFile(Upload.express)
CodeFormatter(forHTMLorXMLcode)
CommentsFeed(JSONformat)
CommentsFeed(XMLformat)
較新的文章
首頁
較舊的文章
訂閱:
張貼留言(Atom)
:::
AboutMe
布丁布丁吃布丁
這個布丁是在無聊的世界中找尋樂趣的一種不能吃的食物,喜愛動漫畫、遊戲、程式,以及跟世間脫節的生活步調。
FacebookFanpage
NowLoading...
RandomPosts
Guestbook
RecentPosts
Comments
:::
聯絡布丁
信箱:[email protected]
提問:
留言板
聯絡時間:週一~週日24小時
BuyMeACoffee(Donate)
如果有幫到您的話,請布丁喝杯咖啡吧!
進入贊助捐款網頁
Labels
(AllLabels)
日記
(235)
輔大圖資
(166)
電腦軟體
(129)
政大圖檔
(113)
期刊論文閱讀
(98)
Programming/JavaScript
(85)
作品
(84)
Blogger
(77)
網路管理
(71)
記事
(58)
DSpace
(56)
JavaScript
(56)
OS/ProxmoxVE
(52)
程式寫作
(50)
碩士畢業論文
(47)
Proxmox
(42)
Android
(39)
OS/Android
(37)
Presentation
(36)
OS/Linux
(34)
DataMining
(31)
Software/Weka
(31)
Course
(30)
Linux
(29)
研究方法
(29)
虛擬機器
(29)
DLLL-CIAS
(26)
OS/Windows
(26)
Software/Zotero
(26)
Work/Widget
(26)
Zotero
(26)
新玩具
(26)
Software/Windows
(25)
程式語言/JavaScript
(25)
網站服務
(25)
雲端科技與圖書館行動服務研習班(2014)
(24)
Software/GoogleDoc
(23)
Software/LibreOffice
(23)
Programming/PHP
(22)
作業報告
(22)
研究所推甄
(19)
演講心得
(18)
Windows/電腦軟體
(17)
資訊計量學
(17)
Series/BigDataAnalysisCourse
(16)
無題
(16)
課程/圖書資訊學研究趨勢
(16)
PHP
(15)
Programming/AutoIt
(15)
GitHub
(14)
Programming/R
(14)
Statistics
(14)
圖資學術界
(13)
Software/Word
(12)
課程/國際檔案學
(12)
Series/LibreOfficeCalcTemplate
(11)
Software/OwnCloud
(11)
Software/R
(11)
VirtualMachine/VirtualBox
(11)
VirtualBox
(11)
極短
(11)
AutoIt
(10)
NetBeans
(10)
Server/ownCloud
(10)
Software
(10)
Software/Google
(10)
Software/NetBeans
(10)
Zentyal
(10)
作業系統/Linux
(10)
KALS
(9)
Programing/PHP
(9)
Programming/PhoneGap
(9)
Research
(9)
Research/TextMining
(9)
教學課程
(9)
課程/檔案應用研究
(9)
輔漫
(9)
GLPI
(8)
Koha
(8)
OS/Chromebook
(8)
OS/Koha
(8)
Series/NOUWord
(8)
Software/SPSS
(8)
Work
(8)
政大平價美食
(8)
數位圖書館
(8)
CSS
(7)
OS/Zentyal
(7)
Plurk
(7)
Programming/CSS
(7)
Programming/Node.js
(7)
Drawing
(6)
OS/FreeNAS
(6)
Programming/APP
(6)
Service/GitHub
(6)
Software/PostgreSQL
(6)
Software/PostreSQL
(6)
Tool/NetBeans
(6)
VirtualMachine/OpenVZ
(6)
報告/教學課程
(6)
發表
(6)
2009詐欺案件
(5)
Note/Paper
(5)
Programming/Electron
(5)
Programming/Java
(5)
Programming/Python
(5)
Software/Firefox
(5)
Software/Inkscape
(5)
Work/Windows
(5)
評論
(5)
3C
(4)
IDE
(4)
Library/ORCID
(4)
LibreOfficeCalcCourse
(4)
Programming/Database
(4)
Programming/SeleniumIDE
(4)
Programming/Vue.js
(4)
Research/SequentialAnalysis
(4)
Selenium
(4)
Server/OCS
(4)
Software/Browser
(4)
Software/Notepad++
(4)
Software/PDF
(4)
Software/Pentaho
(4)
WebService
(4)
博士班考試
(4)
問答訪談
(4)
課程/資訊行為與資訊服務
(4)
讀者服務研討
(4)
CKEditor
(3)
Drupal
(3)
GAME
(3)
GoogleAnalytics
(3)
Hardware
(3)
Hardware/Notebook
(3)
OCS
(3)
Programming/CKEditor
(3)
Series/WekaImageClassification
(3)
Server/ApacheSolr
(3)
Software/Cortana
(3)
Software/Drupal
(3)
VirtualMachine
(3)
活動籌辦
(3)
演講
(3)
生活/日記
(3)
網站系統/ownCloud
(3)
課程/檔案學
(3)
遊戲
(3)
閱讀學習
(3)
AngularJS
(2)
EMAIL-KM
(2)
GAME/PokemonGO
(2)
IPFire
(2)
MachineLearning
(2)
OS/IPFire
(2)
OS/pfSense
(2)
OSSIM
(2)
Programming/AdonisJs
(2)
Research/SocialNetworkAnalysis
(2)
Server/GitLab
(2)
Software/CWISE
(2)
Software/Office
(2)
Software/OpenLiveWriter
(2)
Software/WordPress
(2)
Software/mRemoteNG
(2)
Sponsored
(2)
VirtualMachine/Docker
(2)
pfSense
(2)
ニコニコ動画
(2)
國立政治大學
(2)
圖書資訊學研討
(2)
布丁通信
(2)
技術服務研討
(2)
生活/政大平價美食
(2)
研究方法\序列分析
(2)
研究領域/閱讀學習
(2)
硬體設備
(2)
系統/WordPress
(2)
輕小說
(2)
電腦軟體/R
(2)
3C/Note8
(1)
Auto
(1)
Hardware/Teclast
(1)
Linux/WINE
(1)
Programming/AngularJS
(1)
Programming/HTML
(1)
Programming/SVG
(1)
Programming/Svelte
(1)
Programming/WebDesign
(1)
Programming/Webpack
(1)
Publication/Conference
(1)
RIME
(1)
Research/Infometric
(1)
SecondLife
(1)
Server/Apache
(1)
Software/ApacheTika
(1)
Software/DSpace
(1)
Software/FileZilla
(1)
Software/ImageMagick
(1)
Software/中州韻輸入法
(1)
TimemarktoSSA
(1)
Travel
(1)
Userscript
(1)
國家考試
(1)
國立空中大學
(1)
專題
(1)
課程/計算智能與商業分析
(1)
販售
(1)
資訊管理/網站管理
(1)
電視
(1)
延伸文章資訊
- 1Python自然語言處理(二):使用jieba進行中文斷詞
詞性標記POS: import jieba import jieba.posseg as pseg #使用pseq進行詞性標記 text = '我來到北京清華大學' words = pseg.c...
- 2中文分词原理理解+jieba分词详解(二) - 知乎专栏
在写这篇专栏时,我一直在用jieba分词,之前花过一段时间去研究了最新分词的技术,并且做了对比,也有个大致的结论,详细可看我的另一篇专栏 ... pos = pos_list[i].
- 3彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag ...
文本分析時常會用到詞性(Part of Speech,簡稱POS)作為判斷依據。現在流行的中文斷詞器結巴(Jieba)具備詞性判斷的功能,這篇將整理56種詞性標記代號的 ...
- 4[Day2] 斷詞介紹 - iT 邦幫忙
我等等下面會以Jieba斷詞為主,故這邊稍微提及一下Jieba的斷詞方法,他會分成2種部份: ... 在繁體上有些POS感覺不是很適合,如果想知道對應的詞性,可參考這個網站.
- 5jieba之posseg(詞性標註) - 程式人生
import jieba.posseg as pseg import jieba #詞性標註也叫詞類標註。POS tagging是part-of-speech tagging的縮寫 string...