詞庫授權資源 - CKIP Lab 中文詞知識庫小組- 中央研究院

文章推薦指數: 80 %
投票人數:10人

大數據時代來臨,如何從眾多資料中抽取出有意義的訊息,分析市場、探勘輿情,對許多政府單位、企業而言是相當重要的應用。

中研院輿情分析系統整合剖析器與廣義知網, 將 ...   搜尋所有網站 搜尋詞庫網站     中文斷詞系統(包含未知詞擷取與標記)[線上展示 學術授權(下載版)] 學術授權(線上服務版) 商業授權   本系統整合了斷詞及線上新詞辨識技術,為唯一具有新詞辨識能力並附加詞類標記的選擇性功能之中文斷詞系統。

此一系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。

分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞歧義問題。

除了基本詞彙庫外,使用者可依需要附加領域專屬詞庫。

一般文件若不考慮新詞平均切分正確率達99%以上。

詞類標記為選擇性功能,可附加文本中切分詞的詞類解決詞類歧義,正確率在95%以上。

分詞用詞典俱可擴充性,使用者可依據不同領域文件,補充領域詞典做為分詞之用。

  中文詞庫-廣義知網[線上展示 學術授權(下載試用版)  學術授權(完整版) 商業授權]   中文詞庫-廣義知網(E-HowNet)是一套中文知識表達系統,由三個主要成分組成: (一)詞彙知識表達:每個詞項包含的訊息有:詞條、廣義知網概念式、頻率、發音(包括注音符號及漢語拼音)、詞類、英文翻譯等。

(二)E-HowNet義原(primitiveconcepts)定義式及知識架構(ontology)。

(三)E-HowNet語義查詢的API元件。

本授權資料並不包含ChineseValence-ArousalWords(CVAW),如需下載或授權請至 CVAW網站。

  輿情分析系統[線上展示學術授權 商業授權]   大數據時代來臨,如何從眾多資料中抽取出有意義的訊息,分析市場、探勘輿情,對許多政府單位、企業而言是相當重要的應用。

中研院輿情分析系統整合剖析器與廣義知網,將大量網路上的文章收集做精細的語義分析。

提供以下創新特色:1.細緻的語義事件與分類統計2.可追蹤的分析來源,並將分析結果視覺化3.情緒分析,除了正負向之外,另有50類左右細緻情緒分類。

中文剖析系統[線上展示 學術授權(線上服務版) 商業授權]   句子的結構是語義分析及了解的必要訊息。

要電腦具有智慧型的語言處理能力,例如機器翻譯、語言分析、語言了解、資訊抽取,電腦系統都必須先能分析句子結構。

因此,中文句子自動剖析的工作成了語言理解不可或缺的技術。

本系統採用機率式無語境規律的模型(Probabilistic Context-free Grammar)為基本剖析架構並加入結構中詞彙搭配關係機率解決結構歧義。

在結構決定之後,本系統可選擇是否對結構進行語義角色的指派。

分詞與詞類標記採用本實驗室發展的中文斷詞與詞類標記系統。

  中文詞向量語料[學術授權(下載版)]   中文詞向量共包含共517015詞,詞向量維度為300。

是從ChineseGigaword的中央社語料以及ASBC 中研院平衡語料庫訓練產生。

  中央研究院漢語平衡語料庫[學術授權 商業授權]   中央研究院漢語平衡語料庫(簡稱Sinica Corpus)第4.0版,為一包含一千多萬目詞的帶標記平衡語料庫。

本語料庫中每個文句都依詞斷開,並標示詞類標記。

語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。

所蒐集的文章為1981年到2007年之間的文章。

  中央研究院中文句結構樹資料庫[學術授權 商業授權]   中央研究院中文句結構樹資料庫(簡稱SinicaTreebank)第3.0版,包含了6個檔案,61,087棵中文結構樹,361,834個詞,在結構樹中,標示了中文句語意和語法的訊息,以供學者專家在中文句法、語意關係研究參考之用。

    中文詞庫(八萬目詞)[學術授權 商業授權]   中文詞知識庫為一包含八萬目詞的電子辭典。

本詞庫收的詞包含一般用詞、常用專有名詞、成語、慣用語、常用派生詞、異體詞、合併詞以及少數特殊領域用語和古漢語詞語。

每個詞項包含的訊息有:注音、頻率、詞類、名詞語義分類等。

  中央研究院漢語平衡語料庫詞集及詞頻統計 [學術授權 商業授權]   「中央研究院平衡語料庫詞集及詞頻統計(WordListwith AccumulatedWordFrequencyinSinicaCorpus 3.0)」是根據中央研究院平衡語料庫(五百萬詞)所計算出的詞集及詞頻統計資料,每一筆詞包含詞類、詞頻(在語料庫中出現的次數)、還有照詞頻排序至此詞的累積頻率(100為總頻率和)。

  中文分詞語料庫[學術授權 商業授權]   中文分詞語料庫為一包含兩百萬詞、不含詞類標記的語料庫,每個文句皆根據分詞原則來斷詞。

而此分詞原則,乃是中華民國計算語言學學會在經濟部中央標準局委辦的「資訊處理用中文分詞規範調查研究及草案研擬」計畫中所訂定的。

本語料庫來源包括書面語和口語兩部分,其中資訊類佔21%。

  中文分詞詞庫[學術授權 商業授權]   中文分詞詞庫係根據中文分詞語料庫(乃依分詞原則斷詞、不帶詞類標記的語料庫),共抽出42,138目詞,除了詞項外,還包括每個詞項在本語料庫出現的次數。

  中文(新聞)語料庫 [學術授權 商業授權]   中華民國計算語言學學會語料庫,為一包含約一千四百萬字的語料庫,主要資料來源為報紙和雜誌。

            詞庫簡介 研究概況 ├中文剖析系統 ├中文斷詞 ├中文句結構樹 ├現代漢語平衡語料庫 ├廣義知網 └其他研究發表 線上系統使用 詞庫授權資源 技術報告 詞庫成員 網路資源 連絡我們>       中央研究院 資訊科學所中文組實驗室中文詞知識庫小組版權所有(c)  



請為這篇文章評分?