管理- 语言和代码页支持 - IBM

文章推薦指數: 80 %
投票人數:10人

系统提供对以下语言的语言支持和两字符语言代码(如ISO 639 标准中所述): ... 表意文字语言:: 对于简体中文和繁体中文,会使用扩展语言代码而不是两字符代码。

IBMContentAnalyticswithEnterpriseSearch,V3.0.0                  语言和代码页支持 语言学处理由解析器和搜索服务器以不同方式控制。

为用于语言学处理,解析器不会区分语言和语言环境。

但是,如果用户搜索包括使用多种语言的文档的集合,那么搜索服务器允许将搜索结果范围限制为特定语言或语言环境。

例如,如果英语文档中的元数据对文档语言环境指定en_US,那么该文档会同时作为英语文档(en)和美式英语文档(en_US)来建立索引。

此类型的索引使特定于语言环境的信息(例如,数字、日期和时间)能够正确显示。

用户搜索集合时,可找到该文档,不管用户是搜索 en还是en_US文档都是如此。

如果文档仅按语言代码(例如,en)建立索引,那么该文档仅按语言代码而不按语言环境建立索引。

例如,如果用户在集合中搜索en_US文档,那么将找不到该文档。

系统提供对以下语言的语言支持和两字符语言代码(如ISO639标准中所述):简单文本语言: en=English sq=Albanian az=Azerbaijani-Latin bg=Bulgarian be=Belarusian ca=Catalan hr=Croatian cs=Czech da=Danish nl=Dutch et=Estonian fi=Finnish fr=French de=German el=Greek hu=Hungarian is=Icelandic id=Indonesian in=Indonesian it=Italian kk=Kazakh lv=Latvian lt=Lithuanian lo=Laothian mk=Macedonian ms=Malay mt=Maltese no=Norwegian nb=Norwegian(Bokmal) pl=Polish pt=Portuguese ro=Romanian ru=Russian sr=Serbian(Cyrillic) sh=Serbian(Latin) sk=Slovak sl=Slovenian es=Spanish sv=Swedish tr=Turkish uk=Ukrainian cy=Welsh 表意文字语言: 对于简体中文和繁体中文,会使用扩展语言代码而不是两字符代码。

zh-CN=Chinese(Simplified) zh-TW=Chinese(Traditional) ja=Japanese ko=Korean 复杂文本语言: ar=Arabic as=Assamese bn=Bengali gu=Gujarati iw=Hebrew he=Hebrew hi=Hindi kn=Kannada ml=Malayalam mr=Marathi or=Oriya pa=Punjabi ta=Tamil te=Telugu th=Thai ur=Urdu vi=Vietnamese 系统可自动检测其中许多语言,并可自动检测在纯文本文档中使用的代码页。

配置搜寻器时,如果要指定要使用的显式语言或代码页,那么可禁用自动语言和代码页检测。

相关概念: 解析和索引管理 中文,日语和韩国语文档的语言学分析 相关参考: 自动检测语言 自动检测代码页 反馈 最近一次更新时间:2012年5月 ©CopyrightIBMCorporation2004,2012.此信息中心基于Eclipse技术。

(http://www.eclipse.org)



請為這篇文章評分?