Tika语言检测解释和示例

本文概述

Tika语言检测
Tika语言检测示例

Tika可以识别任何文档或文本的语言。从文档格式中提取文本时非常有用, 该文档格式的元数据中不包含语言信息。

Tika使用LanguageProfile和Language-Identifier类来匹配ISO 639语言代码。

Tika可以检测184种当前注册的ISO 639-1语言中的18种。

ISO 639是由国际标准化组织(ISO)定义的一组标准。

Tika能够检测多种语言, 包括英语, 德语, 意大利语等。请参见下表。

Code name	Language
da	Danish
de	German
et	Estonian
el	Greek
en	English
es	Spanish
fi	Finnish
fr	French
hu	Hungarian
is	Icelandic
it	Italian
nl	Dutch
no	Norwegian
pl	Polish
pt	Portuguese
ru	Russian
sv	Swedish
th	Thai

Tika语言检测

下图显示了语言检测过程的关键组成部分。

org.apache.tika.language软件包包含检测文档或文本语言所需的所有必需类。让我们来看一个例子。

Tika语言检测示例

package tikaexample;

import org.apache.tika.language.LanguageIdentifier;

public class LanguageDetectionExample {
	public static void main(String[] args) {
		      LanguageIdentifier identifier = new LanguageIdentifier("Hello, this is srcmini.");
		      String language = identifier.getLanguage();
		      System.out.println("Language code is : " + language);
		   }
}

输出

Language code is : en

本文概述

Tika语言检测

Tika语言检测示例

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

本文概述

Tika语言检测

Tika语言检测示例

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

评论抢沙发