本文概述
Tika可以识别任何文档或文本的语言。从文档格式中提取文本时非常有用, 该文档格式的元数据中不包含语言信息。
Tika使用LanguageProfile和Language-Identifier类来匹配ISO 639语言代码。
Tika可以检测184种当前注册的ISO 639-1语言中的18种。
ISO 639是由国际标准化组织(ISO)定义的一组标准。
Tika能够检测多种语言, 包括英语, 德语, 意大利语等。请参见下表。
Code name | Language |
---|---|
da | Danish |
de | German |
et | Estonian |
el | Greek |
en | English |
es | Spanish |
fi | Finnish |
fr | French |
hu | Hungarian |
is | Icelandic |
it | Italian |
nl | Dutch |
no | Norwegian |
pl | Polish |
pt | Portuguese |
ru | Russian |
sv | Swedish |
th | Thai |
Tika语言检测
下图显示了语言检测过程的关键组成部分。
org.apache.tika.language软件包包含检测文档或文本语言所需的所有必需类。让我们来看一个例子。
Tika语言检测示例
package tikaexample;
import org.apache.tika.language.LanguageIdentifier;
public class LanguageDetectionExample {
public static void main(String[] args) {
LanguageIdentifier identifier = new LanguageIdentifier("Hello, this is srcmini.");
String language = identifier.getLanguage();
System.out.println("Language code is : " + language);
}
}
输出
Language code is : en
评论前必须登录!
注册