本文概述
在Tika中, 可以使用Tika Facade或使用自动检测解析器来完成文档解析。两者都用于在没有特定解析器的情况下解析文档。
Apache Tika提供用于访问Tika功能的Facade类。此类提供了实现解析和检测操作的方法。
它位于org.apache.tika.Tika包中。它包含下面给出的各种构造函数和方法。
构造器在那里
以下是Tika Facade类的构造函数。
Constructor | Description |
---|---|
Tika() | 它用于使用默认配置创建Tika门面。 |
Tika(Detector detector) | 它用于使用给定的检测器实例创建Tika门面。 |
Tika(检测器检测器, 解析器解析器) | 它用于使用给定的检测器和解析器实例创建Tika门面。 |
Tika(检测器检测器, 解析器解析器, 翻译器翻译器) | 它用于使用给定的检测器, 解析器和翻译器实例创建Tika门面。 |
Tika(TikaConfig配置) | 使用给定的配置来创建Tika门面。 |
真实方法
以下是Tika Facade类的方法。
Method | Description |
---|---|
公共字符串detect(字节[]前缀) | 它检测给定文档的介质类型。 |
公共字符串侦听(路径路径)抛出IOException | 它在给定路径下检测文件的媒体类型。 |
公共字符串检测(文件文件)抛出IOException | 它检测给定文件的媒体类型。 |
公共字符串detect(URL url)抛出IOException | 它检测给定URL处资源的媒体类型。 |
public String detect(字符串名称) | 它检测具有给定文件名的文档的媒体类型。 |
公共字符串翻译(字符串文本, 字符串sourceLanguage, 字符串targetLanguage) | 它将给定的文本String与给定的语言进行翻译。 |
公共字符串翻译(字符串文本, 字符串targetLanguage) | 它将给定的文本String转换为给定的语言。 |
公共Reader解析(InputStream流, 元数据元数据)引发IOException | 它解析给定的文档并返回提取的文本内容。 |
公共Reader解析(InputStream流)抛出IOException | 它解析给定的文档并返回提取的文本内容。 |
公共Reader解析(路径路径, 元数据元数据)抛出IOException | 它解析给定路径下的文件并返回提取的文本内容。 |
公共字符串parseToString(InputStream流, 元数据元数据)引发IOException, TikaException | 它解析给定的文档并返回提取的文本内容。 |
公共诠释getMaxStringLength() | 返回由parseToString方法返回的字符串的最大长度。 |
例子例子
我们正在使用Tika Facade从文本文件中提取内容。
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
public class TextParse {
public static void main(String[] args) throws IOException, TikaException {
System.out.println(parse());
}
public static String parse() throws IOException, TikaException {
// parsing using Tika facade
Tika tika = new Tika();
try(InputStream is = TextParse.class.getResourceAsStream("hello.txt")){
return tika.parseToString(is);
}
}
}
输出
以下是hello.txt文件的内容。
Hello, Welcome to srcmini
评论前必须登录!
注册