本文概述
为了提取文本文件, Tika提供了TXTParser类。此类用于从文本文件中提取内容和元数据。它位于org.apache.tika.parser.txt软件包中。
此类包含下表中列出的构造函数和方法。
Tika TextParser构造函数
Constructor | Description |
---|---|
public TXTParser() | 它用于创建类的实例。 |
公共TXTParser(EncodingDetector encodingDetector) | 它使用编码检测器创建实例。 |
Tika TextParser方法
Method | Description |
---|---|
公共Set <MediaType> getSupportedTypes(ParseContext上下文) | 它返回此解析器支持的媒体类型集。 |
公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException | 它将文档流解析为一系列XHTML SAX事件。 |
Tika文本文件提取示例
在此示例中, 我们从文本文件中提取内容和元数据。请参见以下示例。
package tikaexample;
import java.io.InputStream;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.txt.TXTParser;
import org.apache.tika.sax.BodyContentHandler;
public class TextFileExtraction {
public static void main(String[] args) {
BodyContentHandler handler = new BodyContentHandler();
TXTParser parser = new TXTParser();
Metadata metadata = new Metadata();
ParseContext pcontext = new ParseContext();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("srcmini.txt")) {
parser.parse(stream, handler, metadata, pcontext);
System.out.println("Document Content:" + handler.toString());
System.out.println("Document Metadata:");
String[] metadatas = metadata.names();
for(String data : metadatas) {
System.out.println(data + ": " + metadata.get(data));
}
}catch(Exception e) {System.out.println(e);}
}
}
//srcmini.txt
我们的文本文件内容。
欢迎使用srcmini。
srcmini是一个技术门户网站, 其中包含最新的计算机科学主题。
输出
Document Content:Welcome to the srcmini.
srcmini is a Technical portal that contains latest computer science topics.
Document Metadata:
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset=ISO-8859-1
评论前必须登录!
注册