Tika允许我们获取各种格式的提取内容, 例如文本, html或xhtml等。ContentHandler类负责返回内容。如果要以纯文本形式获取文档正文的内容, 也可以使用BodyContentHandler。
让我们看一个示例, 其中我们从html文件获取纯文本输出。
Tika解析为纯文本示例
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class AutoDetectParseExample {
public static void main(String[] args) throws IOException, SAXException, TikaException {
BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {
parser.parse(stream, handler, metadata);
System.out.println(handler.toString());
}
}
}
输出
以下是我们的html文件。
//索引。 html
<html>
<head>
<title>Index Page</title>
</head>
<body>
<h2>Hello, Welcome to srcmini. </h2>
</body>
</html>
提取后, 它将以纯文本格式输出。
Hello, Welcome to srcmini.
评论前必须登录!
注册