本文概述
Tika使用ToXMLContentHandler类来获取XHTML格式的输出。它以字符串形式返回整个文档的XHTML内容。
此类包含以下构造函数和方法。
Tika ToXMLContentHandler构造函数
以下是ToXMLContentHandler类的构造函数。
Constructor | Description |
---|---|
public ToXMLContentHandler() | 它用于创建类的实例。 |
公共ToXMLContentHandler(字符串编码) | 它通过获取字符串参数来创建实例。 |
Tika ToXMLContentHandler方法
以下是ToXMLContentHandler类的方法。
Methods | Description |
---|---|
公共无效字符(char [] ch, int开头, int长度)抛出SAXException | 它将给定的字符写入给定的字符流。 |
受保护的void write(char ch)抛出SAXException | 它按原样写入给定字符。 |
受保护的void write(String string)抛出SAXException | 它按原样写入给定的字符串。 |
公共无效startDocument()引发SAXException | 它写入XML前缀。 |
Tika将文档解析为XHTML示例
此示例以XHTML格式生成输出, 而输入为文本格式。
package tikaexample;
import java.io.IOException;
import java.io.InputStream;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.ToXMLContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
public class XhtmlParseExample {
public static void main(String[] args) throws IOException, SAXException, TikaException {
ContentHandler handler = new ToXMLContentHandler();
AutoDetectParser pa0rser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = XhtmlParseExample.class.getResourceAsStream("Hello.txt")) {
parser.parse(stream, handler, metadata);
System.out.println(handler.toString());
}
}
}
输出
以下是hello.txt文件的内容。
Hello Welcome to srcmini
提取后, 它将产生XHTML格式的输出。见下文。
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser" />
<meta name="X-Parsed-By" content="org.apache.tika.parser.txt.TXTParser" />
<meta name="Content-Encoding" content="ISO-8859-1" />
<meta name="Content-Type" content="text/plain; charset=ISO-8859-1" />
<title></title>
</head>
<body><p>Hello Welcome to srcmini</p>
</body></html>
评论前必须登录!
注册