Apache Tika提供了许多功能, 下面给出其中一些功能。
- 大量的文档类型支持
- 非Java程序可访问性
- 单解析器
- 重量轻
- MIME检测
- 语言检测
大量的文档类型支持
Apache Tika可以识别上千种文档类型, 并可以提取文档的内容和元数据。
非Java程序可访问性
在Tika中, 两个主要工具RESTful服务器和CLI工具允许非Java程序访问apache Tika功能。
单解析器
所有第三方库都由Tika封装在单个解析器界面中。用户从解析器库选择中可以轻松使用此功能。
重量轻
Tika重量轻, 因为它使用较少的内存和资源。它很容易嵌入Java程序中, 也可以在移动设备上运行。
MIME和语言检测
Tika可以检测MIME标准中列出的所有媒体类型。它也可以识别语言, 因此可以用于多语言文档。
评论前必须登录!
注册