您现在的位置是:首页 > 文章详情

Apache Tika 2.0.0 发布,内容检测和分析框架

日期:2021-07-22点击:836

Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下:

常规:

  • 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
  • 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
  • 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
  • 删除了废弃的元数据键/属性;
  • 删除了废弃的 PDFPreflightParser;
  • 删除了不指定字符集就读取输入流或转换为字节的危险调用;
  • 解析器可以在实例化时通过 tika-config.xml 进行配置;
  • 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;

tika-parsers

  • 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
  • CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
  • ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
  • RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;

tika-server

  • tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
  • 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
  • tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
  • tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
  • 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;

更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt

原文链接:https://www.oschina.net/news/151779/apache-tika-2-0-0-released
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章