Apache Tika 2.0.0 发布,内容检测和分析框架
Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2; 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字; 删除了废弃的元数据键/属性; 删除了废弃的 PDFPreflightParser; 删除了不指定字符集就读取输入流或转换为字节的危险调用; 解析器可以在实例化时通过 tika-config.xml 进行配置; 改变了翻译器实现的命名空间以避免与 tika-core 分开打包; tika-parsers 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml; CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖...