Apache Tika 2.0.0 发布,内容检测和分析框架
Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下:
常规:
- 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
- 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
- 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
- 删除了废弃的元数据键/属性;
- 删除了废弃的 PDFPreflightParser;
- 删除了不指定字符集就读取输入流或转换为字节的危险调用;
- 解析器可以在实例化时通过 tika-config.xml 进行配置;
- 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;
tika-parsers
- 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
- CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
- ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
- RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;
tika-server
- tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
- 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
- tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
- tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
- 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;
更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
gRPC 1.39.0 发布,高性能 RPC 框架
gRPC 1.39.0 发布,更新内容如下: Core: 需要时为 CFStream 初始化 tcp_posix; 更新 boringssl 子模块; 修复备份轮询器竞赛; 在 HTTP CONNECT 请求中使用默认端口 443; C++: 由 EventEngine API 支持的新 iomgr 实现; async_unary_call:增加一个 Destroy 方法,由 std::default_delete 调用; 去除 C++ 回调 API 的实验性; C#: 添加 ChannelCredentials.SecureSsl 属性,以便更好地使用ChannelCredentials进行编解码; 更好方法来构建 protoc aarch64 工件; 添加 C# 插件 "file_suffix" 选项,默认为 "Grpc.cs"; 为生成的服务存根添加 "GeneratedCode" 属性。(#26164) PHP: PHP:停止读取 composer.json 文件只是为了读取版本字符串; Python: Python AIO:在拦截器上匹配延续键入; 通过在 aarch64 上...
- 下一篇
LibreOffice 7.1.5 社区版发布,开源办公套件
LibreOffice 7.1.5 社区版现已发布,这是 LibreOffice 7.1 系列的第五个次要版本,面向技术爱好者和高级用户。该版本包含大约 55 个错误修复,其中 20% 与Microsoft Office 文件兼容性(DOCX、XLSX 和 PPTX,以及旧版 DOC)有关。 主要更新内容 编辑:在公式上下文中处理组分隔符的回归 FILESAVE XLSX 将指向网络共享上的文件的超链接保存到 XLSX 时,使用双 file:// prefix REGRESSION 设置在 writer 表中重复标题不再有效 使用向上/向下键更改时,屏幕阅读器不会宣布新的 Spinbox 值 (Windows) 在 writer 中单击计算数据的属性符号会导致崩溃 崩溃:vcl::Window::GetParentWithLOKNotifier() 组合文本(适合框架)和对象时编辑崩溃 [编辑] 当在单元格中输入“5-d” 时,它会自动转换为日期 2021/07/05 单击 “描述” 区域中的任意位置将触发 “表单创建” 窗口 选择 None 幻灯片过渡没有效果 避免 OOM 计算顺序...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7设置SWAP分区,小内存服务器的救世主
- Mario游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- 2048小游戏-低调大师作品
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题