Apache Tika 1.24 发布,内容抽取工具集合
Apache Tika 1.24 发布了,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。
主要更新内容如下:
- 更新 Drew Noakes 的元数据提取器
- 启用 PDF 中的结构标签的可选提取(alpha 级)
- Tika 应用程序的 --extract 模式现在输出到 STDOUT
- 为 PDF 添加可选的 Preflight 解析器
- 改进对某些基于 zip 格式的检测
- 将元数据提取器升级到 2.13.0
- 升级到 POI 4.1.2
- 从 PSD 文件中提取 XMP
- 在 PDF 中添加了 XMLProfiler 作为可选的解析器以配置 XFA 和 XMP
- 从 PDF 提取依赖于 DCT 过滤器的内联图像
- 升级到 PDFBox 2.0.19
- 修复了 ASM 解析器配置中的错误
- 升级到 Java-libpst 0.9.3
- 修复了 ToXMLHandler 的 XLIFF12Parser 故障
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Serverless Framework 1.67.0 发布
Serverless 架构开发框架 Serverless Framework 发布了 1.67.0版本,该框架使用 AWS Lambda、Azure Functions、Google CloudFunctions 等技术,可以构建 Serverless 架构的 Web、移动和 IoT 应用。 更新内容: Features AWS Websocket:routeResponseSelectionExpression设置 Bug Fixes AWS Lambda:在目标位置尊重外部 IAM 角色 Templates:修复对~/..路径的支持 AWS HTTP API:没有 httpApi 事件时,请勿验证超时 更新说明:https://github.com/serverless/serverless/releases/tag/v1.67.0
- 下一篇
TimescaleDB 1.6.1 发布,基于 PostgreSQL 的时序数据库
TimescaleDB 1.6.1 发布了。TimescaleDB 是基于 PostgreSQL 开发的一款时序数据库,以插件化的形式打包提供。 此维护版本包含自 1.6.0 版本以来的错误修复,尤其是解决了连续聚合、time_bucket_gapfill、部分索引处理和 drop_chunks 中的错误。 仅对于此发行版,需要在升级后重新启动数据库,然后才能恢复备份。 新版本特性 支持 drop_chunks API 进行连续聚合 更改日志级别以获取连续的汇总实现消息 更多详情见更新说明: https://github.com/timescale/timescaledb/releases/tag/1.6.1
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Red5直播服务器,属于Java语言的直播服务器
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启