πFlow V1.8 火爆来袭!PDF、DOCX、TIFF 等轻松转化,大模型训练从此“飙车”前行!
大数据流水线系统πFlow V1.8版本正式发布,本次更新包含以下内容:
-
新增特性:
-
新增对非结构化数据的解析能力。
-
-
已有功能优化:
-
Server端H2数据库;
-
自定义Python算子;
-
模板功能;
-
流水线。
-
一、πFlow新增对非结构化数据的解析能力
πFlow新增非结构化解析组件以支持用户从原始非结构化文档中提取结构化内容。这些组件将文档分解为 Title、NarrativeText 和 ListItem 等元素,使用户能够决定要为其特定应用程序保留哪些内容。例如,如果要训练摘要模型,则可能只对 NarrativeText 感兴趣。使用该功能需将Server端配置文件中的unstructured.parse属性设置为“true”。
下表展示了πFlow当前支持的非结构化解析组件。
DocxParser
DocxParser是用来解析.docx的组件,参数说明如下:
组件样例配置如下:
HtmlParser
HtmlParser是用来解析.html或.htm的组件,参数说明如下:
组件样例配置如下:
ImageParser
ImageParser是用来解析图片的组件,支持解析.png/.jpg/.jpeg/.tiff/.bmp/.heic,参数说明如下:
组件样例配置如下:
PdfParser
PdfParser是用来解析.pdf的组件,其中strategy参数用来控制解析PDF的策略,可用的策略有:“auto”、“hi_res”、“ocr_only”和“fast”。
- “auto”将根据文档特征和功能属性选择解析策略。如果PDF中含有可提取的文本,“auto”将选择“fast”,否则选择“ocr_only”。“auto”是默认策略。
-
“hi_res”策略将使用detectron2识别文档的布局。“hi_res”的优点是它使用文档布局来获得关于文档元素的附加信息。如果您的用例对文档元素的正确分类高度敏感,我们建议使用此策略。此外,请注意该策略会耗费较长时间。
-
“ocr_only”策略通过Tesseract提取文档。目前,“hi_res”难以为具有多列的文档排序元素。如果您的文档有多个列,但没有可提取的文本,我们建议使用“ocr_only”策略。如果Tesseract不可用并且文档具有可提取的文本,“ocr_only”会回落到“fast”。
-
“fast”策略使用pdfminer提取文本。如果PDF文本不可提取,“fast”会选择"ocr_only"。我们建议在PDF具有可提取文本的大多数情况下使用“fast”策略。
其他参数说明如下:
组件样例配置如下:
PptxParser
PptxParser是用来解析.pptx的组件,参数说明如下:
组件样例配置如下:
二、πFlow已有功能优化
本次发版πFlow共有4个方面的优化,具体包括:
-
Server端H2数据库优化
支持自定义h2数据库的名称。在server的config.properties中添加"h2.name",即可生效。
-
自定义Python组件优化
在自动构建镜像的功能上,摒弃了docker-java的工具类,采用原生java API 实现,提高成功率。但目前仍有需改进的地方,比如构建镜像耗时较长(在线构建过程中不可避免),后续还会通过增加对上传镜像等功能的支持来改进这一问题。
-
模版功能优化
修复了加载模板时自定义算子的参数顺序和保存时不一致的问题;修复了部分算子加载为模板失败的问题。
-
流水线优化
修复了执行过程中某组件失败流水线状态不同步更新问题。
三、相关链接
我们希望通过 πFlow 技术人员和更多大数据领域的有志之士,一起将 πFlow 开源社区打造成国内一流的大数据处理开源社区,欢迎你的加入!
GitHub 地址: https://github.com/cas-bigdatalab/piflow
Gitee 地址: https://gitee.com/opensci/piflo

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
🔥🔥🔥version-manager 版本更新,更便捷好用
项目地址: https://github.com/gvcgo/version-manager 文档地址: https://github.com/gvcgo/version-manager/blob/main/docs/readmeCN.md B 站视频演示教程地址: https://www.bilibili.com/video/BV1bZ421v7sD/?spm_id_from=333.1007.0.0&vd_source=1835c845bf533ce47c2b4d33db3419b5 Version-Manager(简称 vmr)是一款用 go 编写的超实用的跨平台 SDK 版本管理器。 它支持 40 多种编程语言和工具。 稳定流畅,无需插件,一键安装,开箱即用。 支持全局切换版本、在终端会话中临时切换版本、以及锁定项目版本等。 当锁定项目版本时,使用 vmr 注册的cdr命令切换到项目目录下的任何位置,就会自动开启新的终端会话并切换到锁定版本。退出该终端会话之后,锁定版本会失效,不影响全局版本。 即使你不需要 SDK 版本管理,你也可以把它当成一个方便的安装器。当你想要尝...
- 下一篇
MaxKB 开源项目 GitHub Star 数量突破 3,000!
截至2024年4月20日22:00,FIT2CLOUD飞致云旗下开源项目——基于LLM大语言模型的知识库问答系统MaxKB GitHub Star数超过3,000个! MaxKB项目自发布后收获了开源社区的积极反馈,快速进入GitHub Python趋势榜和GitHub趋势榜主榜,并于2024年4月16日,成功登顶GitHub Trending趋势榜主榜。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6