πFlow V1.8 火爆来袭!PDF、DOCX、TIFF 等轻松转化,大模型训练从此“飙车”前行!
大数据流水线系统πFlow V1.8版本正式发布,本次更新包含以下内容: 新增特性: 新增对非结构化数据的解析能力。 已有功能优化: Server端H2数据库; 自定义Python算子; 模板功能; 流水线。 一、πFlow新增对非结构化数据的解析能力 πFlow新增非结构化解析组件以支持用户从原始非结构化文档中提取结构化内容。这些组件将文档分解为 Title、NarrativeText 和 ListItem 等元素,使用户能够决定要为其特定应用程序保留哪些内容。例如,如果要训练摘要模型,则可能只对 NarrativeText 感兴趣。使用该功能需将Server端配置文件中的unstructured.parse属性设置为“true”。 下表展示了πFlow当前支持的非结构化解析组件。 DocxParser DocxParser是用来解析.docx的组件,参数说明如下: 组件样例配置如下: HtmlParser HtmlParser是用来解析.html或.htm的组件,参数说明如下: 组件样例配置如下: ImageParser ImageParser是用来解析图片的组件,支持解析.png...
