开源大数据流水线系统PiFlow V1.5 发布

大数据流水线系统PiFlow V1.5版本正式发布,该版本新增多语言组件扩展功能:基于容器技术,通过将领域模型算法内置于容器内部,打通上下游数据通路,实现不同语言(Python/R等)组件扩展。

一、Python组件开发指南

1. 导入data_connect.py中的依赖函数DataConnect;

2. 自定义输入端口,用于数据读取(如有多个输入源,可多次调用);

3. 自定义输出端口,用于数据输出(如有多个输出源,可多次调用);

4. 自定义算法属性。如果模型算法需要参数输入,则需要自定义算法属性;

5. 将python组件打包成zip包(zip包中必须包含模型算法及其需要的依赖(requirements.txt))。

示例文档可详见https://github.com/cas-bigdatalab/piflow/blob/master/doc/V1.5/python。

示例代码:

# -*- coding: utf-8 -*-import osfrom data_connect import DATAConncetfrom sys import argvimport pandas as pdimport numpy as npif __name__ == '__main__':    # Define the inputPort and outputPort    input_port = "input_path_port"    output_port = "output_path_port"    # Get dataConnect    dataConnect = DATAConncet()    # Get upstream delivery data (path)    input_file  = dataConnect.dataInputStream(input_port).iloc[0, 0]    # Get the custom properties    result_tif_path = argv[1]    # Core codes of the component    # ...    dataConnect.downloadFileFromHdfs(input_file, input_file, False)    dataConnect.putFileToHdfs(result_tif_path,input_file)     df = pd.DataFrame({'out_path': [result_tif_path]})     # Pass the data downstream    dataConnect.dataOutputStream(df ,output_port)

二、Python组件使用示例

1. 上传并编辑Python组件。

上传zip包并mount,mount成功后选择组件并编辑基本信息以及图标。自定义输入输出端口(如果不填,默认有一个输入输出DefaultPort);如果需要参数输入,则设置参数及输入样例。

上传Python组件

编辑Python组件

 

2. 流水线配置Python组件并运行。

将python组件拖拽至板并配置相应的参数即可点击运行并监控。

运行Python组件

 

三、相关链接

我们希望通过πFlow技术人员和更多大数据领域的有志之士,一起将πFlow开源社区打造成国内一流的大数据处理开源社区,欢迎你的加入!

GitHub 地址: https://github.com/cas-bigdatalab/piflow

Gitee 地址: https://gitee.com/opensci/piflow

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/240673/piflow-1-5-released

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。