Apache Hop 2.0.0 已正式发布。
Apache Hop(Hop 是 Hop Orchestration Platform 的缩写)是一个灵活、元数据驱动的数据编排、工程和集成平台。该项目起源于二十多年前的 ETL 平台 Kettle,经过几年的重构,于 2020 年 9 月进入 ASF 孵化器。
Kettle 是一款知名的开源 ETL 工具,抽取数据高效稳定,在执行 ETL 工具、ETL 数据抽取转换等批任务时,使用频率较高,包括电信、金融、银行在内的各行业都使用 Kettle 作为数据处理工具。但是由于各种因素,Kettle 近几年的发展还是较为缓慢,为了改变现况,从 2020 年 2 月份开始,Kettle 社区在 Kettle 8.2 的基础上创建了一个分支,Hop 正是基于这个分支构建的新项目,2020 年 9 月份,Hop 正式进入 ASF,成为孵化项目。
Apache Hop 基于 Java 的可视化设计器、服务器和配置工具易于在众多平台上设置、部署和维护,其被设计用于任何场景:本地、云、裸操作系统、容器、物联网环境、大型数据集等,并支持在 Windows、Linux 和 OSX 平台上运行。特点包括:
- 轻量级的 “一次设计,处处运行” 架构
- 元数据驱动
- 可视化开发环境
- 集成丰富的插件
- 内置生命周期管理
2.0 更新亮点
升级到 Java 11
发布公告写道,在 2.0 中,Hop 可以在 Java 11 上可靠地运行。因为新版本升级了所有 Apache Hop 代码,目前支持在 Java 11 和 Java 8 上正常构建和运行。
官方称升级 Java 版本的工作进行了几个月,开发团队细致地修复和扩展了测试和代码问题。借此机会,他们还对代码进行了清理,同时对部分 API 进行了破坏兼容性的变更,开发者需要查看文档以了解如何才能将 Hop 插件升级到 2.0。
提供中文版本
Apache Hop 2.0 提供了中文版本,这项工作由中国开发者@Shl Xue贡献。
![]()
引入新的转换插件
Apache AVRO 文件输出
![]()
Apache Doris 批量加载程序
![]()
Drools 规则执行器
升级 Apache Beam
Apache Beam是先进的统一编程模型,可用于在任何执行引擎上运行批量和流式数据处理作业。流行的执行引擎包括 Apache Spark、Apache Flink 或 Google Cloud Platform Dataflow。
Apache Beam 一直是 Apache Hop 的一个重要插件,并随 Apache Spark 3.1.3 和 Apache Flink 1.14.4 升级到 2.38.0。
详情查看发布公告。