Apache Beam 2.28.0 发布,大数据流处理与批处理编程范式
Apache Beam 2.28.0 已发布,Beam 是一个用于定义和执行数据处理管道的统一编程模型,包括 ETL、批处理与流处理。Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,理想情况是基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。 更新亮点 与 Parquet 支持相关的大量改进(BEAM-11460,BEAM-8202和BEAM-11526) BeamSQL 中的哈希函数 (BEAM-10074) ZetaSQL 中的哈希函数 (BEAM-11624) 使用 HLL Impl 创建 ApproximateDistinct (BEAM-10324) I/Os SpannerIO 支持面向 Numeric 字段使用 BigDecimal (BEAM-11643) 将 Beam schema 支持添加到ParquetIO (BEAM-11526) 支持 ParquetTable Writer (BEAM-8202) GCP BigQuery sink (streaming inserts) 使用 runner 已确定的分片 (B...