Apache Spark 3.1 发布
Apache Spark 3.1 作为 Databricks Runtime 8.0 的一部分已正式发布,这也是 Apache Spark 3.x 系列的第二个 release。开发团队表示,为了让 Spark 更快、更方便使用以及更智能,Spark 3.1 对以下特性进行了扩展:
- Python 可用性
- ANSI SQL 合规性
- 查询优化增强
- 改进 Shuffle hash join
- History Server 对结构化流数据的支持
下面简单介绍部分高级的新功能和改进。
Project Zen
Project Zen 启动于此版本,主要从以下三个方面改进了 PySpark 的可用性。
- 更加 Python 化
- 在 PySpark 中提供更好和更易用的可用性
- 提供与其他 Python 库更好的互操作性
ANSI SQL 合规性
该版本增加了针对 ANSI SQL 合规性的额外改进,有助于简化从传统数据仓库系统到 Spark 的工作负载迁移。
性能
Catalyst 是用于优化大多数 Spark 应用的查询编译器。在 Databricks 中,每天有数十亿次查询被优化和执行。此版本增强了查询优化 (query optimization),以及提升查询处理 (query processing) 的速度。
流处理
Spark 是构建分布式流处理应用程序的最佳平台。每天有超过 10 万亿条记录在 Databricks 上使用 structured streaming 进行处理。此版本增强了 structured streaming 的监控能力、可用性和功能。
Spark 3.1 其他更新
除了上述这些新功能,此版本还关注可用性、稳定性和完善性,处理了约 1500 个工单。
