Apache Spark 3.0 发布
Databricks 上周发布了 Apache Spark 3.0,并将此作为新版 Databricks Runtime 7.0 的一部分。3.0.0 版本包含 3400 多个补丁,为Python 和 SQL 功能带来了重大进展。 Spark 是用于大数据处理,数据科学,机器学习和数据分析等领域的统一引擎。 Spark 3.0 重要变化: 与 Spark 2.4 相比,TPC-DS 的性能提升了2倍,主要通过自适应查询执行、动态分区修剪和其他优化实现 兼容 ANSI SQL 针对pandas API 的重大改进,包括 Python 类型提示和额外的 pandas UDF 改进 Python 错误处理,简化 PySpark 异常提醒 为结构化流(structured streaming)提供新 UI 调用 R 语言自用户定义函数(User-Defined Function)的速度可提高 40 倍 解决了 Jira 上 3400 多个 issue,这些 issue 的分布情况如下图所示 改进 Spark SQL 引擎 Spark SQL 是支持大多数 Spark 应用程序的引擎。在 Spa...





