Apache Spark 3.0 发布
Databricks 上周发布了 Apache Spark 3.0,并将此作为新版 Databricks Runtime 7.0 的一部分。3.0.0 版本包含 3400 多个补丁,为 Python 和 SQL 功能带来了重大进展。
Spark 是用于大数据处理,数据科学,机器学习和数据分析等领域的统一引擎。
Spark 3.0 重要变化:
- 与 Spark 2.4 相比,TPC-DS 的性能提升了2倍,主要通过自适应查询执行、动态分区修剪和其他优化实现
- 兼容 ANSI SQL
- 针对 pandas API 的重大改进,包括 Python 类型提示和额外的 pandas UDF
- 改进 Python 错误处理,简化 PySpark 异常提醒
- 为结构化流(structured streaming)提供新 UI
- 调用 R 语言自用户定义函数(User-Defined Function)的速度可提高 40 倍
- 解决了 Jira 上 3400 多个 issue,这些 issue 的分布情况如下图所示
改进 Spark SQL 引擎
Spark SQL 是支持大多数 Spark 应用程序的引擎。在 Spark 3.0 中,46% 的补丁被应用于 SQL,提升了性能和 ANSI 兼容性。如下图所示,Spark 3.0 的性能大约是 Spark 2.4 的 2 倍。
下面看看 Spark SQL 引擎中的主要新功能。
自适应查询执行(Adaptive Query Execution)
新的自适应查询执行(AQE) 框架通过在运行时生成更好的执行计划来提高性能并简化调整,即使由于缺少或使用不正确的数据统计信息和错误估计的成本而致使初始计划不理想时,也是如此。此版本引入了三个主要的自适应优化:动态合并 shuffle 分区可简化甚至避免调整 shuffle 分区的数量、动态切换连接策略部分避免了由于缺少统计信息或错误估计大小而导致执行次计划的情况,以及动态优化倾斜连接(optimizing skew joins )。
动态分区修剪 (Dynamic Partition Pruning)
当优化器无法在编译时识别其可以跳过的分区,将会应用“动态分区修剪”功能。这在星型模式中很常见,星型模式由一个或多个事实表组成,这些事实表引用了任意数量的维度表。在执行这种联接操作中,我们可以通过识别维度表过滤之后的分区来修剪联接从事实表中读取的分区。在 TPC-DS 基准测试中,102 个查询中有 60 个查询获得 2 到 18 倍的显着加速。
Spark 3.0 中的其他更新
Spark 3.0 除了在 SQL,Python 和流技术方面包含部分关键改进,还提供了许多其他的新功能。详情查看发布说明,发现对 Spark 的所有其他改进,包括数据源、生态系统和监视等。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Ant Design 4.3.5 发布,企业级 UI 设计语言和 React 实现
Ant Design 4.3.5 发布了。Ant Design 是一套企业级的 UI 设计语言和 React 实现,使用 TypeScript 构建,提供完整的类型定义文件,自带提炼自企业级中后台产品的交互语言和视觉风格、开箱即用的高质量 React 组件与全链路开发和设计工具体系。 此版本更新内容: 修复 Input.Search 作为 AutoComplete 自定义组件会崩溃的问题。#25049 使用 hooks 重写 Input.Password。#25012@Rustin-Liu 修复 PageHeader 从4.3.0后的tabs样式错误。#24991 修复 Backtop 没有完全隐藏的问题。#25132@jesse3mh9a 修复 Upload 不支持包裹 Popover 的问题。#25090 修复 Tabs 内容会超出容器宽度的问题。#25072 修复 DataPicker/TimePicker 时间下拉选对齐问题。#25019 Table 优化 Table 筛选菜单为空时的 UI。#25073 修复 Table 嵌套 Table 时的边框样式问题。#24995 缩小...
- 下一篇
Krita 4.3.0 发布,开源数字绘画软件
Krita 4.3.0 发布了。它是一款自由开源的数字绘画软件,主要针对手绘用途设计,具备高度可定制的笔刷系统和完善的图层功能,可通过透明度和变形蒙版来实现非破坏性编辑。它能够绘制位图图像、矢量图形和制作动画,并具备完善的色彩管理功能,能够进行 HDR 图像的编辑和调试。 此版本带来了: 一套用于水彩画的全新的画笔预设。 渐变图滤镜新增一个颜色模式,还有一个全新的调色滤镜和一个高通滤镜(使图像更清晰)。 脚本 API 也得到了扩展。 现在,还可以分别调整彩色画笔笔尖的不透明度和亮度。 另外,可以创建动画的笔刷笔尖,这些笔尖可以沿多个维度选择笔刷。 在多显示器设置中,现在可以将所有控件放在一个显示器上,而将图像放在另一个显示器上。 颜色选择器也有了很大的更新。 新增一个新的快照泊坞窗,用于存储图像状态,用户可以在这些状态之间切换。 有一个全新的磁性选择工具。 现在可以将渐变绘制为螺旋形。 扩展了填充工具和连续选择工具(“魔棒”) 详细版更新说明:https://krita.org/en/krita-4-3-release-notes/
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS关闭SELinux安全模块
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- 设置Eclipse缩进为4个空格,增强代码规范
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路