Apache Spark 3.0 发布-低调大师

Apache Spark 3.0 发布

2020-06-21 980

Databricks 上周发布了 Apache Spark 3.0，并将此作为新版 Databricks Runtime 7.0 的一部分。3.0.0 版本包含 3400 多个补丁，为 Python 和 SQL 功能带来了重大进展。

Spark 是用于大数据处理，数据科学，机器学习和数据分析等领域的统一引擎。

Spark 3.0 重要变化：

与 Spark 2.4 相比，TPC-DS 的性能提升了2倍，主要通过自适应查询执行、动态分区修剪和其他优化实现
兼容 ANSI SQL
针对 pandas API 的重大改进，包括 Python 类型提示和额外的 pandas UDF
改进 Python 错误处理，简化 PySpark 异常提醒
为结构化流(structured streaming)提供新 UI
调用 R 语言自用户定义函数(User-Defined Function)的速度可提高 40 倍
解决了 Jira 上 3400 多个 issue，这些 issue 的分布情况如下图所示

改进 Spark SQL 引擎

Spark SQL 是支持大多数 Spark 应用程序的引擎。在 Spark 3.0 中，46％的补丁被应用于 SQL，提升了性能和 ANSI 兼容性。如下图所示，Spark 3.0 的性能大约是 Spark 2.4 的 2 倍。

下面看看 Spark SQL 引擎中的主要新功能。

自适应查询执行(Adaptive Query Execution)

新的自适应查询执行(AQE) 框架通过在运行时生成更好的执行计划来提高性能并简化调整，即使由于缺少或使用不正确的数据统计信息和错误估计的成本而致使初始计划不理想时，也是如此。此版本引入了三个主要的自适应优化：动态合并 shuffle 分区可简化甚至避免调整 shuffle 分区的数量、动态切换连接策略部分避免了由于缺少统计信息或错误估计大小而导致执行次计划的情况，以及动态优化倾斜连接(optimizing skew joins )。

动态分区修剪 (Dynamic Partition Pruning)

当优化器无法在编译时识别其可以跳过的分区，将会应用“动态分区修剪”功能。这在星型模式中很常见，星型模式由一个或多个事实表组成，这些事实表引用了任意数量的维度表。在执行这种联接操作中，我们可以通过识别维度表过滤之后的分区来修剪联接从事实表中读取的分区。在 TPC-DS 基准测试中，102 个查询中有 60 个查询获得 2 到 18 倍的显着加速。

Spark 3.0 中的其他更新

Spark 3.0 除了在 SQL，Python 和流技术方面包含部分关键改进，还提供了许多其他的新功能。详情查看发布说明，发现对 Spark 的所有其他改进，包括数据源、生态系统和监视等。

微信关注我们

原文链接：https://www.oschina.net/news/116598/apache-spark-3-0-released

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Ant Design 4.3.5 发布，企业级 UI 设计语言和 React 实现

Ant Design 4.3.5 发布了。Ant Design 是一套企业级的 UI 设计语言和 React 实现，使用 TypeScript 构建，提供完整的类型定义文件，自带提炼自企业级中后台产品的交互语言和视觉风格、开箱即用的高质量 React 组件与全链路开发和设计工具体系。此版本更新内容：修复 Input.Search 作为 AutoComplete 自定义组件会崩溃的问题。#25049 使用 hooks 重写 Input.Password。#25012@Rustin-Liu 修复 PageHeader 从4.3.0后的tabs样式错误。#24991 修复 Backtop 没有完全隐藏的问题。#25132@jesse3mh9a 修复 Upload 不支持包裹 Popover 的问题。#25090 修复 Tabs 内容会超出容器宽度的问题。#25072 修复 DataPicker/TimePicker 时间下拉选对齐问题。#25019 Table 优化 Table 筛选菜单为空时的 UI。#25073 修复 Table 嵌套 Table 时的边框样式问题。#24995 缩小...

2020-06-22

750

Krita 4.3.0 发布了。它是一款自由开源的数字绘画软件，主要针对手绘用途设计，具备高度可定制的笔刷系统和完善的图层功能，可通过透明度和变形蒙版来实现非破坏性编辑。它能够绘制位图图像、矢量图形和制作动画，并具备完善的色彩管理功能，能够进行 HDR 图像的编辑和调试。此版本带来了：一套用于水彩画的全新的画笔预设。渐变图滤镜新增一个颜色模式，还有一个全新的调色滤镜和一个高通滤镜（使图像更清晰）。脚本 API 也得到了扩展。现在，还可以分别调整彩色画笔笔尖的不透明度和亮度。另外，可以创建动画的笔刷笔尖，这些笔尖可以沿多个维度选择笔刷。在多显示器设置中，现在可以将所有控件放在一个显示器上，而将图像放在另一个显示器上。颜色选择器也有了很大的更新。新增一个新的快照泊坞窗，用于存储图像状态，用户可以在这些状态之间切换。有一个全新的磁性选择工具。现在可以将渐变绘制为螺旋形。扩展了填充工具和连续选择工具（“魔棒”）详细版更新说明：https://krita.org/en/krita-4-3-release-notes/

2020-06-22

816

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。