Delta Lake 2.0.0 正式发布，重申开源承诺-低调大师

Delta Lake 2.0.0 正式发布，重申开源承诺

2022-08-11 459

Delta Lake 2.0.0 现已发布，该版本发布正值 Delta Lake 的 3 岁生日之际。“我们很高兴地宣布在 Apache Spark 3.2 上发布 Delta Lake 2.0 (pypi, maven, release notes )......Delta Lake 2.0 的意义不仅仅是一个数字，它重申了我们对 Delta Lake 开源的集体承诺”。

Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。

此版本的一些主要功能包括：

支持 Delta 表上的 Change Data Feed。Change Data Feed 表示不同版本的表之间的行级更改。启用后，将记录有关表上每个写入操作的行级别更改的附加信息。有关更多详细信息，可参阅文档。

支持数据的 Z-Order 聚类，减少读取的数据量。Z-Ordering 是一种将相关信息放在同一组文件中的技术。这种数据聚类允许列统计信息（在 Delta 1.2 中发布）更有效地跳过查询中基于过滤器的数据。有关更多详细信息，可参阅文档。

支持对 Delta 表的幂等写入，以启用 Delta 表写入作业的容错重试，而无需多次将数据写入表。有关更多详细信息，可参阅文档。

app_id = ... # A unique string that is used as an application ID.

def writeToDeltaLakeTableIdempotent(batch_df, batch_id):
  batch_df.write.format(...).option("txnVersion", batch_id).option("txnAppId", app_id).save(...) # location 1
  batch_df.write.format(...).option("txnVersion", batch_id).option("txnAppId", app_id).save(...) # location 2

支持将 Delta 表中的列作为元数据变更操作来删除。此命令从元数据中删除列，而不是从底层文件中删除列数据。有关更多详细信息，可参阅文档。

支持动态分区覆盖。仅覆盖在运行时写入数据的分区。值得注意的是，动态分区覆盖与分区表的replaceWhere选项冲突。有关详细信息，可参阅文档。

SET spark.sql.sources.partitionOverwriteMode=dynamic;
INSERT OVERWRITE TABLE default.people10m SELECT * FROM morePeople;

对 multi-part checkpoints 的实验性支持，将 Delta Lake checkpoint 拆分为多个部分，以加快 checkpoint 的写入和读取速度。有关更多详细信息，可参阅文档。
Python 和 Scala API 支持 OPTIMIZE 文件压缩和 Z-order by。

其他显着变化
- 通过添加对嵌套列生成列跳过的支持，改进生成列数据跳过
- 通过阻止 Delta Lake 中不受支持的数据类型来改进表架构验证。
- 支持创建具有空模式的 Delta Lake 表。
- 更改 DROP CONSTRAINT 在约束不存在时引发错误的行为。在此版本之前，该命令用于静默返回。
- 当分区值中包含 space 时，修复符号链接清单生成问题。
- 修复了收集不正确的提交统计信息的问题。
- 支持 S3 多集群写入支持的 LogStore 中的 SimpleAWSCredentialsProvider 或 TemporaryAWSCredentialsProvider。
- 修复了生成的列中的一个问题，即使列是空的，也不允许在插入的 DataFrame 中写入空列。

Benchmark Framework Update

独立于此版本，开发团队改进了编写大型 scala 性能基准测试的框架（在 1.2.0 版本中添加了初始版本），添加了对使用 Google Dataproc 在 Google Compute Platform 上运行基准测试的支持（除了现有的对 AWS 上 EMR 的支持之外）。

社区扩展和增长的更新

公告称，Delta Lake 将更加依赖于通过提供 ACID 事务以及在现有云数据存储之上统一流和批处理事务来为数据湖带来可靠性和改进的性能。通过使用最流行的计算引擎和技术构建连接器，Delta Lake 的吸引力将继续增加 —— 推动社区的更多增长，并在全球最具创新性和最大的企业中快速采用该技术。

更多详情可查看官方公告。

微信关注我们

原文链接：https://www.oschina.net/news/206173/data-lake-2-0-0-released

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

FydeOS V15 上线，优化系统引导体验并支持直接解压打包文件

这次 FydeOS v15 着实让大家久等了！在这一次里程碑更新中，最值得一提的有：Chromium 浏览器升级至 102.0.5005.*；Chromium OS 平台更新到了 14695.91.15.*。同步了上游所有关于浏览器和操作系统平台的新特性。这其中可以明显察觉到的有：完成使用全新的 SWA 技术重构了「文件」、「媒体库」和「相机」等系统程序在「相机」程序内添加了拍摄 gif 的功能在「文件」程序内添加了一键解压缩 zip 压缩包文件的功能加入了对平板设备手势操作的进一步优化，提升了支持防止手掌误触的算法添加了一组「一键直达指定虚拟桌面」的系统快捷键：shift + super(❖ or ⌘) + 数字 1 至 8 即可直达 1 至 8 号虚拟桌面添加了一个贴心的显示日历的工具，需要在 chrome://flags 中开启 #calendar-view 方可启用在系统「诊断」工具中加入了一键导出系统信息的按钮：当你在 FydeOS 社区求助时可以附上这个文件，方便我们更快地了解你的设备配置信息及定位问题所在进一步优化了系统首次启动激活向导（OOBE）的体验...

2022-08-11

476

Spring Web Flow 3.0 M1 现已发布，此版本主要关注与 Spring Framework 6 和 Jakarta EE 的兼容性。spring-projects/spring-webflow-samples上的 Travel booking-mvc 示例已更新，commit history 提供了示例更改。其中一项重大变化是需要删除尚未迁移到 Jakarta EE 的 Tiles。在示例中，改为使用 Thymeleaf Layouts。公告称：距离上一组 Spring Web Flow 发布已经快 4 年了。尽管如此，该项目仍然很好地满足了特定需求，可以说比其他替代方案更好，并且仍然在积极使用。虽然新版本没有强大的驱动力，但即将推出的 Spring Framework 6 带来了 Java 17 基线并转移到 Jakarta EE，这就产生了对这样一个版本的需求，以便使应用程序能够迁移到这个新基线。值得注意的是，由于 Spring Faces 与 JSF 的深度集成以及迁移所需的额外时间和精力，因此该版本未包含 Spring Faces。如果你有 Web Flo...

2022-08-12

438

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。