Apache Beam 2.23.0 发布,大数据批处理和流处理标准
Apache Beam 2.23.0 现已发布。Apache Beam 是 Google 在 2016 年 2 月份贡献给 Apache 基金会的项目,主要目标是统一批处理和流处理的编程范式,为无限、乱序、web-scale 的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的 SDK。Apache Beam 项目重点在于数据处理的编程范式和接口定义,并不涉及具体执行引擎的实现,Apache Beam 希望基于 Beam 开发的数据处理程序可以执行在任意的分布式计算引擎上。
主要更新内容:
Highlights
I/Os
- 添加了对 Snowflake reading 的支持(Java)(BEAM-9722)。
- 增加了对写入 Splunk 的支持(Java)(BEAM-8596)。
- 添加了对 assume role 的支持(Java)(BEAM-10335)。
- 已添加一个新的可从 BigQuery 读取的 transform:
apache_beam.io.gcp.bigquery.ReadFromBigQuery
。此 transform 是实验性的。它通过将数据导出到 Avro 文件并读取这些文件来从 BigQuery 读取数据。它还支持通过导出到 JSON 文件来读取数据。与时间和日期相关的字段在行为上有很小的差异。 - 为 SnowflakeIO.write 添加 dispositions(BEAM-10343)
New Features/Improvements
- 更新 Snowflake JDBC 依赖关系,并将 application=beam 添加到 connection URL(BEAM-10383)。
Breaking Changes
- 在反序列化 JSON(Java)时,
RowJson.RowJsonDeserializer
、JsonToRow
和PubsubJsonTableProvider
现在默认接受“implicit nulls”。以前的 null 只能用 explicit null 值表示,例如{"foo": "bar", "baz": null}
,而像{"foo": "bar"}
这样的 implicit null 值则会引发异常。现在,两个 JSON 字符串默认都会产生相同的结果。可以使用用RowJson.RowJsonDeserializer#withNullBehavior
来覆盖此行为。 - 修复 Python 中
GroupIntoBatches
实验转换中的一个错误,该错误实际上是按键对批次进行分组的。这将更改此转换的输出类型(BEAM-6696)。
Deprecations

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
GeoGebra 6.0.596.0 发布,绘图神器
Geogebra 是动态数学软件,它将几何、代数、电子表格、绘图、统计和微积分集成在一个易于使用的软件包中。 GeoGebra 6.0.596.0版本现已发布,具体更新内容如下: 修复下拉菜单无法在点击时关闭的问题 将 LaTeX 粘贴到 Algebra Input 和 Input Boxes 中的改进 用于有理函数的新命令 RemovableDiscontinuity()(也用于previews) Notes:新的表格工具 Editor:SVG export、添加了 evalLaTeX()和 event for <Enter>/focus lost Chrome:将图片复制到剪贴板中 详细信息
- 下一篇
PyCharm 2020.2 正式发布
PyCharm 2020.2 正式发布了,主要更新内容包括: 新的 Pull Request 专用视图:不再需要在浏览器和 IDE 之间切换即可管理 GitHub Pull Request 工作流。在 PyCharm 中完成所有操作。 编辑器内智能的 exceptions 预览:不需要在 exceptions 后花时间浏览代码。 PyCharm 现在会自动找到它,并直接在编辑器中显示问题预览。 原地签名更改重构:只需原地(in-place)添加、删除或编辑方法签名,然后使用上下文操作(Alt+Enter)或新的 gutter 图标预览更改并应用重构。 支持 settings.py 中的 Django 配置常量补全:停止一遍又一遍地在 settings.py 中键入相同的 Django 配置变量。加快流程,让 PyCharm 自动完成记录的 Django 设置。 更新说明:https://blog.jetbrains.com/pycharm/2020/07/pycharm-2020-2-out-now
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS关闭SELinux安全模块
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音