MaxCompute Hash Clustering介绍

2018-11-05 889

背景

在MaxCompute查询中，Join是很常见的场景。例如以下Query，就是一个简单的Inner Join把t1表和t2表通过id连接起来：

SELECT t1.a, t2.b FROM t1 JOIN t2 ON t1.id = t2.id;

Join在MaxCompute内部主要有三种实现方法：

Broadcast Hash Join - 当Join存在一个很小的表时，我们会采用这种方式，即把小表广播传递到所有的Join Task Instance上面，然后直接和大表做Hash Join。

Shuffle Hash Join - 如果Join表比较大，我们就不能直接广播了。这时候，我么可以把两个表按照Join Key做Hash Shuffle，由于相同的键值Hash结果也是一样的，这就保证了相同的Key的记录会收集到同一个Joi

微信关注我们

原文链接：https://yq.aliyun.com/articles/665154

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

取之开源，用之开源-深度剖析阿里巴巴对Flink的优化与改进

作者 | 阿里巴巴实时计算团队导读：随着人工智能时代的降临，数据量的爆发，阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题，所以阿里巴巴就在想：能不能有一套统一的大数据引擎技术，用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下，不管是全量数据还是增量数据，亦或者实时处理，一套方案即可全部支持，这就是阿里巴巴选择 Flink 的背景和初衷。彼时的 Flink 不管是规模还是稳定性尚未经历实践，成熟度有待商榷。阿里巴巴实时计算团队决定在阿里内部建立一个 Flink 分支 Blink，并对 Flink 进行大量的修改和完善，让其适应阿里巴巴这种超大规模的业务场景。那么，阿里巴巴对 Flink 究竟做了哪些优化呢？ Apache Flink 概述 Apache Flink（以下简称 Flink）是诞生于欧洲

2018-11-05

679

HBase—Hadoop Database是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。HBase的特点是高可靠性、高性能、面向列、可伸缩的分布式存储系统，如今HBase已经广泛应用于各互联网行业。那么我们如何熟练掌握HBase技术及应用呢？ 2018年11月17号，由中国HBase技术社区、DataFun社区联合氪空间主办的中国第八届HBase Meetup将来到南京，届时来自阿里云、毕马威、苏宁等公司HBase的专家们，将为大家分享HBase的应用实践。主办方：中国HBase技术社区、DataFun社区联合主办方：氪空间合作伙伴：云栖社区、掘金社区时间：2018.11.17，13：00-18：00 地点：南京市玄武区同仁西街7号南

2018-11-05

661

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

MaxCompute Hash Clustering介绍

背景

取之开源，用之开源-深度剖析阿里巴巴对Flink的优化与改进

中国HBase技术社区第八届MeetUp ——HBase典型应用场景与实践（南京站）

相关文章

发表评论

资源下载

腾讯云软件源

Spring

Sublime Text

WebStorm

欢迎您来访！