首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/67085

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MaxCompute 学习计划(二)

MaxCompute SQL 在这一课,我们开始学习MaxCompute SQL。希望通过这一课的学习,能基本掌握MaxCompute SQL的写法,清楚MaxCompute SQL和标准SQL的区别,还要能熟悉系统内建函数。 数据集 刚开始使用MaxCompute建议到这里免费体验。中间的账号注册、实名认证、数据上传一类的这里不再赘言。 进去后到脚本开发里创建一个自己的脚本。然后就可以开始写SQL执行了。 参考资料 可能需要参考MaxCompute关于SQL部分的文档,比如DML部分和内建函数。 常见错误 如果使用了Group by,那Select的部分要么是分组项,要么就得是聚合函数。 Order by后面必须加Limit n。 Select表达式里不能用子查询,可以用Join改写。 Join不支持笛卡尔积,以及MapJoin的用法和使用场景。 Un

MaxCompute计算长尾问题

长尾问题是分布式计算里最常见的问题之一,也是典型的疑难杂症。究其原因,是因为数据分布不均,导致各个节点的工作量不同,整个任务就需要等最慢的节点完成才能完成。处理这类问题的思路就是把工作分给多个Worker去执行,而不是一个Worker单独抗下最重的那份工作。本文希望就平时工作中遇到的一些典型的长尾问题的场景及其解法做一些分享。 Join Join能出现长尾,是因为Join时出现某个Key里的数据特别多的情况。不讨论两张表都是小表的情况。如果两张表里有一张大一张小,可以考虑使用Mapjoin,对小表进行缓存。具体语法和说明可以参考这里。如果是MapReduce作业,可以使用资源表的功能,对小表进行缓存。 但是如果两张表都比较大,就需要先尽量去重。实在不行的话,就需要从业务上考虑,为什么会有这样的两个大数据量的Key要做笛卡尔积,能否从业务

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

用户登录
用户注册