大家都是成年人了，表白请直接点！-低调大师

大家都是成年人了，表白请直接点！

2019-11-12 749

上周小编发布的《在吗？0代码加速查询MaxCompute请查收》，主要是提供如何使用HoloStudio快速查询MaxCompute数据的操作步骤，没想到收获了无数朋友们爱的表白，纷纷表示，交互式分析的出现解决了离线数据处理的一大心病，甚至有的朋友开始自发写使用文章，（大家都是成年人了，表白请直接点！）。本文内容节选自阿里集团某业务部门的ATA文章（已获得作者本人的同意），部分内容有修改。

1.加速方案对比

MaxCompute作为离线大数据的存储引擎，承载了阿里集团海量数据的存储服务。但由于其架构原因，读数据的速度较慢，不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询，例如MySQL、MongoDB、HiStore、RDS、Postgre For MySQL、ElasticSearch等。不同的数据库支持的业务场景如下：

数据库	数据库类型	可支持数据量	读取速度	说明
MySQL	关系型数据库	单表500万	实时	大批量数据可分库分表
AnalyticDB for PostgreSQL	分析型数据库	千亿级	近实时	OLAP
HybridDB for MySQL	分析型数据库	千亿级	近实时	OLAP+OLTP
AnalyticDB for MySQL	分析型数据库	百亿级	实时	OLTP
MongoDB	NoSQL数据库	百亿级	实时	No Schema文档型存储 + 搜索
HBase	NoSQL数据库	万亿级	实时	列存储
ElasticSearch	搜索引擎	百亿级	近实时	No Schema文档型存储 + 搜索
Seahawks	MaxCompute加速方案	百亿级	近实时	基于Hash Clustering + PostgreSQL，Seahawks可以绕过MaxCompute耗时的调度，从而达到加速读取的目的。FBI主要的加速方案。
交互式分析	交互式查询分析引擎	千亿级	近实时	与MaxCompute数据直接打通，支持秒级查询；兼容PostgreSQL，无缝对接BI工具

2.HoloStudio介绍

HoloStudio是基于交互式分析的一站式开发平台，深度集成于DataWorks上，可使用HoloStudio进行UI一键建表快速查询MaxCompute数据，同时也支持以标准的SQL语句进行开发，还能对接DataWorks的数据开发、数据服务等功能，实现数据从收集--查询--可视化分析的一站式操作流程，节约大量中间转化时间！
关于HoloStudio介绍，可以参加往期：交互式分析六脉神剑》之Dataworks-HoloStudio初体验
也可以参考官网文档进行操作学习：基于HoloStuido的开发

3.HoloStudio查询MaxCompute

1.创建数据源

登录DataWorks，在数据地图中准备一张MaxCompute表或者新建ODPS SQL写入一张表并导入数据。

2.创建外部表

HoloStudio中创建外部表，这一步相当于在交互式分析里给原始的MaxCompute表加上了一层字段映射，并通过底层资源的打通，达到秒级响应。（一次query的数据量在100GB以下可以建外部表直接查询MaxCompute，超过100GB以上MaxCompute数据建议导入交互式分析再查询）。
这里以某张MaxCompute表为例，表的数据总共103GB，单分区1500万行数据左右。

说明：能查询这个MaxCompute表的前提是当前账号有这张表的访问权限

勾选需要加速查询的字段后，提交表就完成了。

接下来测试一下查询性能，在左侧数据开发Tab下创建开发脚本如下：
从1500万行数据里，按照用户id聚合，取前10个大用户，大概耗时16秒。

3 创建数据服务

经过HoloStudio查询的数据，可以直接对接DataWorks的数据服务，生成API。
1.进入DataWorks数据集成--数据源管理--新增数据源，选择PostgreSQL数据源，并填写连接信息

说明：当前配置页面为集团内环境，公共云用户请参考DataWorks数据服务进行数据源配置

2.完成数据源配置后，在数据服务页面创建数据服务。由于向导模式暂时不完善，这里建议选择“脚本模式”。建议选择脚本模式进行数据源便编写。

3.保存脚本，单击测试进行查询性能测试。
测试API可以使用，调用耗时25秒。

4测试完成之后，可将API进行发布。发布之后就可以使用API查询数据了。

本文只是节选部分操作步骤，具体生成API的操作步骤，大家可以参考往期内容：交互式分析加速查询MaxCompute封装API的最佳实践

收到小伙伴的使用反馈，小编表示今晚可以加个鸡腿了！当然，类似的文章还有很多，小编只是节选部分内容，没选中的小伙伴别伤心，后面小编一定宣你！同时，也欢迎各位小伙伴写反馈文章给小编，到时候会有福利相送哦！（大家都是成年人了，表白请直接点）
若您在使用产品过程中有任何问题，欢迎进群开怼！

微信关注我们

原文链接：https://yq.aliyun.com/articles/726890

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

数据中台建设引擎Dataphin亲测体验报告一：功能完备性测评

作者：张骞更多内容详见数据中台官网 https://dp.alibaba.com 近期公司采购了阿里云智能数据构建与管理产品Dataphin，推广大数据和IT部门使用，说需要统一数据研发规范性，还要释放数据生产力，提高业务需求响应效率，作为大数据部门一个小分析师，有幸也体验了这个阿里云上神秘的产品，看看是哪里比较厉害，替代了原有的数据研发平台。看外界宣传文章，说Dataphin主打OneData体系——OneModel、OneID、OneService，是阿里巴巴数据中台实践产品，听起来很有意思，本人就自己体验大概分享下优劣。以下均基于个人经历背景、基于11月升级前的公共云版本，表达个人观点，不喜勿喷。下面将以满分5分，对Dataphin打分。功能完备性评分：4.2分点评：满足基本需求，部分功能待提升概要：从数据引入到数

2019-11-12

722

过去十年，面向整个数字时代的关键技术接踵而至，从被人们接受，到开始步入应用。大数据与计算作为时代的关键词已被广泛认知，算力的重要性日渐凸显并发展成为企业新的增长点。Apache Flink（以下简称 Flink）以其快速、准确的算力备受关注，如何将 Flink 更好的与大数据生态技术相结合，充分挖掘数据的潜力，真正发挥数据的价值，是大多数企业面临的难题。 11 月 28-30 日，Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向，并展现相关技术在一线生产场景的优秀实践。点击可了解大会详情，购买参会门票部分精彩议题概览 Apache Flink and the Apache Way Fabian HueskeApache Flink PMC，Ververica Co-founder, Software Engineer Apache Flink is a project of the Apache...

2019-11-12

758

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。