大家都是成年人了,表白请直接点!
上周小编发布的《在吗?0代码加速查询MaxCompute请查收》,主要是提供如何使用HoloStudio快速查询MaxCompute数据的操作步骤,没想到收获了无数朋友们爱的表白,纷纷表示,交互式分析的出现解决了离线数据处理的一大心病,甚至有的朋友开始自发写使用文章,(大家都是成年人了,表白请直接点!)。本文内容节选自阿里集团某业务部门的ATA文章(已获得作者本人的同意),部分内容有修改。
1.加速方案对比
MaxCompute作为离线大数据的存储引擎,承载了阿里集团海量数据的存储服务。但由于其架构原因,读数据的速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,例如MySQL、MongoDB、HiStore、RDS、Postgre For MySQL、ElasticSearch等。不同的数据库支持的业务场景如下:
数据库 | 数据库类型 | 可支持数据量 | 读取速度 | 说明 |
---|---|---|---|---|
MySQL | 关系型数据库 | 单表500万 | 实时 | 大批量数据可分库分表 |
AnalyticDB for PostgreSQL | 分析型数据库 | 千亿级 | 近实时 | OLAP |
HybridDB for MySQL | 分析型数据库 | 千亿级 | 近实时 | OLAP+OLTP |
AnalyticDB for MySQL | 分析型数据库 | 百亿级 | 实时 | OLTP |
MongoDB | NoSQL数据库 | 百亿级 | 实时 | No Schema文档型存储 + 搜索 |
HBase | NoSQL数据库 | 万亿级 | 实时 | 列存储 |
ElasticSearch | 搜索引擎 | 百亿级 | 近实时 | No Schema文档型存储 + 搜索 |
Seahawks | MaxCompute加速方案 | 百亿级 | 近实时 | 基于Hash Clustering + PostgreSQL,Seahawks可以绕过MaxCompute耗时的调度,从而达到加速读取的目的。FBI主要的加速方案。 |
交互式分析 | 交互式查询分析引擎 | 千亿级 | 近实时 | 与MaxCompute数据直接打通,支持秒级查询;兼容PostgreSQL,无缝对接BI工具 |
2.HoloStudio介绍
HoloStudio是基于交互式分析的一站式开发平台,深度集成于DataWorks上,可使用HoloStudio进行UI一键建表快速查询MaxCompute数据,同时也支持以标准的SQL语句进行开发,还能对接DataWorks的数据开发、数据服务等功能,实现数据从收集--查询--可视化分析的一站式操作流程,节约大量中间转化时间!
关于HoloStudio介绍,可以参加往期:交互式分析六脉神剑》之Dataworks-HoloStudio初体验
也可以参考官网文档进行操作学习:基于HoloStuido的开发
3.HoloStudio查询MaxCompute
1.创建数据源
登录DataWorks,在数据地图中准备一张MaxCompute表或者新建ODPS SQL写入一张表并导入数据。
2.创建外部表
HoloStudio中创建外部表,这一步相当于在交互式分析里给原始的MaxCompute表加上了一层字段映射,并通过底层资源的打通,达到秒级响应。(一次query的数据量在100GB以下可以建外部表直接查询MaxCompute,超过100GB以上MaxCompute数据建议导入交互式分析再查询)。
这里以某张MaxCompute表为例,表的数据总共103GB,单分区1500万行数据左右。
说明:能查询这个MaxCompute表的前提是当前账号有这张表的访问权限
勾选需要加速查询的字段后,提交表就完成了。
接下来测试一下查询性能,在左侧数据开发Tab下创建开发脚本如下:
从1500万行数据里,按照用户id聚合,取前10个大用户,大概耗时16秒。
3 创建数据服务
经过HoloStudio查询的数据,可以直接对接DataWorks的数据服务,生成API。
1.进入DataWorks数据集成--数据源管理--新增数据源,选择PostgreSQL数据源,并填写连接信息
说明:当前配置页面为集团内环境,公共云用户请参考DataWorks数据服务进行数据源配置
2.完成数据源配置后,在数据服务页面创建数据服务。由于向导模式暂时不完善,这里建议选择“脚本模式”。建议选择脚本模式进行数据源便编写。
3.保存脚本,单击测试进行查询性能测试。
测试API可以使用,调用耗时25秒。
4测试完成之后,可将API进行发布。发布之后就可以使用API查询数据了。
本文只是节选部分操作步骤,具体生成API的操作步骤,大家可以参考往期内容:交互式分析加速查询MaxCompute封装API的最佳实践
收到小伙伴的使用反馈,小编表示今晚可以加个鸡腿了!当然,类似的文章还有很多,小编只是节选部分内容,没选中的小伙伴别伤心,后面小编一定宣你!同时,也欢迎各位小伙伴写反馈文章给小编,到时候会有福利相送哦!(大家都是成年人了,表白请直接点)
若您在使用产品过程中有任何问题,欢迎进群开怼!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据中台建设引擎Dataphin亲测体验报告一:功能完备性测评
作者:张骞 更多内容详见数据中台官网 https://dp.alibaba.com 近期公司采购了阿里云智能数据构建与管理产品Dataphin,推广大数据和IT部门使用,说需要统一数据研发规范性,还要释放数据生产力,提高业务需求响应效率,作为大数据部门一个小分析师,有幸也体验了这个阿里云上神秘的产品,看看是哪里比较厉害,替代了原有的数据研发平台。 看外界宣传文章,说Dataphin主打OneData体系——OneModel、OneID、OneService,是阿里巴巴数据中台实践产品,听起来很有意思,本人就自己体验大概分享下优劣。 以下均基于个人经历背景、基于11月升级前的公共云版本,表达个人观点,不喜勿喷。下面将以满分5分,对Dataphin打分。 功能完备性 评分:4.2分点评:满足基本需求,部分功能待提升概要:从数据引入到数
- 下一篇
开源大数据生态下的 Flink 应用实践
过去十年,面向整个数字时代的关键技术接踵而至,从被人们接受,到开始步入应用。大数据与计算作为时代的关键词已被广泛认知,算力的重要性日渐凸显并发展成为企业新的增长点。Apache Flink(以下简称 Flink)以其快速、准确的算力备受关注,如何将 Flink 更好的与大数据生态技术相结合,充分挖掘数据的潜力,真正发挥数据的价值,是大多数企业面临的难题。 11 月 28-30 日,Flink Forward Asia 邀请来自阿里巴巴、戴尔科技集团、英特尔、Cloudera、趣头条、百度、Stream Native 等不同方向的技术专家围绕 Apache Flink 核心大数据生态探讨当下大数据的发展趋势与未来动向,并展现相关技术在一线生产场景的优秀实践。 点击可了解大会详情,购买参会门票 部分精彩议题概览 Apache Flink and the Apache Way Fabian HueskeApache Flink PMC,Ververica Co-founder, Software Engineer Apache Flink is a project of the Apache...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Red5直播服务器,属于Java语言的直播服务器
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启