加速查询MaxCompute再对接Quick BI,选交互式分析就对了!
导读
典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。
所选择的数据库不仅需要能够快速查询MaxCompute中的数据,满足业务的即席查询需求,也需要有存储、计算能力,面对不同的业务要求,能支持多种查询需求,更重要的是,不能出现数据的冗余存储,操作也要简便,方便运维、开发。同时,业务的完整链路通常是会将处理好的数据对接第三方BI工具,进行可视化分析,这对数据库的兼容能力又进一步提出需求。所以选择什么样的数据库更好呢?交互式分析告诉你答案!
为什么选择交互式分析?
1.从产品定义上来说,交互式分析不能视为数据库,而是一款大数据生态体系下的实时交互产品。
2.从架构上来说,采用存储、计算分离的架构,同时支持简单查询与复杂SQL查询,能实现PB级数据秒级查询响应,每秒亿级记录写入与查询,相比开源系统性能大幅提升。
3.从产品功能上来说:
1)生态兼容:既支持直接、导入查询MaxCompute离线数据,也支持实时数据实时写入实时查询,还能对离线数据和实时数据做联邦查询,完美满足各种业务场景的即席查询。
2)兼容PostgreSQL协议:用标准的SQL语言就能开发,无需额外的学习成本;同时还提供JDBC/ODBC接口,支持对接各种BI工具,无需数据迁移就能实现可视化分析。
3)与DataWorks深度集成:自研的开发平台HoloStudio深度集成在DataWorks上,提供图形化、智能化、一站式的数仓搭建和交互式分析服务工具,简单易用,节约学习成本和时间成本。
综上所诉,加速查询MaxCompute离线数据,使用交互式分析是您的不二选择。
场景演示
下面,小编将会做场景演示,如何使用交互式分析查询MaxCompute数据并最终在Quick BI上可视化分析展现。
开发平台:MaxCompute、交互式分析(都基于DataWorks完成)、Quick BI
场景过程:MaxCompute产生数据源,交互式分析直接、导入查询MaxCompute数据,并对接Quick BI可视化展现。
前提条件
1.开通MaxCompute、交互式分析,并绑定至DataWorks项目空间。
2.开通Quick BI
1.MaxCompute准备数据源
本示例会演示交互式分析直接、导入查询两种场景,所以需要准备2张源表。
在Dataworks中新建2张表,或者直接选取数据地图中的2张表,示例选用数据地图中的两张MaxCompute表。
表1:airline
表2:bank_data
2.交互式分析查询MaxCompute数据。
在HoloStudio中查询MaxCompute数据,分为直接查询和导入查询。2者的区别在于:直接查询的数据巨仍然存储在MaxCompute,使用于一次query小于100GB的场景。导入查询的数据最终存储在交互式分析中。
1)对于表1:airline,在HoloStudio中新建外部表直接加速查询,最终数据如下:
关于直接加速查询MaxCompute表数据可以参见往期:在吗?0代码加速查询MaxCompute。
2)对于表2:bank_data导入查询,最终数据如下:
关于导入查询MaxCmpute表数据,可以参见往期:来了,2行代码秒级查询MaxCompute!
3.Quick BI可视化分析
在交互式分析中对MaxCompute数据加速查询成功后,可以直接对接Quick BI,实现数据的可视化分析。在阿里云官网找到Quick BI并进入Quick BI控制台。并在控制台新增数据源,选用PostgreSQL数据源。
配置项 | 说明 |
---|---|
显示名称 | 自定义 |
数据库地址 | 连接的交互式分析数据库公共网络地址 |
端口 | 连接的交互式分析数据公共网络端口地址 |
Schema | public(默认) |
用户名 | 当前账号的的Access ID |
密码 | 当前账号的Access Key |
vpc数据源 | 不勾选 |
SSL | 不勾选 |
1)可视化交互式分析外部表
Quick BI成功连接交互式分析后,不会在数据表列表中显示外部表,若要可视化分析外部表,需要选用即席分析SQL模式。输入查询SQL,并单击执行,得到查询数据后,单击创建数据集。
在数据集可以看到外部表,可以根据业务需要在右侧选择分析功能。例如仪表盘
按照查看数据维度来对数据进行展现,并根据个人喜好美化插件,最终展现如下:
2)可视化分析交互式分析内部表
在Quick BI中,连接成功数据源之后,即可在界面上显示出当前数据源的内部表,需要可视化分析需要单击右侧生成数据集
生成的数据集如下,对数据集新建仪表盘进行可视化分析。
最终的简易分析图表如下,可以根据分析维度自行对数据进行拖拽,简单方便。
以上操作为完整的使用交互式分析加速查询MaxCompute数据 再对接Quick BI可视化分析,无需多次导数据,也无需数据的多次迁移,用一套sql语言,就能实现从数据源-数据处理-数据可视化分析的完整链路。同时在查询性能上,还能实现秒级交互式响应,真正适用与即席查询、olap等场景。还等什么,赶紧用交互式分析吧!
若您在使用交互式分析中有任何疑问,欢迎进钉钉群交流

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据安全系统
产品简介中安威士大数据安全平台(VS-BDSG)专注于为大数据环境的数据资产提供一系列的审计、访问控制、加密、脱敏等保护措施及管控,对数据的收集、加工、存储、应用等全生命周期的每个环节进行自动监测和实时处理。提供数据在事前、事中、事后的安全应对方案和处理机制,形成事前能预测,事中有方法,事后可追踪的安全闭环。 产品功能 大数据安全审计 本系统支持大数据HDFS、HIVE、HBASE等组件的数据安全单向、双向审计功能,提供可视化、向导式、多层次的策略配置管理。丰富和灵活的规则体系,能够适应不同场景需求。允许用户量身定制审计维度和范围。细粒度的审计和智能的风险告警,更精准的剖析了企业数据资产的微观运动,任何风险异常一目了然。 大数据访问控制(防火墙) 以白名单、黑名单、灰名单为主单元,逻辑视图清晰,配置灵活简单。可基于角色、组、用户等不同层级进行授权管理,自动同步数据环境中已经存在的权限信息并实现转换兼容。可以精细化控制到HDFS的路径权限,HBASE的表、列簇、列权限以及实现HIVE的数据库、表、列权限等的控制。 大数据加密 性能优异,可支持PB级的数据批量加密和解密,能极大满足上游应用...
- 下一篇
解密 云HBase时序引擎OpenTSDB 优化技术
逝者如斯夫,不舍昼夜。 —— 孔子 时间如流水,一去不复返。自古不乏对时间流逝的感慨,而现代已经有很多技术记录流逝的过去。我们可以拍照,可以录像,当然还可以用时序数据库! 时序数据库是专门存放随着时间推移而不断变化的数据。近些年,随着IoT等概念的流行,时序数据库成为数据库一个相对独立的领域逐渐受到重视,广泛应用于物联网、监控系统、金融、医疗和零售等多种场景。 过去12个月时序数据库(Time Series DBMS)热度不断增长 那么云上的用户如何构建一个存储海量数据的时序数据库呢?笔者这里推荐使用 云HBase + OpenTSDB 方案。云HBase是使用阿里多年优化过的HBase内核版本,本文不作过多介绍,详情请看 产品主页。 OpenTSDB简介 OpenTSDB是一款基于HBase构建的时序数据库,它的数据存储完全交给HBase,本身没有任何数据存储。所有节点是对等的,所以部署起来其实是非常方便的。因为基于HBase,所以本身就具备了横向扩展,存储海量数据的能力。常见的部署模式有2种,一种分离部署,一种混合部署。 独立部署,即与多个业务共享一个HBase。适合时序业务较小,...
相关文章
文章评论
共有0条评论来说两句吧...