云HBase X-Pack解决传统数据仓库瓶颈,赋能客户计算分析业务
某游戏公司随着业务快速发展,用户行为日志快速增长,需要从海量的点击流日志和激活日志中挖掘数据的价值,比如广告转化率、激活率,每日安装用户成本等等。
业务挑战
原来使用GreenPlum做实时计算和统计分析。但是GreenPlum存在以下缺陷,难以应对业务的快速发展:
- GreenPlum架构难以应对日益复杂的计算任务;
- Greenplum的单表分区数目有限制,同时多级分区支持不够友好,不适用单表数据量比较大且需要永久保存的日志,如果单个分区表数据量比较大的时候查询性能无法满足业务性能需求;
- Greenplum扩容时由于数据要重分布会比较慢;
- Greenplum不适合处理非结构化的数据。
解决方案
在这样的背景下选择了阿里云HBase SQL服务(Phoenix)+ Spark服务构建实时计算和数据仓库解决方案,其中HBase SQL提供

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
A Complete Example
A Complete Example 这个例子将关于人员的记录流作为输入,并将其过滤为只包含成人。 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.api.common.functions.FilterFunction; public class Example { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<Person> flintstones = env.fromElements( new Person("Fred", ...
- 下一篇
通过WebUI查看Structured Streaming作业统计信息
1. 前言 从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。 2. 功能介绍 2.1Query列表 我们在现有Spark WebUI上新增了streamingsql Tab,用于展示当前作业中进行中以及完成的Streaming Query。 URL地址:http://${baseUrl}/streamingsql Active Streaming Queries:当前正在运行的query Completed Streaming Queries:已完成的query,包括结束的和失败的
相关文章
文章评论
共有0条评论来说两句吧...