Spark同时支持复杂的批处理、互操作和流计算,而且兼容支持HDFS和Amazon S3等分布式文件系统。Spark是否可以替换现有运营商的数据批处理工作?
运营商的数据仓库一直以来采用的小型机+关系型数据库的方式的建设,随着大数据技术在互联网的使用,运营商也在考虑逐步用大数据平台替换现有的数据仓库建设方式。但始终在探索,要真正的落地实施还有一段很长的路要走。
某省运营商的数据仓库离线数据处理数据架构分为五层,分别是接口层,负责接口的装载,设计原则是与原系统结构保持相同;存储层,负责全量数据的存储,这层只做少量的转换工作,其主要的动作是增量转全量;汇总层,负责数据颗粒度的降低,在纵向上,按照业务的要求,把海量数据的单表的数据颗粒度降低。在横向上,进行关联,把单表的字节数减少;中心区,负责计算口径和业务口径的固化,大量的口径和复杂算法是在本层实现的;最后一层是应用层,负责应用表的展示,核心思想是对应用展现的缓冲。目前集成商在对数据仓库通过大数据技术进行优化时,考虑接口层和存储层放在Hadoop平台上实现,通过ETL工具将文件数据加载到HDFS上,HIVE完成存储层数据的处理。汇总层和中心区因涉及到大量的关联迭代操作,将这两层放到MPP中。应用层用关系型数据库进行处理。但这样存在一个问题,因为跨库的数据传输导致的数据处理效率的低下。既然Spark能够支持复杂的批处理,而且兼容支持HDFS,是否可以将其中的汇总层和中心区用spark进行处理,减少跨库的数据传输导致的效率问题。同时建立增量处理模型,实时呈现当日的关键数据指标。
另一问题是否还有必要建立五层的数据架构模式?个人觉得五层的数据架构不能很好体现大数据技术的优势。需要好好考虑,如果改变数据架构,整个数据仓库等于进行了重构,运营商是否有魄力进行改变。
微信关注我们
原文链接:https://yq.aliyun.com/articles/66116
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
相关文章
发表评论
资源下载
更多资源Mario,低调大师唯一一个Java游戏作品
马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。
Oracle Database,又名Oracle RDBMS
Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。
Apache Tomcat7、8、9(Java Web服务器)
Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。
Eclipse(集成开发环境)
Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。