E-MapReduce助力建设企业级数据仓库
概述
对于大部分的企业,数据一般存在两个地方,一个是业务数据库,一个是日志。一般来讲,数据库数据容量有限,对于历史标记删除的记录一般会做定时清理,但是这些数据往往还是很有价值的。数据库计算能力也有限,如果要做一些数据分析,则会浪费宝贵的计算资源。
一些数据分析会横跨不能的部门,不同的业务线,往往需要不同DB之间,甚至需要跟日志做一些关联,这时就会有一个新的部门,数据仓库部门或者数据分析部门。此部门需要做第一件事情就是需要把不同的业务线的数据统统收集到一个中心。以往选择数据处理技术往往是一些商业的数据仓库。在Hadoop技术来临之后,由于其易用性、高度扩展性、低成本的优势,受到了越来越多的公司使用。本文将简单介绍使用E-MapReduce建设数据仓库。
建立数据仓库
大致的架构如下图所示:
- 在RDS mysql部分的数据,可以每天晚上同步一

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
基于Kerberos的大数据安全方案
1.背景 互联网从来就不是一个安全的地方。很多时候我们过分依赖防火墙来解决安全的问题,不幸的是,防火墙是假设“坏人”是来自外部的,而真正具有破坏性的攻击事件都是往往都是来自于内部的。 近几年,在thehackernews等网站上总会时不时的看到可以看到一些因为数据安全问题被大面积攻击、勒索的事件。在Hadoop1.0.0之前,Hadoop并不提供对安全的支持,默认集群内所有角色都是可靠的。用户访问时不需要进行任何验证,++导致++恶意用户很容易就可以伪装进入集群进行破坏。 要保证Hadoop集群的安全,至少要做到2个A:Authentication(认证),Authorization(授权)。常见的方案有: Authentication:MIT Kerberos, Azure AD, Kerby Authorization:Apache Sentry(Cloudera), Apache Ranger(Hortonworks) Hadoop集群对Kerberos的支持 2012年1.0.0版本正式发布后,Hadoop才增加了对Kerberos的支持, 使得集群中的节点是可信任的。 Ker...
- 下一篇
E-MapReduce(Hadoop)10大类问题之集群规划
集群规划类问题 所有的使用Hadoop或者打算使用Hadoop的人肯定会遇到集群规划的问题,我到底使用多大的集群规模呢?有没有一个标准呢? 本篇文章就为你介绍集群规划。 在云环境E-MapReduce中,各种搭配是比较自由的。当前,cpu跟memory的比例有1:2及1:4的。磁盘是单机4快盘,从不同的性能有普通云盘、高校云盘、SSD云盘,价格也分别不同,单盘的容量也从40g到32T。 对于 有钱的公司,本文就不用看了,直接用最贵最多的肯定是满足需求的。对于广大的创业公司或者本着开源节流的思想来用的公司,还是需要研究下的。 基本原则 离线在线分开,主要是把在线的流式计算(SparkStreamingStorm)、存储服务(Hbase)与离线计算分开。因为两者追求的目标不一样,在线追求qps响应时间,离线追求吞吐。 Hbase需要使用SSD云盘
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8编译安装MySQL8.0.19
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS6,7,8上安装Nginx,支持https2.0的开启