从0到1构建数据生态系列(二):拆解架构蓝图
一、结合业务需求拆解架构图 先把上一章已经讲过的架构图再贴一次: 整体架构说明 从架构图中可以看出,在我们整个数据架构中,需要做的事情很多。随着数据的流向,从下到上,主要分三层: 第一层是数据收集层,负责基础数据的收集工作; 第二层是数据存储与处理层,负责数据存储、对数据进行深度处理、转换及价值的挖掘等; 最上层是应用层,基于下面的数据处理,进行价值转换;还有贯穿整个过程的监控以及任务调度相关的工作。 第一层中,主要有四个数据来源:用户行为埋点上报数据、服务日志的数据、后端的业务数据、互联网的公开数据。 第二层中,我们主要的核心框架是Hadoop的核心生态,基于HDFS的存储(本质上hive的存储也是基于HDFS),以及基于Spark部分实时处理的需求场景,主要是平台级的架构。当然,至于说具体的处理以及数据的加工、挖掘详细数据业务,后续其它章节再详述。 第三层中,我们直接面向的是业务方。一方面是数据生态中最基础最常见的的数据智能商业化分析,我们以excel封装成邮件日报周报的形式提供。另一方面是平台化的BI系统,以及高度自助性的数据自助查询系统。 在深度挖掘方面,推荐...
