《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代
本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.2节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 大数据分析时代 如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。 随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。 一般来说,大数据分析需要涉及以下4个方面。 有效的数据质量。任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。 优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中...