《大数据分析原理与实践》一一1.4 大数据分析的过程、技术与难点
本节书摘来自华章计算机《大数据分析原理与实践》一书中的第1章,第1.4节,作者:王宏志 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.4 大数据分析的过程、技术与难点
1.大数据分析的过程
大数据分析的过程大致分为下面6个步骤:
(1)业务理解
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据分析问题的定义和实现目标的初步计划上。
(2)数据理解
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
(3)数据准备
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有的能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗