认识数据湖——拥抱开源大数据技术的前提
世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。 随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但IT专业人士常有疑惑,数据湖究竟是一个架构策略还是架构的目标呢?实际上并没有清晰的界限,但仍然有方法来解决定义的问题。数据湖是一个中央储存库,为多种数据工作负载储存企业数据;通过数据湖,终端架构可以得到解决,同时数据结构相关的决策也是建立数据湖时的关键。 数据湖被越来越多的采用,而它的实施分为四个关键的阶段: 技术评估。通过进行大数据实验项目,关注几个特定的业务目标和成果,数据湖的使用者可以对这项技术进行测试,并熟悉Apache Hadoop环境的管理。 做出反应。在这个阶段,各公司开始利用Hadoop来解决现有架构的低效率问题,确立清晰可测的业...