认识数据湖——拥抱开源大数据技术的前提
世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力。“数据仓库”和“大数据”等概念都逐渐深入人心,但“数据湖”仍然是让IT和业务相关者头疼的一件事情。
随着人们对于数据湖的清晰定义、使用案例、最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢?
1.定义及观点
数据湖成为了核心数据架构中发展得很快的一环,但IT专业人士常有疑惑,数据湖究竟是一个架构策略还是架构的目标呢?实际上并没有清晰的界限,但仍然有方法来解决定义的问题。数据湖是一个中央储存库,为多种数据工作负载储存企业数据;通过数据湖,终端架构可以得到解决,同时数据结构相关的决策也是建立数据湖时的关键。 数据湖被越来越多的采用,而它的实施分为四个关键的阶段:
- 技术评估。通过进行大数据实验项目,关注几个特定的业务目标和成果,数据湖的使用者可以对这项技术进行测试,并熟悉Apache Hadoop环境的管理。
- 做出反应。在这个阶段,各公司开始利用Hadoop来解决现有架构的低效率问题,确立清晰可测的业务机会。此外,这个采纳过程对于IT效率的提高也是非常关键的。
- 主动利用。通过为分析项目合并数据以及利用Hadoop获得经济的可拓展性这两种手段,各公司可以在一个单一的中央存储中管理大量新出现的数据源,例如物联网、社交媒体和非结构化的数据。
- 建立核心竞争力。随着大数据成为IT战略的核心组成部分,各公司最终能够达到发展的高峰,消除所有业务应用和分析应用之间的隔阂,重新建立一个单一的企业平台。
2.数据湖的组织
得益于Hadoop的灵活性和可拓展性,我们今天能够保存、分类、探索并利用的数据类型比以往任何时候都要多。但避免数据湖成为数据沼泽的关键在于数据治理,数据的组织和安全性也是决定数据探索成败的关键。一个清晰而有条理的数据组织(通常是按类目或者按数据用法划分)能够帮助Hadoop工程师建立更加完善的技术决策,帮助分析师和数据科学家从数据中获取真正的洞察。
3.统一数据探索、数据科学和商务智能
对于企业BI需求、数据探索和数据科学的支持是推动数据湖部署的主要因素,这三项技术能将原始数据用于机器学习算法和统计功能。因为敏捷方法学为企业级 BI提供了自适应途径,数据湖就能够落实更多具体的企业业务、性能指标和度量权值,同时可用于储存历史数据。 充满竞争的商业环境让人目不暇接,各公司必须认识到探索技术的关键作用,并认识到解答未知的重要性。这刺激了我们的需要,要把数据直接用于分析技术,产生意义重大的洞察、为企业创造附加价值。
4.成功的关键
要帮助企业从他们的数据湖中实现最大化效益,就必须要考虑以下几个要素:
- 从长远角度考虑数据。在开始一个数据项目时,必须仔细考虑数据在今后其他应用中的可重用性。要明白未来新产生的数据需求往往是不可预知的,了解这一点后公司就可以更好地相应准备并利用起他们的数据。
- 先确立数据治理结构。数据治理被应用在了整个企业的数据和信息政策当中,所以在考虑数据湖时也不应该例外。数据治理规范了企业中的每个人对数据湖的使用,并最小化了发生错误和不当数据管理的可能性。
- 预先解决安全问题。以数据为中心的安全保护提供了从整个数据的生命周期来看数据的宏大视角,此处的关键要素就是从第一天开始就正视安全问题,确立好哪些数据可以引入数据湖,并为数据湖中的各类数据制定使用权限。
尽管数据湖在大数据领域还是一个比较新的词汇,但它已经成为了企业级IT架构和整体数据战略的重要部分。数据湖战略拥有合理的架构,能够和数据科学以及成本低廉、拥有商业基础的机器学习分析完美结合。对于数据湖核心概念的了解能够帮助企业更好地利用并保护自己的数据,同时提高通过数据进行探索的能力。
本文作者:John O’Brien
来源:51CTO

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
看行业观察家和技术专家对大数据在2017年的发展预测
又到了年终岁尾时,业界权威市场研究和咨询机构Ovum公司日前估计,大数据市场规模将从2016年的17亿美元增长到2020年的94亿美元。随着市场的增长,企业的挑战正在转变,对人们的技能需求正在改变,而大数据服务供应商的景观也在风云变幻。2017年将是大数据专业人士更为忙碌的时刻。以下是一些来自相关行业观察家和技术专家对大数据在2017年的发展预测。 1.对数据科学家的需求将减弱 组织对数据科学家的需求正在减弱,Ovum公司在其关于大数据趋势的报告中表示。该研究公司引用了来自Indeed.com的数据,显示了组织在过去四年对数据科学家的需求。同时,大学正在培养更多的拥有数据科学证书的大学毕业生。 “谁招募这些潜在客户?很可能,排除在线数字业务,在全球2000强以外的一些少数企业会招募他们,但却很少有人会想到如何使用数据科学家。”Ovum公司指出,“对于大量依赖于打包分析的组织来说,不需要数据科学家本身,而是需要应用数据科学的应用程序或工具。 2.使数据科学成为团队运动将成为重中之重 Ovum公司警告,数据科学家和数据工程师在企业中扮演不同的角色:数据科学家关注数据形成和测试假设,而数据工...
- 下一篇
新一代服务器打造绿色环保数据中心
云计算、大数据时代的来临,促使越来越多的数据中心被建立。 如今,数据中心已经遍布全球各地。数据中心是一个需要昂贵的费用才能够建立的项目,对于任何组织来说,这都是一笔不小的费用。 随着数据中心逐渐增多,这些企业们也开始重视数据中心的费用支出。 然而,人们发现,数据中心的主要支出并不是购买设备,购买设备的费用虽然在数据中心前期是一笔可观的费用,但是相比后期运维,数据中心的购买设备是一项可以预算并且并不是难以承受的费用。 人们发现,数据中心在后期运维的费用往往是非常高昂的,这是一笔无法估量的费用。 于是,企业们开始关注数据中心的节能环保问题,那么如何建立更环保的数据中心呢? 幸运的是,如今许多的数据中心运营商们已经开始意识到,建立更环保的数据中心是非常有必要的。要使设备更环保,数据中心基础设施管理(DCIM)是采用的最突出的方法之一。 一款全面、综合的基础架构管理平台, 能够实时监控和管理数据中心基础设施以及IT设备,并且能够整合各类系统与数据资源,弥补基础设施与IT设备之间的信息缺失。并且如今很多数据中心管理还能够基于大数据的智能分析,可提升数据中心管理的联动能力、决策能力以及未来规划能力...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题