如何保证Hadoop数据湖不变成“数据洪水”
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
1、数据湖:一不留神变数据洪
数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。
数据湖已满,如何防泛滥
数据湖洪水泛滥
数据湖十分灵活,同时具备可扩展和低成本的特点。其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据、非结构化数据以及半结构化数据。这些数据可以是日志文件、点击流、邮件、图像、音频视频或者文本文件。
数据湖中数据类型繁杂
在这些数据中,非结构化和半结构化数据占据了很大一部分,但是由于我们的处理能力不同,一些数据可能在数据湖中存储了很长时间而不能被处理掉,这样就会一直积攒下来保留的现在。
诚然,数据湖可以帮助处理各种形式的数据,这其中以结构化数据为主。而且数据湖具备数据库的大部分特质,可以提供数据查询、结构化数据处理报告等业务。数据湖的***价值在于数据利用、探索大数据的价值,预测未来结果并为企业提出相关建议,进而指导企业的进一步决策和行动。
“数据洪”一触即发
但是,问题也就发生在这里。因为基于Hadoop部署的数据湖的能力并不足以应付一切,而用户对数据湖又疏于管理。数据量随时间而增加,数据湖开始泛滥,进而有逐步发展成洪水的趋势。数据不能得到有效的分配,“数据洪”随时可能冲溃堤坝,水漫金山。
2、数据湖管理需更好的工具
抗洪还得靠管理
那么数据湖要如何才能避免成为数据洪的悲剧呢?首先应该从根本上改变传统对数据湖的看法。把数据湖当作一个整体库存来管理是存在问题的,对于管理人员来讲,基于数据类型需要把数据湖分成一个个的区,分别处理管理。
基于Hadoop的数据湖需要分类
基于Hadoop的数据湖的区域划分归类对其而言十分重要。管理者需要对其需要提取的数据进行原始数据的保留,并且对其进行元数据标记,标明数据源、数据类型等。当被提取的数据处理完毕之后要对其统一规划并进行后续处理。
如果用户需要选择一些特定应用程序的数据,那么可以通过收集、转换,将来自不同数据源的数据全部带走并进行处理。***,在处理工作完成后可以通过数据轨迹、处理日志等工具对处理过程进行审核,保障数据处理的完成度。
数据分类管理
这些问题说起来简单,但是做起来却是一件相当麻烦的事情。这要求企业拥有一套十分成熟的数据提取工具,用于数据转化、分类、标记以及其他任务。
而且不仅仅是企业关注这一问题,在Apache的Hadoop社区也有好多团队在致力于开发此类工具。事实上,此类工具更趋向于数据管理专业,这些对于企业来讲并不熟悉。而好消息是,一些相关的生态链已经在Hadoop领域开始形成,相信解决数据湖管理难题的工具将在不久后出现。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spring-boot-admin之HttpTrace显示入参和出参及增加Redisson监控
spring-boot-admin(以下简称SBA)与Spring Boot、Spring cloud项目以starter得方式自动集成,包括Server端和Client端 SBA监控包括应用的基本信息、logfile(在线实时浏览或者download)、JVM信息(线程信息、堆信息、非堆信息)、Web(API接口信息、最近100次API调用的信息)、应用中用户登录信息;监控指标很全面,但针对具体项目就要增加符合自己项目的内容了,比如如下两点: 自定义HttpTrace增加入参和出参 结果:在spring-boot-admin中HttpTrace显示的信息包括session、principal、request、response、timeTaken和timestamp,但session、principal对该项目完全无用,request是HttpTrace的内部类显示信息包括: private final String method; private final URI uri; //唯一可以扩展的地方 private final Map<String, List<Strin...
- 下一篇
大数据”时代并不是掌握数据,而是利用数据
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 大数据可以来自方方面面,从生活中的购物交易,到工业上的生产制造;从社交网络媒体信息,到企业化管理决策大数据作为目前IT行业最重要的前进方向之一,已经吸引了众多IT企业的目光。面对海量的数据、不断变化的外部环境,企业应该首先从寻求管理模式的创新入手,寻求在“大数据”时代中生存的基础。 最近几年,“大数据”成为最热的技术词汇之一。面对“大数据”时代的到来,不单单是构建企业信息化这么简单,更重要的是企业应该寻求管理模式的创新。 早在30年前,美国著名的社会思想家阿尔文·托夫勒就在《第三次浪潮》中提出:“如果IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。” 在“大数据”时代,数据不仅仅由互联网产生,汽车、物流、工业设备、道路交通监控等等设备上装有无数的传感器,其产生的数据信息也是海量的,从 TB级别,跃升到了PB级别(1TB=1024GB),这也就是说传统的数量级已经无法衡量如今社会各行各业产生的庞大数据了。对于大数据,更重要的含义是指处理这些海量数据的技术——如何挖掘出这些数据蕴含的巨大的商业价...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Red5直播服务器,属于Java语言的直播服务器
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS关闭SELinux安全模块