从数据到洞察 数据湖时代到来
【51CTO.com原创稿件】数据,无疑是企业最有价值的资产。数据的价值在于从数据本身提出真正有用的信息,将信息变成知识,从而指导我们行动。从数据到洞察,从而帮助企业进行业务运营,创造更大的价值。
我们经历过数据库、数据仓库、数据湖等不同概念时期,应对了不同种类、量级、形式的数据。随着人工智能的快速发展,以及产业互联网的转型,处理数据的技术也在升级,再加上云计算的计算能力,企业可以快速获取洞察,实现业务创新。
数据复杂性增加
过去,数据只有像数据科学家、数据工程师才会使用,而如今,企业中的每个人都可以是数据的使用者,可以是企业的管理人员,也可以是营销、财务、业务人员,还可以是产品经理、开发者、运营人员等。而数据分析的应用场景也关联到社会的方方面面,例如市场客户服务方面,消费者的细分、客户的忠诚度、客户的流失度等,金融的风险管控和评估,市场促销活动和需求分析,医疗领域的疾病传播、药物发现等,都会涉及到数据分析。
然而,随着社交网络的兴起,电商外卖、娱乐视频、社交媒体、交友恋爱等各种新型互联网应用的普及,致使数据的复杂性也在增加。而企业的数据分析也要求更加具有即时性以及预测性,从而为业务决策带来指导意义。
过去数据都是从业务系统中获取,如今,移动设备、可穿戴设备、物联网设备等不同设备的互联,数据的获取端也变得更加丰富。而用户数量和业务请求量的增长,也导致了数据以指数级速度在增长。数据的获取来源多样、数据量增加、数据格式多元,也给数据本身的缩放性、经济性带来了挑战,企业需要速及时地将数据展示出来,并从中进行分析获取价值。
数据湖的出现
对于数据的处理,最传统的方法就是通过数据库来管理,尤其是交易型数据库。过去,企业的数据都来源于像ERP、CRM等各种业务系统,都是存放在数据库中。后来,各个业务系统应用都会产生并存储大量的数据,而这些数据并不能被其他系统应用所使用,这就产生了数据孤岛。数据仓库应运而生。数据仓库是在数据库的基础之上,将系统应用产生的数据经过一定的分类、提炼、整理后,全部存储在集中式的数据仓库中,各个部门根据自己的需要导出相关数据进行使用分析。
数据仓库只能存储结构化数据,并且需要提前定义好,面对如今大量的非结构化、半结构化数据,以及数据分析的时效性的高要求,数据仓库就显得“力不从心”。数据湖就此诞生。
数据湖的概念有很多,AWS首席云计算企业战略顾问张侠博士则认为,数据湖就是一个中心数据存储的容器,可以处理结构化、非结构化等各种各样的数据,数据量级可以快速缩放,并且进行查询和分析。
张侠举例说道,过去数据汇总后像一条小河,河里的水量是可以预知的,然后设计一个河道,水来后有闸门可以进行处理。但是互联网时代,视频以及移动终端的信息蜂拥而至,我们很难掌握数据的性质,水量大并且来势汹涌,需要耗费大量时间进行处理。于是就需要先将数据存放在湖里,然后通过工具进行查询分析。
数据湖的兼容与灵活
也许有人会认为,数据湖本质上没有技术创新,只是一个概念的拼凑,然而,在数字化转型变革中,数据湖真正可以帮助企业实现技术转型,应对快速发展下的数据需求。
数据湖可以存储海量、多源的数据,业务系统、智能设备等产生的数据都可以以原始的自然数据进行存储,同时支持结构化数据和非结构化数据。此外,结合云计算能力,数据湖可以快速地缩放存储海量数据,并且通过建目录和数据的转移、抽取等工作,将数据归类,然后快速地进行各种各样的分析。
但是,值得注意的是,数据湖存储的是原始的自然数据,自然有些是无用数据,并且还占用存储空间,那么,如何处理无用数据以及缩小存储成本呢?张侠告诉51CTO,如果数据进来的都是垃圾,很可能后续的存储和分析也都是垃圾,因此企业要尽可能地对原始数据进行合理的管控、设计、把握,从而提高数据质量,同时也可以减少原始数据量。此外,企业还可以将冷、热数据分级处理,通过生命周期管理功能根据数据的量级和特点性质进行存储和处理,从而减少数据成本。
张侠指出,由于数据湖对所有数据都可以兼容,并且保持了灵活性,因此特别适用于数据科学家、数据研究人员进行探索性、预测性、研究性的数据查询和分析。
AWS的“数据家族”
一般,数据湖的搭建分为几步:首先先将数据设置好并存储,然后将数据移动加载到不同的地方,清理数据后编写数据目录,配置数据安全性与合规性策略并进行存储管理,在需要分析的时候通过工具调取数据进行分析。为了简化搭建步骤,AWS提供了AWS Lake Formation,将建立数据湖的方法自动化,帮助企业在数天内完成数据的建设工作。张侠透露,AWS Lake Formation会在今年在中国推出。
除了搭建数据湖以外,数据的存储也很重要。在AWS数据湖层面,包括了Amazon S3和AWS Glue。Amazon S3可以存储任何二进位为基础的任何信息,包括结构化和非结构化数据,并且具有11个9的数据持久性,云端三个可用区存储六份,互为备份。在Amazon S3后端是冷存储Amazon Glacier,如果数据不常用,可以存储在Amazon Glacier,降低存储费用。AWS Glue包括两大功能,全托管的数据提取、转换和加载 (ETL) 服务以及元数据目录,用户可以更加容易准备数据,加载数据到数据库、数据仓库和数据湖,并且用于数据分析。AWS Glue服务已经在AWS中国(宁夏)区域正式上线。
除了数据湖相关的产品,AWS还在数据层面提供了更多的功能,包括底层数据的迁移和移动工具,存储不同类型数据的数据存储层,上层有各种分析工具以及机器学习功能。
最底层是数据迁移和移动工具,AWS提供 AWS Database Migration Service数据库迁移服务、AWS Snowball(雪球)可以将数据存储在专用硬盘的装置中快递到AWS、AWS Storage Gateway通过数据门户网关转换数据,AWS Backup数据备份服务。
数据移动的上一层是数据存储层,通过各种数据库来存储各种不同类型的数据,包括Amazon DynamoDB存储键值和文档,Amazon RDS托管型关系数据库,Amazon Aurora云原生数据库,Amazon ElasticCach内存式数据库,Amazon Neptune图形数据库。
在数据湖层之上是分析层,AWS提供了Amazon Redshift数据仓库,Amazon EMR大数据分析,AWS Glue无服务器处理,Amazon Athena交互式分析,Amazon Elasticsearch运维分析,Amazon Kinesis实时分析。
最上层是机器学习,包括Amazon QuickSight图形可视化,Amazon Polly文字转语音功能,Amazon Transcribe语音转文字功能,Amazon SageMaker机器学习工具,帮助用户将数据分析结果进行展现。
AWS期望提供全面、安全、经济高效、易于构建、应用广泛的数据相关的工具和服务,帮助企业应对各种数据的需求,快速将数据转化成洞察,从而加速业务创新。而亚马逊也是AWS的用户。亚马逊曾是Oracle全球数据库最大的用户,使用了7500个数据库,数据量达到75PB,然而由于扩展困难且昂贵,亚马逊在去年11月完成了从Oracle数据库迁移至AWS上相关数据库,数据库成本费用减少了60%,数据库的管理费用减少了70%。此外,亚马逊在内部建立了数据湖名叫Galaxy(银河),整合亚马逊所有数据进行分析,加快了从数据汇总挖掘有用信息的速度同时减少成本。
结语
数据湖的概念从2011年首次提出,如今已经走过九年,如今人工智能的兴起也成为了数据湖快速发展的最大驱动力。张侠认为,在数据湖时代,大数据会变得更加实时、更加面向未来,人工智能成为了关键性的因素。人工智能有能力处理大量数据,使得海量数据的价值有所提高。随着时间的推移,数据分析和人工智能的很大部分都会密切结合。
虽然,数据湖在中国的发展还处于早期阶段,但随着下一代互联网、5G、边缘计算等技术的发展,与之相对应的数据存储和分析的道路也会加速。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
3 月全球 Web 服务器调查报告:nginx 域名份额首超 Apache
Netcraft 公司官网每月公布的全球 Web 服务器调查报告“Web Server Survey”是当前人们了解全球网站数量以及服务器市场分额情况的主要参考依据,2020年 3月份的报告目前已经发布。 3 月份报告共收录了 1 263 025 546 个站点数据,包括 257 194 796 个独立域名和 9 659 223 个面向 Web 的计算机。 其中微软和 nginx 域名总数在 3 月都有增长,nginx 获得了 484 万个域名(增长 7.2%),并将其市场份额提高了 1.6 个百分点至 28.1%,而微软获得了 21.5 万个域名。 nginx 在域名市场份额方面首次超过 Apache,超出了 136 000个域名,但是在活跃站点方面还是 Apache 领先,尽管其 3 月失掉了 225 000 个活跃站点,但 Apache 的市场份额仍比 nginx 领先 8.21 个百分点。Apache 在面向 Web 的计算机方面也处于领先地位,尽管与 nginx 相比仅占 3.17%。 其它方面,Google 丢失了 115 000 个域名,但获得了 510 000 个活跃站...
- 下一篇
智能边缘,你了解多少?
什么是智能边缘? 所谓的智能边缘要比互联网大得多。 1869年7月27日星期二,博物学家兼冰川学家约翰·缪尔(John Muir)在他的日记中记录了一个有趣的观察: “当我们试图单拎出任何东西时,会发现它和宇宙中的其他东西都有联系。” 停下来思考一下。 这个事实同样适用于更狭窄的情景领域。例如,技术与解决方案是密不可分的。 即使技术与其他事物相关联,它仍可以被定义为离散元素。但是,流行语往往没有很好的定义或离散。 例如,一个销售员对我说,“我们正在研发5G人工智能。” 接着,请考虑以下技术: 智能设备 边缘人工智能与机器学习 人工智能芯片 5G 物联网(IoT) 边缘计算 区块链 边缘和微型数据中心 窄带物联网 (NBIoT) 多址边缘计算(MEC) 模块化边缘数据中心 这些是与智能边缘相关的常见技术。每项技术都有各自通往现在的独立道路,都有各自的生命周期,但每项技术都与其他技术相关联,事实上,都以某种方式与所有事物相联系。 有趣的是,根据斯蒂芬·福克斯(Stephen Fox)在其书中所述,缪尔(Muir)早些时候也有过类似的观察,这似乎与边缘技术有着奇怪的关联: “当我们试图单拎出...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Windows10,CentOS7,CentOS8安装Nodejs环境