重磅!2017大数据十大趋势
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
2017年大数据将不再是Hadoop一家独大,也不再是编程者们的自娱自乐,企业和终端用户的不断涌入,海量数据“堆积如山”,随之而来的储存、分析、处理成为从业者的下一挑战。
随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多,2016年注定是大数据里程碑式的一年。
2017年,支持大量结构化和非结构化数据的系统将继续增长。市场需要数据平台来帮助数据管理人员管理和保护大数据,同时允许最终用户进行数据分析。这些系统将逐步成熟,在企业内部的IT系统中更好地运行。
1、数据处理变得更加快速,数据也变得更加易于使用
选项扩展将加速Hadoop
当然,你可以在Hadoop上执行机器学习和情绪分析,但人们常常会问的***个问题是:交互式SQL(结构化查询语言,一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统)究竟有多快?毕竟,SQL相当于企业用户的“导管”——他们希望使用Hadoop数据来更快的获得可复用的BI仪表盘(一种向企业展示度量信息和关键业务指标即KPI现状的数据虚拟化工具),或者是进行一些探索性分析。
这种对速度的需求促使用户采用访问速度更快和执行效率更高的数据库,如Exasol、MemSQL,或者是类似于Kudu这种基于Hadoop的商店,当然还需要能够更快查询数据的技术。诸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技术(AtScale,Jethro Data和Kyvos Insights)这样的数据查询加速器将进一步模糊传统数据库与大数据世界的边界。
2、大数据不再只是Hadoop
专门基于Hadoop开发的工具已过时
在过去的几年中,随着大数据浪潮来袭,数种为了满足Hadoop分析需求的技术兴起。但是,身处复杂,异构环境中的企业不再希望仅为一个数据源(Hadoop)采用孤立的BI访问点。他们需要的答案被埋没在一大堆数据源中,从记录系统到云端,再到来自Hadoop和非Hadoop源的结构化和非结构化数据。(顺便说一句,甚至连关系型数据库也正在为大数据趋势做准备。例如,SQL Server2016于近日添加了JSON支持)。
在2017年,客户将会需要对所有数据都进行分析。不依赖于数据源的平台将会茁壮成长,而专为Hadoop而设计的平台和未能跨应用部署的平台将被弃用。Platfora的退出便是这一趋势的预示。
3、相关组织将利用数据湖(DataLake)来实现价值
数据湖就像一个人造水库
数据湖就像一个人造水库。首先你要建造一个水坝(构建一个集群),然后填满水(数据)。一旦建立了湖泊,你将开始因为各种目的而使用这些水资源(数据),如发电,饮用以及各种消遣(预测分析,机器学习,网络安全等)。
而今,保有数据湖里的数据已经变成了一种为了保留而保留的行为。在2017年,这将随着Hadoop业务的收紧而改变。各个组织要求可重复的并且敏捷地使用数据湖,以便更快地获得响应。在确定对人事、数据和基础设施的相应投资之前,企业会更加慎重的考虑业务成果。这将促进业务和IT之间的强力耦合。而自助服务平台作为分析大数据资产的工具将获得更深入的认可。
另外,公司还将关注业务驱动型应用,避免数据湖陷入困境。在2017年,企业机构将从“构建未来”的数据湖应用转向业务驱动型数据应用。当今世界需要分析和操作能力去触及客户、处理索赔并且连接到个体的不同设备。
举例而言,任何商业网站需要提供实时的个性化推荐和价格查询。医疗健康型企业必须处理有效的索赔并且运用分析运营系统来防止索赔欺诈。媒体公司需要通过机顶盒提供个性化的内容。汽车制造商和汽车共享公司则要交互运营其车辆和司机。这些案例的实施交付均需要由一个敏捷平台来实现,同时提供分析和运营的处理,跨越后台分析和前台运营进行整合,提升了商业价值。
4、成熟的架构拒绝通用型框架
Hadoop不再只是一个用于数据科学用例的批处理平台
Hadoop不再只是一个用于数据科学用例的批处理平台。它已经成为一种专为特殊分析而架设的多用途分析引擎,甚至被用于日常工作负载的操作报告——传统上这项任务是由数据仓库(大量数据提取和分析的工具)来处理的。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
大数据时代 无处安放的隐私数据
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 多年来,隐私和大数据之间的关系已经变得非常敏感,随着新兴技术产生大量数据,关于两者之间“辩论”才刚刚开始。 随着日常生活中数据生成设备的数量不断增长,因此关于应将数据公开,以及何时应将个人数据视为私有的争论也在不断增加。 SAP国家安全服务公司总裁兼***执行官Mark Testoni说,“我们拥有所有信息,而且大部分情况下,我们还没有真正决定什么是私有或公有领域。” “数据公开可以带来很多便利,但同时也存在一些安全问题,”Testoni说,“在接下来的几年里,这些问题将尤为突出。” 最近很多新闻事件也涉及到这些问题:12月,阿肯色州的县检察官要求亚马逊交易客户的Echo智能扬声器的数据,原因是一名男子被发现死在客户的家中,检察官认为语音解析服务可能记录了可能解释死亡的信息。 今年1月,纽约市推出了新的法规,要求乘车服务(如Uber和Lyft)转交关于用户在哪里接机和下车的数据。该城市计划分析数据,以确保驱动程序遵守规则,要求他们连续工作不超过10个小时,但Uber鉴于涉及客户的隐私问题,拒绝提供。 关于大数据和隐...
- 下一篇
实现Spark部署 依赖供应商还是"自力更生"?
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件? Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分。这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能 例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据。该版本由Apache软件基金会于2015年6月发布,去年9月被Spark 1.5取代,1月被1.6取代。但是要升级,Novantas将不得不通过Cloudera放弃Spark支持。 “我们不想使用不受支持的版本,”纽约公司Novantas解决方案技术部门CTO和工程总监Kaushik Deka说。这是因为应用程序是该部门***次真正使用Hadoop和Spark。坚持使用Spark 1.4不太理想。Deka说,他希望当Novanta...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装