何为大数据平台
数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。
大数据,意味着数据多,如果记录数达到了上亿,一般数据库可能也就拖不动了。如果存储文件数达到几个T,甚至更多。那么NFS硬件又如何布局呢?
有时可能一台机器上的硬盘插满都不够。 有人说,不是可以用群集么,群集可以解决计算时多台,但解决不了存储容量的扩容。
- 能否有这样的一个平台:
-
这样的架构中,数据节点可以随意增加,容量不够,添加个节点就行,总容量等于数据节点之和。然后我们读取数据时,只与总管节点打交道,至于有几个数据节点,对程序来说是透明的。这样的平台,就可以完全达到我们随意扩容的功能。同时针对备份,该平台能自己能解决,一份数据可以直接复制到两个数据节点上,完成备份功能。数据节点所用的服务器,还要以不用再单独配存储设备,直接利服务器自带存储即可。
有这样的平台哇?——有,有个牛人写了这样的软件,名叫Hadoop。
目前业内流行很多大数据平台,如华为、华三、星环、腾讯。
其实本质上都是基于Hadoop来的,稍加包装和改造。 就这点功能?——No。
它还有个更强大的用处,就叫计算。
有了大数据,毫无疑问需要便用,否则那就数据垃圾堆、数据坟墓。如何用呢?比如我想写统计程序,统计一下所有文档中,哪个词语使用的频次最高。
试想一下,传统怎么做? 我们会写一个程序放在业务应用服务器上,然后程序从“总管节点”读数取文档数据,然后读到后进行统计累加。
问题来了,我的数据是海量的,有几十个T,请问你这个程序执行完,从“总管节点”到“业务应用”这台电脑上的网络中,要走到多少流量?应该就是这几十个T吧,是不是有点恐怖?
也就是你把所有的数据,从存储全部移动到了应用端,只不过没有落地而已。于是大牛们就想,这些存储结点上不也有CPU么,不也有计算能力么。能否利用这些CPU资源,而不要把数据进行搬移,称之为移动计算(体)。
这个在Hadoop上执行计算的架构,叫MapReduce。其中包含两个过程,Map是把计算任务下发到各计算结点上,Reduce是把各计算结点算出的结点回收回来,最终返回给用户。
MapReduce存在个缺陷,就是计算的中间结果是落地在磁盘上,也就增加了IO操作。
后来有人改造了下,把中间结果写入内存中,于是出现了Spark。好了,这就是大数据平台,提供了统一存储以及计算的统一解决方案。各类应用都最终化解为MapReduce过程在Hadoop上执行,包括各类机器学习算法。
试想个问题:Google搜索一条信息为什么这么快?是不是就是这个思路?先把收集的各网页信息,存于无数台服务器上,当你执行搜索时,其实每台服务器都在帮你执行,然后每台上处理的数据量相对小,于是就快了,再把最终结果汇给你。
其实,Hadoop就是借鉴了Google的思想,做出的开源产品。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
SpringBoot整合elasticsearch
在这一篇文章开始之前,你需要先安装一个ElasticSearch,如果你是mac或者linux可以参考https://www.jianshu.com/p/e47b451375ea,如果是windows可以自定百度一下。 下面是官方套话介绍elasticsearch: ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 我们建立一个网站或应用程序,并要添加搜索功能,但是想要完成搜索工作的创建是非常困难的。我们希望搜索解决方案要运行速度快,我们希望能有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP来索引数据,我们希望我们的搜索服务器始终可用,我们希望能够从一台开始并扩展到数百台,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。因此我们利用Elasticsearch来解决所...
- 下一篇
开源大数据周刊-第84期
资讯 [神策数据宣布获4400万美元融资](http://www.cbdio.com/BigData/2018-04/12/content_5702056.htm) 4月11日,神策数据 C 轮融资发布会在北京举行。本轮融资由华平投资领投,红杉资本中国基金、DCM资本、襄禾资本、晨兴资本、线性资本、明势资本跟投,共计4400万美元。这标志着,神策数据成为国内用户行为分析领域,首家完成 C 轮融资的大数据公司。 贵阳高新区掀起发展大数据新热潮 全力打造“中国数谷之心” 日前,记者从贵阳高新区获悉,该区将抢抓贵州坚定不移推进大数据战略行动向纵深发展的机遇,全力打造“中国数谷之心”,强化大数据发展要素集聚,加快大数据与实体经济的融合,推动大数据发展跃上新台阶。 [重庆携手阿里巴巴、蚂蚁金服 签订14个项目推进大数据智能化](http://www.
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2全家桶,快速入门学习开发网站教程
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7