大数据入门干货
首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。
扩展讲大数据的4个基本特征,我们将进行下面额思考:
1.数据来源广?
广泛的数据来源从何而来,通过何种方式进行采集与汇总?相对应的我们出现Sqoop,
Cammel,Datax等工具。
2.数据采集之后,该如何存储?
采集之后,为了方便存储,我们对应的出现了GFS,HDFS,TFS等分布式文件存储系统。
并且,介于数据的增长速度非常之快,这也就要求我们,数据存储必须可以进行水平扩展。
3.数据存储之后,该如何通过运算快速转化成一致的格式,又该如何快速运算出自己想要的结果?
对此,MapReduce的分布式运算框架提出了解决方案。但是由于MapReduce需要java的编程代码较多,由此,又出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;再有,因普通的MapReduce只能一批一批地批量处理数据,时间消耗过多,最终目的又要求我们输入的一条数据就能得到结果,于是又出现了Storm/JStorm这样的低时延的流式计算框架;但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。
4.此外,为了提高工作效率,加快运速度,出现了一些辅助工具:
Ozzie,azkaban:定时任务调度的工具。
Hue,Zepplin:图形化任务执行管理,结果查看工具。
Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
Python语言:编写一些脚本时会用到。
Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
怎样设置“预付费资源到期提醒”消息接收人?
经常有客户反馈自己的MaxCompute预付费资源组欠费了,Project不能访问了,但自己却没有接收到通知,因为资源组的owner是财务同学或者是运维同学,他们并不关注MaxCompute服务,因此忽略了。 其实您可以将MaxCompute大数据管理员加入到“产品欠费、停服、即将释放”的消息接收联系人中,之后需要及时关注您的短信、邮件或者站内信,就可以接收到MaxCompute的到期提醒、欠费等通知消息。 1、进入数据控制台,点击右上角小铃铛图标,在下拉菜单中选择“消息接收管理”,点击进入 2、在“基本接收管理”项目中,选择“产品欠费、停服、即将释放相关信息通知”,点击“修改”账号联系人 3、点击“新增消息接收人”,填写姓名、邮箱、手机号码等联系方式即可。 访问MaxCompute官网 https://www.aliyun.com/pro
- 下一篇
好程序员教你大数据必修三大技能 快快记录下来
大数据,人工智能技术引领科技潮流,推开大数据时代的大门!国家点赞!政策扶持,前景斐然!紧接着,学习大数据的人才便如过江之鲫,络绎不绝!整体形势,欣欣向荣!在这里,好程序员为大家送上技术干货,助大家一臂之力,学习大数据技术,一定要注重培训质量,只有如此,方可事半功倍!接下来,就为大家讲解,大数据必修的三大课程! 一、Hadoop生态体系 Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop “栈”由多个组件组成。包括: 1.Hadoop分布式文件系统(HDFS):所有Hadoop集群的默认存储层 2.名称节点:在Hadoop集群中,提供数据存储位置以及节点失效信息的节点。 3. 二级节点:名称节点的备份,它会定期复制和存储名称节点的数据,以防名称节点失效。 4.作业跟踪器:Hadoop集群中发起和协调MapReduce作业或数据处理任务的节点。 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果