2019新手如何进入大数据领域,入门到精通:资深程序员规划让你熟知学习路线
简介
人类正在从IT时代走向DT(Data Technology)的时代。以互联网、云计算、大数据和人工智能为代表的技术革命正在渗透至各行各业,改变着我们的生活。
本文主要针对从事大数据开发的程序员们整理了整套的大数据学习相关的路线图和知识材料,希望能帮助到大家
大数据相关技术
· MapReduce
本来自于谷歌一款名为MapReduce的编程模型包,通过把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集
· HDFS
一个分布式文件系统(Hadoop Distributed File System),大数据学习扣qun74零零加【4 1三八一】简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。
· Yarn
一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处
· Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
· Hbase
HBase是一个分布式的、面向列的开源数据库,也是NoSql数据库的一种。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据的基于列模式存储的数据库。
· Kafka
一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,常作为一个中间缓冲层。
· Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力,常与Kafka结合使用。
· ElasticSearch
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
· Storm
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
· Spark
专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
· Zookeeper
一个分布式的应用程序协调服务,是HDFS和Hbase等服务的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
Hadoop生态圈相关技术
这里只罗列出了主要的一些技术,更多相关的知识在教程中会进行学习。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
必看!!大数据技术学习,深度挖掘大数据的现状分析
企业级技术 = 艰苦的工作 其实大数据有趣的是它不是直接可以炒作的东西。 能够获得广泛兴趣的产品和服务往往是那些人们可以触摸和感受到的,比如:移动应用,社交网络,可穿戴设备,虚拟现实等。 但大数据,从根本上说是“管道”。当然,大数据支持许多消费者或企业用户体验,但其核心是企业的技术:数据库,分析等:而这后面几乎没人能看到东西运行。 而且如果大家真正工作过的都知道,在企业中改造新技术并不大可能在一夜之间发生。 早年的大数据是在大型互联网公司中(特别是谷歌,雅虎,Facebook,Twitter,LinkedIn等),它们重度使用和推动大数据技术。这些公司突然面临着前所未有的数据量,没有以前的基础设施,并能招到一些最好的工程师,所以他们基本上是从零开始搭建他们所需要的技术。开源的风气迅速蔓延,大量的新技术与更广阔的世界共享。大数据学习扣裙74 零零加【41 3 八yi】随着时间推移,其中一些工程师离开了大型网络公司,开始自己的大数据初创公司。其他的“数字原生”的公司,其中包括许多独角兽,开始面临跟大型互联网公司同样需求,无论有没有基础设施,它们都是这些大数据技术的早期采用者。而早期的成功导...
- 下一篇
MaxCompute常见问题(2019.04新版)
计量计费 购买开通 MaxCompute计费常见问题 现在公司有数据统计分析的需求,已经在用RDS数据库,还应该开通什么服务? 从MaxCompute上下载数据,使用华东2的ECS云主机使用内网,收取流量费用吗? MaxCompute如何将后付费转换为预付费? MaxCompute数据存储有3.5T,把相关几张大的表格都删除后,显示的总数还是3.5T,是什么原因?会增加ODPS使用费用吗? 续费变更 如何关闭MaxCompute服务 以IO后计费的方式开通了MaxCompute,如何停用不自动续费功能? 没有进行MaxCompute的计算为什么有扣费操作? MaxCompute table有大小的阈值设置吗? 项目管理 项目操作 血缘信息上下游表的相关信息,多久会更新?为什么会有重名? 使用DataWorks提交任务时,${bdp.system.bizdate
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS8编译安装MySQL8.0.19