大数据Hadoop入门需要填的坑-低调大师

大数据Hadoop入门需要填的坑

2018-09-03 659

1、Hadoop生态概况

Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点：

高可靠性：提供按位处理的存储和计算能力值得用户信赖。

高扩展性：可以轻松地从小量集群扩展到数以千计的节点中。

高效性：提供并发的分布式计算框架，处理速度非常快。

高容错性：即使在少量节点宕机的情况下，也能自动完成任务。

Hadoop的核心是YARN,HDFS,Mapreduce。

2、HDFS

源自谷歌的GFS论文，发表于2013年10月，HDFS是GFS的克隆版，HDFS是Hadoop体系中数据存储管理的基础，它是一个高度容错的系统，能检测和应对硬件故障。
HDFS简化了文件一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序，它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群不同物理机器。

3、Mapreduce

源自于谷歌的MapReduce论文，"Hadoop Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。"Hadoop将MapReduce高度抽象为两个阶段：Map阶段和Reduce阶段，每个阶段都以Key/Value对作为过程的输入和输出，并可以由程序员自己选择他们的类型。

4、HBASE（分布式列存数据库）

源自谷歌的Bigtable论文，是一个建立在HDFS之上，面向列的针对结构化的数据可伸缩，高可靠，高性能分布式和面向列的动态模式数据库。HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

5、ZooKeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper为其提供：文件系统与通知机制。

6、HIVE

Hive是基于Hadoop的一个数据仓库，可以将结构化的数据文件映射为一张表，并提供类sql查询功能，Hive底层将sql语句转化为mapreduce任务运行。相对于用java代码编写mapreduce来说，Hive的优势明显：快速开发，人员成本低，可扩展性（自由扩展集群规模），延展性（支持自定义函数）。

7、Flume

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

8、Yarn分布式资源管理器

YARN(Yet Another Resource Negotiator, a framework for job scheduling and cluster resource management)，Yarn是下一代mapreduce，主要解决原始的Hadoop扩展性较差，不支持多种计算框架而提出的，YARN的优秀点是什么，践行分布式框架设计和并行化开发时有什么启发。希望这能加深Hadoop理解和算法开发思路扩展，如TensorFlow的多核任务分配机制、分布式任务分配机制等。

9、spark

Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。

10、Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性，但是在设计实现上完全不同，此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类，发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成，每个实例(server)成为broker。无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

11、Hadoop伪分布式部署

目前而言，不收费的Hadoop版本主要有三个，都是国外厂商，分别是

1、Apache原始版本

2、CDH版本，对于国内用户而言，绝大多数选择该版本

3、HDP版本

微信关注我们

原文链接：https://yq.aliyun.com/articles/634913

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

有哪些Java源代码看了后让你收获很多？

曾经读过Erudika/para的源码，此源码托管在github,大致是2014年前后开源的云计算通用后端框架，基于spring boot体系，原生集成持久化（默认H2 DB，通过配置方式实现MongoDB、mysql等常用关系数据库的支持）、缓存（默认Caffeine、支持配置参数的Hazelcast、redis等）和搜索（默认Lucene，支持配置参数的Elasticsearch）三大功能，快速开发resful风格的API接口，其强大的分层思想和通用性设计能力，让我的架构思维有了很大的进步，其开源版本对于中小团队实践spring boot+spring cloud打通云计算服务具有借鉴意义，目前最新的版本为1.29.1。下面，我就简单的分享Erudika/para源码官网的介绍，解释不到位的地方希望大家批评指正，同时，这款较为优秀的开源项目也推荐给大家去学习和使用。特性：多租户技术【多重租赁技术】支持——每个应用程序都有自己的表、索引和缓存; 用Amazon的签名算法进行安全的JSON; 数据库动态性，专为可伸缩和分布式数据存储而设计全文搜索（Elasticsearch）...

2018-09-03

623

众所周知，Elasticsearch的问世使得各种结构、非结构数据得以实现实时搜索、分析的可能，越来越多的用户使用ES集群（即Elasticseach集群，下文均简称ES集群）实现数据的升值与挖掘。而用户在开发的过程中总是面临数据导入、迁移以及日常ES集群运维等难题，无法将全部精力投放在真正对ES集群的使用与数据的升值。阿里云Elasticsearch专注数据，致力于打造“一站式”数据服务体系，以促成Elasticsearch用户享受一站式数据导入、搜索、分析、可视化以及运维服务。并将通过发布ElasticHub、EYou辅助产品，帮助用户解决数据导入、迁移与ES集群运维等难题。 ElasticHub——数据与ES集群的桥梁ElasticHub是阿里云Elasticsearch计算通道，可解决多样的数据源导入、ES集群间数据迁移、

2018-09-03

736

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。