Hadoop体系结构中的服务解决介绍-低调大师

Hadoop体系结构中的服务解决介绍

2018-09-10 642

翻了一下最近一段时间写的分享，DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细，个人理解水平有限还请见谅吧！我记得在写DKHadoop运行环境部署的时候，遗漏了hadoop服务角色的内容，本篇特地补上这部分内容吧，不然总觉得不舒服。

要在集群中运行DKHadoop服务，需要指定集群中的一个或多个节点执行该服务的特定功能，角色分配是必须的，没有角色集群将无法正常工作，在分配角色前，需要了解这些角色的含义。

Hadoop服务角色：

1. zookeeper角色：ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群，Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步，推荐在 ZooKeeper集群中至少有3个节点。

2. JDK角色：JDK是 Java 语言的软件开发工具包， JDK是整个Java开发的核心，它包含了Java的运行环境，Java工具和Java基础的类库。

3. Apache-Flume角色：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接收方（可定制）的能力。

4. Apache-Hive角色：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

5. Apache-Storm角色：Storm是内存级计算，数据直接通过网络导入内存。读写内存比读写磁盘速度快n个数量级。当计算模型比较适合流式时，Storm的流式处理，省去了批处理的收集数据的时间.

6. Elasticsearch角色：Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速，安装使用方便。

7. NameNode角色：HDFS系统中的节点用于维护文件系统中所有文件的目录结构并跟踪文件数据存储于哪些数据节点。当客户端需要从HDFS 文件系统中获得文件时，它通过和NameNode通讯来知道客户端哪个数据节点上有客户端需要的文件。一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他角色。

8. DataNode角色：在HDFS中，DataNode是用来存储数据块的节点。

9. Secondary NameNode 角色：为NameNode上的数据创建周期性检查点的节点。节点将周期性地下载当前NameNode镜像和日志文件，将日志和镜像文件合并为一个新的镜像文件然后上传到NameNode。被分配了NameNode角色的机器不应再被分配Secondary NameNode 角色。

10. Standby Namenode角色：Standby模式的NameNode元数据（Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的，一但切换成Active模式，马上就可以提供NameNode服务。

11. JournalNode角色：Standby NameName和Active NameNode通过JournalNode通信，保持信息同步。

12. HBase角色：HBase是一个分布式的、面向列的开源数据库。HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

13. Kafka角色：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消费。

14. Redis角色：Redis是一个开源的使用C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。

15. Scala角色：Scala是一门多范式的编程语言，一种类似Java的编程语言，设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。

16. Sqoop角色：Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

17. Impala角色：Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

18. Crawler角色：Crawler是大快DKHadoop专有组件，爬虫系统，爬取动态静态数据。

19. Spark角色：Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

20. HUE角色：HUE是一组可与您的Hadoop jiqun 交互的网络应用程序。HUE应用能让您浏览HDFS和工作,管理Hive metastore,运行Hive，浏览HBase Sqoop出口数据,提交MapReduce程序,构建自定义的搜索引擎与Solr一起调度重复性的工作流。

微信关注我们

原文链接：https://yq.aliyun.com/articles/637966

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里云EMR异步构建云HBase二级索引

一、非HA EMR构建二级索引云HBase借助Phoenix实现二级索引功能，对于Phoenix二级索引的详细介绍可参考https://yq.aliyun.com/articles/536850?spm=a2c4e.11153940.blogrightarea544746.26.673e7308MxY7Lc当Phoenix表数据量较大时，可以选择异步构建索引方式，利用MR快速同步索引数据，同时降低HBase服务端负载。由于云HBase没有MR，需要借助外部计算引擎（自建Hadoop集群或者阿里云EMR），详细操作步骤可参考阿里云瑾谦大神的博客：https://yq.aliyun.com/articles/544746?spm=a2c4e.11153940.blogcont574090.11.28895835Lse5dN这篇文章主要

2018-09-09

790

Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop的发行版除了有Apache hadoop外cloudera，hortonworks，mapR,华为,DKhadoop等都提供了自己的商业版本。商业发行版主要是提供了更为专业的技术支持，这对于大型企业更为重要，不同发行版都有自己的一些特点，本文就各发行版做简单对比介绍。对比版选择：DKhadoop发行版、cloudera发行版、hortonworks发行版、MAPR发行版、华为hadoop发行版 lÂ 1、DKhadoop发行版：有效的集成了整个HADOOP生态系统的全部组件，并深度优化，重新编译为一个完整的更高性能的大数据通用计算平台，实现了各部件的有机协调。因此DKH相比开源的大数据平台，在计算性能上有了高达5倍（最大）的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点（主节点、管理节点、计算节点），极大的简化了集群的管理运维，增强了集群的高可用性、高可维护性、高稳定性。 lÂ 2、cloudera发行版：CDH是Cloudera的hado...

2018-09-10

595

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。