深度解析大快DKM大数据运维管理平台功能-低调大师

深度解析大快DKM大数据运维管理平台功能

2018-11-01 558

深度解析大快DKM大数据运维管理平台功能
之前几周的时间一直是在围绕DKhadoop的运行环境搭建写分享，有一些朋友留言索要了dkhadoop安装包，不知道有没有去下载安装一探究竟。关于DKHadoop下载安装基本已经讲清楚了，这几天有点空闲把大快DKM大数据运维管理平台的内容整理了一些，作为DKHadoop相配套的管理平台，是有必要对DKM有所了解的。
DKM 是DKHadoop管理平台。作为大数据平台端到端Apache Hadoop 的管理应用，DKM 对 DKH 的每个部件都提供了细粒度的可视化和控制。通过DKM ，运维人员是可以提高集群的性能，提升服务质量，提高合规性并降低管理成本。
DKM 设计的目的是为了使得对于企业数据中心的管理变得简单和直观。通过DKM ，可以方便地部署，并且集中式的操作完整的大数据软件栈。该应用软件会自动化安装过程，从而减少了部署集群的时间。通过DKM 可以提供一个集群范围内的节点实时运行状态视图。同时，还提供了一个中央控制台，可以用于配置集群。总结DKM 能够提供的功能主要有以下几点：
1.自动化Hadoop 安装过程，大幅缩短部署时间；
2.提供实时的集群概况，例如节点，服务的运行状况；
3.提供了集中的中央控制台对集群的配置进行更改；
4.包含全面的报告和诊断工具，帮助优化性能和利用率；
基本功能：DKM的基本功能主要可以分为四大模块：管理功能，监控功能，诊断功能和集成功能。本篇我们就先来看以下管理功能：
1、批量部署
我们都知道Hadoop 本身是一个分布式的系统，因此在安装时，需要对每一个节点进行组件的安装，并且由于是开源软件，其安装过程相对比较复杂，Hadoop 每个组件都需要做很多的配置工作，这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署Hadoop 。大大缩短了Hadoop 的安装时间，同时也简化了安装Hadoop 的过程。（DKHADOOP安装步骤请参考此前分享的文章）
自动化安装的过程如下：
1.安装环境准备，下载DKM 以及DKH 的安装文件，安装JDK，yum 等基本软件。
2.挑选一台节点，安装DKM ，用户只需要启动安装脚本即可，通常情况下几分钟就能够完成。
3.DKM 是一个web 应用，提供了基于浏览器的界面，用户可以通过浏览器可视化的进行DKH的安装部署。
4.通过DKM 界面，添加其他需要的安装的节点，选择要安装的Hadoop 组件，以及每个节点承担的角色，选择安装，DKM 会自动地将需要安装的软件分发到对应的节点，并完成安装。
5.当所有节点的软件都安装完成之后，DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点，批量化以及自动化。只需要在其中一个节点完成，其他节点都可以进行批量化的自动安装。
2、集群配置
（1）可视化参数配置界面
Hadoop 包含许多的组件，不同的组件都包含各种各样的配置，并且分布于不同的主机之上。 DKM 针对这种情况提供了界面化的参数配置功能，并且能够自动的部署到每个节点。
（2）高可靠配置
DKM 对关键的组件使用HA部署方案，避免单点失效的发生，同时DKH 对于组件的异常错误提供了自动恢复处理，最大限度的保证服务的可靠性。
（3）HDFS 高可靠
在标准配置中，NameNode 是HDFS群集中的单点故障（SPOF）。每个群集都具有一个NameNode ，如果机器或进程变为不可用，群集整体将变为不可用，直到NameNode 在新主机上重新启动或上线。Secondary NameNode 不提供故障转移功能。为了让“备用” NameNode 的状态与“活动”NameNode 在此实施中保持同步，两个节点均与一组名为JournalNode 的独立后台程序进行通信。由“活动”NameNode 执行任何Namespace 修改时，它会持续记录其中大部分JournalNode 的修改记录。 “备用”NameNode 能够从JournalNode 读取编辑操作，并不断监视它们以了解编辑日志发生的更改。当备用节点发现编辑操作时，它会将这些编辑应用于自己的Namespace 。在发生故障转移时，备用节点将确保首先从JournalNode 读取所有的编辑操作，然后才会将自己升级为“活动状态”。这确保了再发生故障转移之前完全同步Namespace 状态。
为了提供快速故障转移，备用NameNode 还需要拥有有关群集中的块位置的最新信息。为实现这一目的，DataNode 配置了这两个NameNode的位置，它们会将这块位置信息和检测信号发送给这两个NameNode。
一次只能有其中一个NameNode 处于活动状态，这一点对于HA群集的正常运行来说至关重要。否则，Namespace 状态会在两者之间快速出现分歧，从而导致数据丢失风险或其他不正确的结果。为了确保此属性并防止所谓的“大脑分裂状况”，JournalNode 一次只允许一个NameNode 成为写入程序。在故障转移过程中，要进入“活动”状态的NameNode 将接管JournalNode的写入角色，这会有效地阻止其它NameNode继续保持“活动”状态，使得新的“活动”NameNode可以安全地继续执行故障转移。
DKH 默认开启了HA . 用户不用担心此问题。
（4）YARN 高可靠
YARN ResourceManager(RM) 负责跟踪群集中的资源并安排应用程序（例如，MapReduce作业）。RM 高可用性（HA）功能以活动/待机 RM 对形式添加冗余，以删除此单点故障。此外，在从待机RM 到活动RM 进行故障转移时，应用程序可以从其上次检查点状态恢复；例如，在MapReduce 作业中完成的map 任务不在后续的尝试中重新运行。这样可以在不对运行中的应用程序产生任何重要性能影响的情况下，处理以下事件：
计划外事件，如计算机崩溃。
计划内维护事件，如在运行ResourceManager的计算机上进行的软件或硬件升级。
RM HA 要求Zookeeper 和HDFS 服务处于运行状态。RM HA 通过活动-待机RM 对的方式实施。启动时，每个RM 处于待机状态；启动过程，但未加载状态。转换到活动状态时，RM会从指定的状态存储加载内部状态，并启动所有内部服务。管理员（通过CLI）或通过集成的故障转移控制器（启用自动故障转移时）可促进转换为活动状态。
DKH 默认开启了Resource Manager HA 。用户不需要担心。
3、权限管理
对系统管理员，数据库管理员及其他管理员必须授予不同级别的管理权限。

微信关注我们

原文链接：https://yq.aliyun.com/articles/663212

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark读写OSS并使用OSS Select来加速查询

Spark读写OSS 基于这篇文章搭建的CDH6以及配置，我们来使Spark能够读写OSS(其他版本的Spark都是类似的做法，不再赘述)。由于默认Spark并没有将OSS的支持包放到它的CLASSPATH里面，所以我们需要执行如下命令下面的步骤需要在所有的CDH节点执行进入到$CDH_HOME/lib/spark目录, 执行如下命令 [root@cdh-master spark]# cd jars/ [root@cdh-master jars]# ln -s ../../../jars/hadoop-aliyun-3.0.0-cdh6.0.1.jar hadoop-aliyun.jar [root@cdh-master jars]# ln -s ../../../jars/aliyun-sdk-oss-2.8.3.jar aliyu

2018-11-01

810

[TOC] 引言今天针对线上生产环境下单机 flume 拉取kafka数据并存储数据入Hdfs 出现大批量数据延迟. 在网上官网各种搜索数据，并结合官网数据，现进行以下总结 1. 线上单机存在问题简述当前flume拉取kafa数据量并不大，根据flume客户端日志，每半分钟hdfs文件写入一次数据生成文件发现问题: **拉取kafka数据过慢** 2. 解决思路加大kafka拉取数据量加大flume中channel，source，sink 各通道的单条数据量将flume拉取数据单机版本改成多数据拉取，通过flume-avore-sink-> flume-avore-source 进行数据多数据采取并合并 3 加大kafka拉取数据量 3.1 kafka-source简述 flume 输入单线程拉取数据并将数据发送内置channel并通过sink组件进行数据转发和处理，故对于kafka集群多副本方式拉取数据的时候，应适当考虑多个flume节点拉取kafka多副本数据，以避免flume节点在多个kafka集群副本中轮询。加大flume拉取kafka数据的速率。 flu...

2018-11-02

707

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。