hdfs haadmin使用，DataNode动态上下线，NameNode状态切换管理，数据块的balance,HA下hdfs-api变化（...-低调大师

hdfs haadmin使用，DataNode动态上下线，NameNode状态切换管理，数据块的balance,HA下hdfs-api变化（...

2017-06-09 694

1.2.4集群运维测试

HA集群中两个namenode状态的管理命令

[root@mini2 hadoop-2.6.4]# bin/hdfs haadmin

Usage: DFSHAAdmin [-ns <nameserviceId>]

[-transitionToActive <serviceId> [--forceactive]]

[-transitionToStandby <serviceId>]

[-failover [--forcefence] [--forceactive] <serviceId> <serviceId>]

[-getServiceState <serviceId>]

[-checkHealth <serviceId>]

[-help <command>]

示例：切换nn2为active

bin/hdfs haadmin -transitionToActive nn2--forcemanual

1、Datanode动态上下线

Datanode动态上下线很简单，步骤如下：

a) 准备一台服务器，设置好环境

b) 部署hadoop的安装包，并同步集群配置

c) 联网上线，新datanode会自动加入集群

d) 如果是一次增加大批datanode，还应该做集群负载重均衡

(start-balancer.sh -threshold 8 ##指定磁盘利用率，详情见下节 3)

2、Namenode状态切换管理

使用的命令上hdfs haadmin

可用 hdfs haadmin –help查看所有帮助信息

可以看到，状态操作的命令示例：

查看namenode工作状态

hdfs haadmin -getServiceState nn1

将standby状态namenode切换到active

hdfs haadmin –transitionToActive nn1

将active状态namenode切换到standby

hdfs haadmin –transitionToStandby nn2

3、数据块的balance

启动balancer的命令：

start-balancer.sh -threshold 8

运行之后，会有Balancer进程出现：

上述命令设置了Threshold为8%，那么执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。Threshold的值为1到100之间，不显示的进行参数设置的话，默认是10。

1.2.5 HA下hdfs-api变化

客户端需要nameservice的配置信息，其他不变

/**

* 如果访问的是一个ha机制的集群

* 则一定要把core-site.xml和hdfs-site.xml配置文件放在客户端程序的classpath下

* 以让客户端能够理解hdfs://ns1/中 “ns1”是一个ha机制中的namenode对——nameservice

* 以及知道ns1下具体的namenode通信地址

* @author

*

*/

public class UploadFile {

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

conf.set("fs.defaultFS", "hdfs://ns1/");

FileSystem fs = FileSystem.get(new URI("hdfs://ns1/"),conf,"hadoop");

fs.copyFromLocalFile(new Path("g:/eclipse-jee-luna-SR1-linux-gtk.tar.gz"), new Path("hdfs://ns1/"));

fs.close();

}

微信关注我们

原文链接：https://yq.aliyun.com/articles/100912

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch 与 Kafka 整合剖析

1.概述目前，随着大数据的浪潮，Kafka 被越来越多的企业所认可，如今的Kafka已发展到0.10.x，其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说，既可以分流到离线存储平台（HDFS），离线计算平台（Hive仓库），也可以分流实时流水计算（Storm，Spark）等，同样也可以分流到海量数据查询（HBase），或是及时查询（ElasticSearch）。而今天笔者给大家分享的就是Kafka 分流数据到ElasticSearch。 2.内容我们知道，ElasticSearch是有其自己的套件的，简称ELK，即ElasticSearch，Logstash以及Kibana。ElasticSearch负责存储，Logstash负责收集数据来源，Kibana负责可视化数据，分工明确。想要分流Kafka中的消息数据，可以使用Logstash的插件直接消费，但是需要我们编写复杂的过滤条件，和特殊的映射处理，比如系统保留的`_uid`字段等需要我们额外的转化。今天我们使用另外一种方式来处理数据，使用Kafka的消费API和ES的存储API来处理分流数据。通过编写Kafka消费者，...

2017-06-10

479

1.1 Hive简介 1.1.1 什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.2 为什么使用Hive Ø 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive 操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习成本。功能扩展很方便。 1.1.3 Hive的特点 Ø 可扩展 Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。 Ø 延展性 Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。 Ø 容错良好的容错性，节点出现问题SQL仍可完成执行。 1.2 Hive架构 1.2.1 架构图 Jobtracker是hadoop1.x中的组件，它的功能相当于： Resourcemanager+AppMaster TaskTracker 相当于： Nodemanager+ yarnchild 1.2.2 基本组成 Ø 用户接口...

2017-06-10

559

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。