CDP集群主机和角色分配
集群主机可以广义地描述为主控主机、工具主机、网关主机和工作主机。
主控主机运行Hadoop主控进程,例如HDFS NameNode和YARN Resource Manager。
实用程序主机运行不是主进程的其他集群进程,例如Cloudera Manager和Hive Metastore。
网关主机是用于在集群中启动作业的客户端访问点。所需网关主机的数量取决于工作负载的类型和大小。
工作主机主要运行DataNode和其他分布式进程,例如Impalad。
重要
Cloudera建议在生产环境中使用运行时时始终启用高可用性。
下表描述了针对不同集群大小的建议角色分配。请注意,这些配置考虑了可能不太明显的服务依赖性。例如,运行Atlas或Ranger还需要运行HBase、Kafka、Solr和ZooKeeper。有关详细信息,请参阅Cloudera Manager中的服务依赖性。
3-10个工作主机且没有启用高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机1: NameNode YARN ResourceManager JobHistory Server ZooKeeper Kudu master Spark History Server HBase master Schema Registry |
One host for all Utility and Gateway roles: Secondary NameNode Cloudera Manager Cloudera Manager Management Service Cruise Control Hive Metastore HiveServer2 Impala Catalog Server Impala StateStore Hue Oozie Gateway configuration HBase backup master Ranger Admin, Tagsync, Usersync servers Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) Streams Messaging Manager Streams Replication Manager Service ZooKeeper |
3 - 10 个工作主机: DataNode NodeManager Impalad Kudu tablet server Kafka Broker Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索) Streams Replication Manager Driver ZooKeeper (推荐一共三台服务器) |
|
3 - 20 个工作主机且启用了高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机 1: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper JobHistory Server Kudu master HBase master Schema Registry 主控主机 2: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper Kudu master HBase master Schema Registry 主控主机 3: Kudu master (Kudu requires an odd number of masters for HA.) Spark History Server JournalNode (requires dedicated disk) ZooKeeper |
工具主机 1: Cloudera Manager Cloudera Manager Management Service Cruise Control Hive Metastore Impala Catalog Server Impala StateStore Oozie Ranger Admin, Tagsync, Usersync servers Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) Streams Messaging Manager Streams Replication Manager Service 工具主机 2: Ranger Admin server Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) |
一个或者多个网关主机: Hue HiveServer2 Gateway configuration |
3 - 20 个工作主机: DataNode NodeManager Impalad Kudu tablet server Kafka Broker (推荐最少3台Broker) Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索, 推荐最少3台服务器) Streams Replication Manager Driver |
20 - 80 个工作主机且启用了高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机 1: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper Kudu master HBase master Schema Registry 主控主机 2: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper Kudu master HBase master Schema Registry 主控主机 3: ZooKeeper JournalNode JobHistory Server Spark History Server Kudu master HBase master |
工具主机 1: Cloudera Manager Cruise Control Ranger Admin server Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) Streams Messaging Manager Streams Replication Manager Service 工具主机 2: Cloudera Manager Management Service Hive Metastore Impala Catalog Server Oozie Ranger Admin, Tagsync, Usersync servers Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) |
一个或者多个网关主机: Hue HiveServer2 Gateway configuration |
20 - 80 个工作主机: DataNode NodeManager Impalad Kudu tablet server Kafka Broker (推荐最少3台Broker) Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索, 推荐最少3台服务器) Streams Replication Manager Driver |
80 - 200 个工作主机且启用了高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机 1: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper Kudu master HBase master Schema Registry 主控主机 2: NameNode JournalNode FailoverController YARN ResourceManager ZooKeeper Kudu master HBase master Schema Registry 主控主机 3: ZooKeeper JournalNode JobHistory Server Spark History Server Kudu master HBase master |
工具主机 1: Cloudera Manager Cruise Control Streams Messaging Manager Streams Replication Manager Service 工具主机 2: Hive Metastore Impala Catalog Server Impala StateStore Oozie 工具主机 3: Activity Monitor 工具主机 4: Host Monitor 工具主机 5: Ranger Admin, Tagsync, Usersync servers Atlas server Solr server 工具主机 6: Ranger Admin server Atlas server Solr server 工具主机 7: Reports Manager 工具主机 8: Service Monitor |
一个或者多个网关主机: Hue HiveServer2 Gateway configuration |
80 - 200 个工作主机: DataNode NodeManager Impalad Kudu tablet server (推荐最多100个Tablet服务器) Kafka Broker (推荐最少3台Broker) Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索, 推荐最少3台服务器) Streams Replication Manager Driver |
200 - 500 个工作主机且启用了高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机 1: NameNode JournalNode FailoverController ZooKeeper Kudu master HBase master 主控主机 2: NameNode JournalNode FailoverController ZooKeeper Kudu master HBase master 主控主机 3: YARN ResourceManager ZooKeeper JournalNode Kudu master HBase master Schema Registry 主控主机 4: YARN ResourceManager ZooKeeper JournalNode Schema Registry 主控主机 5: JobHistory Server Spark History Server ZooKeeper JournalNode We recommend no more than three masters for Kudu and HBase. |
工具主机 1: Cloudera Manager Cruise Control Streams Messaging Manager Streams Replication Manager Service 工具主机 2: Hive Metastore Impala Catalog Server Impala StateStore Oozie 工具主机 3: Activity Monitor 工具主机 4: Host Monitor 工具主机 5: Ranger Admin, Tagsync, Usersync servers Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) 工具主机 6: Ranger Admin server Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) 工具主机 7: Reports Manager 工具主机 8: Service Monitor |
一个或者多个网关主机: Hue HiveServer2 Gateway configuration |
200 - 500 个工作主机: DataNode NodeManager Impalad Kudu tablet server (推荐最多100个Tablet服务器) Kafka Broker (推荐最少3台Broker) Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索, 推荐最少3台服务器) Streams Replication Manager Driver |
500 -1000 个工作主机且启用了高可用性
主控主机 |
工具主机 |
网关主机 |
工作主机 |
|---|---|---|---|
主控主机 1: NameNode JournalNode FailoverController ZooKeeper Kudu master HBase master 主控主机 2: NameNode JournalNode FailoverController ZooKeeper Kudu master HBase master 主控主机 3: YARN ResourceManager ZooKeeper JournalNode Kudu master HBase master Schema Registry 主控主机 4: YARN ResourceManager ZooKeeper JournalNode Schema Registry 主控主机 5: JobHistory Server Spark History Server ZooKeeper JournalNode 对于Kudu和HBase,我们建议不超过三个主控。 |
工具主机 1: Cloudera Manager Cruise Control Streams Messaging Manager Streams Replication Manager Service 工具主机 2: Hive Metastore Impala Catalog Server Impala StateStore Oozie 工具主机 3: Activity Monitor 工具主机 4: Host Monitor 工具主机 5: Ranger Admin, Tagsync, Usersync servers Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) 工具主机 6: Ranger Admin server Atlas server Solr server (用于支持Atlas的CDP-INFRA-SOLR实例) 工具主机 7: Reports Manager 工具主机 8: Service Monitor |
一个或者多个网关主机: Hue HiveServer2 Gateway configuration |
500 - 1000 个工作主机: DataNode NodeManager Impalad Kudu tablet server (推荐最多100个Tablet服务器) Kafka Broker (推荐最少3台Broker) Kafka Connect HBase RegionServer Solr server (用于Cloudera搜索, 推荐最少3台服务器) Streams Replication Manager Driver |
原文链接:https://docs.cloudera.com/cdp-private-cloud-base/7.1.4/installation/topics/cdpdc-runtime-cluster-hosts-role-assignments.html
本文分享自微信公众号 - 大数据杂货铺(bigdataGrocery)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。