2018-07-02 00:00:00 云上大数据系列1:手把手教你何如在ECS上搭建Hadoop开发测试环境(CDH版) 本篇是云上大数据系列第一篇文章,主要介绍开发测试环境的搭建。在后续的文章中,我们还将会分享更多关于云上大数据系统的性能分析和调优经验,敬请期待。 大数据系统是典型的复杂分布式系统,搭建一套大数据系统不但需要大量的资源,还需要对大数据系统本省有一定的了解。云计算的普及使得大数据系统的快速部署,甚至一键部署成为可能。笔者在阿里云上尝试搭建了一套大数据系统,将部署的过程和大家分享一下。 资源环境:ecs.d1.6xlarge × 5 软件系统:CDH 5.14.2 操作系统:CentOS 7.3 以下教程基于Cloudera官方教程,结合笔者实际部署过程中遇到的问题编写而成。读者在实践的过程中可以将本文和官方教程结合来参考。官方教程点这里查看。 教程特点(做好心理准备):需要下载 cloudera-manager-daemons 包(744M),cloudera-manager-agent 包(788M),下载过程比较慢,且中途容易出错,需要多次重试。如果对上述部署方式不满意,还可以尝试官方的第三种方式(预下载安装包并手动安装):https://www.cloudera.com/docume...
2018-07-03 00:00:00 kubernetes 基本概念 kubernetes中的Node、Pod、Replication Controller、Service等都可以看作为资源对象,几乎所有的资源对象都可以通过kubectl工具执行增删改查并将其保存在etcd中持久化存储。 kubernetes通过对资源进行监控,并对比etcd库中保存的资源期望状态与当前环境中资源实际状态的差异来实现对容器群的自动控制与自动纠错。 1. Master Master和Node都属于物理主机或虚拟机. Master是集群的控制节点, 负责集群的管理和控制, 接收并执行kubernetes的控制命令. Master之上运行如下关键进程: ●Kubernetes API Server(kube-apiserver): 提供标准的Http Rest 接口,是kubernetes资源增删改查的唯一入口, 也是集群控制的入口进程; ●Kubernetes Controller Manager (kube-controller-manager): kubernetes中所有资源对象的自动化控制中心, 是资源对象的大总管; ●Kubernetes Scheduler(kub...