大数据虚拟混算平台Moonbox配置指南-低调大师

大数据虚拟混算平台Moonbox配置指南

2019-07-08 638

一、环境准备

已安装Apache Spark 2.2.0(此版本仅支持Apache Spark 2.2.0, 其他Spark 版本后续会兼容)
已安装MySQL并启动,且开启远程访问
各安装节点已经配置ssh免密登录

二、下载

moonbox-0.3.0-beta下载：https://github.com/edp963/moonbox/releases/tag/0.3.0-beta

三、解压

tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz

四、修改配置文件

配置文件位于conf目录下

step 1: 修改slaves

  mv slaves.example slaves
  vim slaves

将会看到如下内容:

  localhost

请根据实际情况修改为需要部署worker节点的地址, 每行一个地址

step 2: 修改moonbox-env.sh

  mv moonbox-env.sh.example moonbox-env.sh
  chmod u+x moonbox-env.sh
  vim moonbox-env.sh

将会看到如下内容:

  export JAVA_HOME=path/to/installed/dir
  export SPARK_HOME=path/to/installed/dir
  export YARN_CONF_DIR=path/to/yarn/conf/dir
  export MOONBOX_SSH_OPTS="-p 22"
  export MOONBOX_HOME=path/to/installed/dir
  # export MOONBOX_LOCAL_HOSTNAME=localhost
  export MOONBOX_MASTER_HOST=localhost
  export MOONBOX_MASTER_PORT=2551

请根据实际情况修改

step 3: 修改moonbox-defaults.conf

  mv moonbox-defaults.conf.example moonbox-defaults.conf
  vim moonbox-defaults.conf

将会看到以下内容,其中:

catalog

配置元数据存储位置, 必须修改, 请根据实际情况修改

rest

配置rest服务, 按需修改

tcp

配置tcp(jdbc)服务, 按需修改

local

配置Spark Local模式作业, 值为数组, 有多少个元素表示每个Worker节点启动多少个Spark Local模式作业。如不需要可删除。

cluster

配置Spark yarn模式作业, 值为数组, 有多少个元素表示每个Worker节点启动多少个Spark Yarn模式作业。如不需要可删除。

  moonbox {
  deploy {
      catalog {
          implementation = "mysql"
          url = "jdbc:mysql://host:3306/moonbox?createDatabaseIfNotExist=true"
          user = "root"
          password = "123456"
          driver = "com.mysql.jdbc.Driver"
      }
      rest {
          enable = true
          port = 9099
          request.timeout = "600s"
          idle.timeout= "600s"
      }
      tcp {
          enable = true
          port = 10010
      }
  }
  mixcal {
      pushdown.enable = true
      column.permission.enable = true
      spark.sql.cbo.enabled = true
      spark.sql.constraintPropagation.enabled = false

      local = [{}]
      cluster = [{
        spark.hadoop.yarn.resourcemanager.hostname = "master"
        spark.hadoop.yarn.resourcemanager.address = "master:8032"
        spark.yarn.stagingDir = "hdfs://master:8020/tmp"
        spark.yarn.access.namenodes = "hdfs://master:8020"
        spark.loglevel = "ERROR"
        spark.cores.max = 2
        spark.yarn.am.memory = "512m"
        spark.yarn.am.cores = 1
        spark.executor.instances = 2
        spark.executor.cores = 1
        spark.executor.memory = "2g"
      }]
  }
  }

optional: 如果HDFS 配置了高可用(HA)、或者HDFS 配置了kerberos、或者YARN 配置了高可用(HA)、或者YARN 配置了kerberos

将cluster元素中相关部分改为以下配置, 请根据实际情况修改。具体值可查阅hdfs配置文件和yarn配置文件。

  #### HDFS HA ####
  spark.hadoop.fs.defaultFS="hdfs://service_name"
  spark.hadoop.dfs.nameservices="service_name"
 spark.hadoop.dfs.ha.namenodes.service_name="xxx1,xxx2"
  spark.hadoop.dfs.namenode.rpc-address.abdt.xxx1="xxx1_host:8020"
  spark.hadoop.dfs.namenode.rpc-address.abdt.xxx2="xxx2_host:8020"
  spark.hadoop.dfs.client.failover.proxy.provider.abdt="org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
  spark.yarn.stagingDir = "hdfs://service_name/tmp"

  #### HDFS kerberos ####
  dfs.namenode.kerberos.principal = ""
  dfs.namenode.kerberos.keytab = ""

  #### YARN HA ####
  spark.hadoop.yarn.resourcemanager.ha.enabled=true
  spark.hadoop.yarn.resourcemanager.ha.rm-ids="yyy1,yyy2"
 spark.hadoop.yarn.resourcemanager.hostname.rm1="yyy1_host"
  spark.hadoop.yarn.resourcemanager.hostname.rm2="yyy2_ho
st"

  #### YARN kerberos ####
  spark.yarn.principal = ""
  spark.yarn.keytab = ""

五、分发安装包

将MySQL Jdbc驱动包放置到libs和runtime目录下, 然后将整个moonbox安装目录拷贝到所有安装节点, 确保位置与主节点位置一致。

六、启动集群

在master节点执行

   sbin/start-all.sh

七、停止集群

在master节点执行

   sbin/stop-all.sh

八、检查集群是否成功启动

在master节点执行如下命令, 将会看到 MoonboxMaster 进程

   jps | grep Moonbox

在worker节点执行如下命令, 将会看到 MoonboxWorker 进程

   jps | grep Moonbox

在worker节点执行如下命令, 将会看到与配置文件对应个数的 SparkSubmit 进程

   jps -m | grep Spark

使用moonbox-cluster命令查看集群信息

   bin/moonbox-cluster workers
   bin/moonbox-cluster apps

如果检查通过, 则集群启动成功, 即可参阅examples部分开始体验啦。如果检查失败, 可通过查看master节点或者worker节点上logs目录下的日志进行问题排查。

开源地址：https://github.com/edp963/moonbox

来源：宜信技术学院

微信关注我们

原文链接：https://blog.51cto.com/14159827/2418305

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

记一次ceph心跳机制异常的案例

现象：部署使用ceph集群的时候遇到一个情况，在大规模集群的时候，有节点网络或者osd异常时，mon迟迟不把该异常的osd标down，一直等待900s后mon发现该节点的osd一直没有更新pgmap才把异常的osd标down，并更新osdmap扩散出去。但这个900s内，客户端IO还是会一直往异常的osd上去下发，导致io超时，并进一步影响上次的业务。原因分析：我们在mon的日志里面也看到了和异常osd建立心跳的其他osd向mon报告该osd的异常，但mon确实在短时间内没有这些osd标down。查看了一些相关网络和书籍的资料后，才发现了问题。首先我们关注osd配置中几个相关的配置项：（1）osd_heartbeat_min_peers:10（2）mon_osd_min_down_reporters:2（3）mon_osd_min_down_reporters_ratio:0.5以上参数的之都可以在ceph集群节点上执行ceph daemon osd.x config show查看（x是你的集群osd的id）。问题出现的原因是什么呢？问题现场的集群部署时每个osd会随机选取10个pe...

2019-07-06

674

场景一昨天凌晨2点做过一次完全备份，白天正常使用，该下班的时候，好巧啊！硬盘坏了。不过幸运的是做过备份并且二进制日志和数据库分开存放 1、建立数据库并开启二进制日志建立用于存放二进制日志的文件夹，修改文件夹属组属主使mysql用户可以读二点钟做完全备份，备份完看下是否备份成功 mysqldump-A-F--single-transaction--master-data=2>/backup/fullbak`date+%F`.sql less /backup/fullbak2019-07-11.sql #--master-data选项在备份时自动记录bin-log的位置模拟2点到18点的数据修改 2、存放数据库的硬盘损坏，所有数据库丢失 3、还原故障恢复中可以让用户暂停访问数据库 vi /etc/my.cnf #添加一行 systemctl restart mariadb 查看当前二进制日志的位置从二进制日志中获取2点到18点数据 [root@swh~]mysqlbinlog--start-position=245/data/logbin/mysql-bin.00000...

2019-07-11

625

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。