上万规模数据湖如何在实验室测试
摘要:上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试,也成为研发团队需要考虑的问题。
本文分享自华为云社区《如何在实验室进行MRS大集群规模测试》,作者: 老人与海 。
随着时代发展,数据变得更加开放、共享,客户的业务也面临着多元化处理,原有的集群亟待扩容,另外,推到原有小规模集群的烟囱建设,打造一体化数据湖的诉求也越来越迫切。在这一背景下,原本上千规模的集群已经远远无法满足客户的业务诉求,于是,迫切需要建设上万规模的数据湖。
而上万规模的数据湖如何在进行实验室进行功能、性能、可靠性等方面的测试,也成为我们研发团队需要考虑的问题。
通常情况下,我们的软件是直接部署在物理设备上进行测试的,3万节点规模大集群就需要3万台物理设备,这显然无法在实验室条件下得到满足,需要借助虚拟化的技术。
结合我们大数据产品的特点,其节点类型分为管理节点、控制节点、数据节点;在实际的部署使用过程中,管理节点和控制节点,往往会成为大集群规模下的瓶颈问题,应作为首先测试观察项。那如何有效的利用有限的实验室资源,进行有效的测试呢? 我们在Docker容器与虚拟机中进行对比发现,Docker容器采用共享OS的方式,占用资源比虚拟机少,而且隔离性也能满足我们的诉求,因此,我们采用如下方式进行实验环境搭建。
我们使用Docker Swarm进行Docker容器管理。因为相比Kubernetes,Docker Swarm更轻量,方便快速安装卸载,另外,可以通过级联的方式搭建超大规模集群。
下面看看其组网:
在这种测试方案下,一台64U256G的物理机,就可以虚拟出60个1U4G的数据节点,两百台机器就可以进行上万规模节点的测试。
在实施过程中,我们也踩了不少坑,比如:
- 如何解决小资源的Docker数据节点,快速部署安装问题。
解决措施:直接跳过安装过程,在Docker镜像中内置启动脚本,拉起镜像过程中,直接启动数据节点。这样就避免了管理节点下发软件包,软件包在小资源环境中的安装部署缓慢的问题。
- 在上述场景中,如何确保大规模集群下的扩容、缩容功能正常?
解决措施:实际测试扩容、缩容时,采用物理节点进行测试,避免小资源环境中扩容、缩容缓慢的问题。
- 如何解决Docker数据节点的IP地址冲突的问题?
解决措施:利用Docker Swarm进行组网设计,给每一台物理节点划分网络范围,使得不同节点上启动的Docker数据节点绝对不会重复。
- 避免在大二层组网下的广播风暴问题。
为了方便组网和测试,我们使用了Mac-VLan的组网方式,在这种方式下,存在广播风暴的问题,我们采用ARP静态缓存规避了此问题。
- 如何解决Docker数据节点的共享目录问题。
解决措施:Docker数据节点各自规划不同目录,在镜像启动过程中,在磁盘上划分以Docker名称为变量的目录,有效解决目录冲突问题。
以上是我们在环境搭建部署过程中遇到的一些问题,下期我们再看看产品软件层面有哪些改进项吧。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
计算走向商业化的趋势加强,数据存储成为必争之地
本文转自雷锋网,如需转载请至雷锋网官网申请授权。 高性能计算被誉为「国之重器」,近年来在各行各业中的「奠基」角色愈加突出,对生物、机械、材料、气象、海洋、物理、人工智能等不同领域产生了重要的影响。 从CPU的单核到多核,从1978年的x86体系CPU诞生到GPU加速卡、Arm芯片,从HPC云到HPC与大数据、AI的渐趋融合,从国家级重大科研到赋能业务链一环,高性能计算领域一直在不断地变化与发展。 「计算」距离我们的生活也越来越近。 在10月21日至23日于珠海举办的CCF HPC China 2021大会上,我们窥见了高性能计算领域的一些新趋势: 首先,除了国家超算中心,国内超算市场上涌现出越来越多由地方政府或企业主要的超算/智算中心。HPC 2021 大会上出现了诸如北京超级云计算中心、内蒙古高性能计算公共服务平台(青城之光)般优秀的超算中心。 其次,随着可产生数据的设备越来越多,存储设备日益成为高性能计算领域的聚焦点,也成为各大厂商的必争之地。同时,面向数据密集型应用的超算技术开始崭露头角,比如,由CCF高专委发起、陈国良院士作序的《数据密集型超算技术白皮书》,便引起了超算领域的广...
- 下一篇
万字解读鸿蒙轻内核物理内存模块
摘要:本文首先了解了物理内存管理的结构体,接着阅读了物理内存如何初始化,然后分析了物理内存的申请、释放和查询等操作接口的源代码。 本文分享自华为云社区《鸿蒙轻内核A核源码分析系列三 物理内存》,作者: zhushy。 物理内存(Physical memory)是指通过物理内存条而获得的内存空间,相对应的概念是虚拟内存(Virtual memory)。虚拟内存使得应用进程认为它拥有一个连续完整的内存地址空间,而通常是通过虚拟内存和物理内存的映射对应着多个物理内存页。本文我们先来熟悉下OpenHarmony鸿蒙轻内核提供的物理内存(Physical memory)管理模块。 本文中所涉及的源码,以OpenHarmony LiteOS-A内核为例,均可以在开源站点https://gitee.com/openharmony/kernel_liteos_a获取。如果涉及开发板,则默认以hispark_taurus为例。 我们首先了解了物理内存管理的结构体,接着阅读了物理内存如何初始化,然后分析了物理内存的申请、释放和查询等操作接口的源代码。 1、物理内存结构体介绍 1.1、物理内存页LosVmP...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Hadoop3单机部署,实现最简伪集群
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- MySQL8.0.19开启GTID主从同步CentOS8
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7,CentOS8安装Elasticsearch6.8.6