大数据平台测试

2019-08-05 1144

一.大数据平台测试简述

大数据平台测试包括2部分：基础能力测试和性能测试

Ⅰ).基础能力测试

大数据平台的基本功能和数据的导入导出对SQL任务、NoSQL任务、机器学习、批处理任务的支持
大数据平台是否能够通过界面的形式方便用户进行非运行维护，主要包括集群的安装、监控、配置、操作等
大数据平台是否能够提供基本的安全方案

a).是否具备认证功能以防止恶意访问和攻击
b).是否能够进行细粒度的权限管理
c).是否能够提供审计和数据加密功能

大数据平台是否具备高可用的机制，防止机器的失效带来的任务失败以及数据丢失
大数据平台是否能够支持机器快速平滑地扩展和缩容时带来线性的计算能力
大数据平台是否能够支持多个调用接口以及对SQL语法的支持情况
大数据平台是否能够根据队列、用户的权重来细粒度地分配计算资源

Ⅱ).性能测试

基准测试:数据生成、负载选择和明确测试指标等内容
性能测试：基准测试之上的扩展

二.大数据平台测试流程

Ⅰ).数据生成

BDGS: 能够快速生成保持真实数据特性的文本、表和图数据的数据生成工具

BDGS构造方法

a).数据筛选：选取代表性的真实数据集和相应的建模方法或工具
b).原始数据处理：对真实数据采样并建模，提取数据特性
c).数据生成：通过参数控制数据规模和并行度
d).格式转化：根据负载的输入需求转换生成数据的格式

Ⅱ).负载选择

负载选择策略: 负载需覆盖大数据处理平台的主要组件即分布式计算框架、分布式文件系统和分布式存储的能力

Ⅲ).测试指标

主要从性能、能耗、性价比和可用性4个维度来测试对比平台性能

三.大数据平台测试工具

Ⅰ).平台单组件测试

测试应用单一、效率高、成本低，但无法全面衡量大数据平台性能

Ⅱ).综合平台测试

覆盖面广，可以较全面测试衡量大数据平台不同类型任务的性能，通用性好

测试工具BigDataBench:

a).概念：是一个跨系统、体系结构、数据管理３个领域的大数据基准测试开源程序集
b).应用领域：搜索引擎、电子商务、社交网络、多媒体、生物信息
c).负载类型：离线分析、交互式分析、在线服务、Nosql
d).数据类型：结构化、半结构化、非结构化

测试工具Hibench:

a).概念：是一个大数据基准测试套件，可帮助评估大数据框架的速度，吞吐量和系统资源利用率
b).测试范围：HadoopBench、SparkBench、StormBench、FlinkBench、GearpumpBench、机器学习、网页搜索
c).负载类型：实时场景、离线场景
d).数据类型：结构化、半结构化
e).功能模块：对于hive：（aggregation，scan，join）、排序（sort，TeraSort）、大数据基本算法（wordcount，pagerank，nutchindex）、机器学习算法（kmeans，bayes）、集群调度（sleep）、吞吐（dfsio）、5.0版本的流测试

测试工具TPCx-HS Kit

a).概念：第一个标准化的大数据基准测试，旨在对Hadoop集群进行压力测试
b).囊括模块：HSGen数据生成器、HSDataCheck检查数据集和副本的符合性、HSSort数据排序、HSValidatate排序后的数据校验
c).测试指标：性能、价格性能和可用性
d).负载类型：实时场景、离线场景

测试工具BSMA

a).概念：基于Yahoo的YCSB的大数据性能测试工具
b).测试场景：社交网络查询、热点查询、时间线查询
c).负载类型：离线分析、Nosql
d).测试指标：吞吐量、延时、可伸缩性

Ⅲ).应用领域端到端测试

可以与企业场景的实际业务场景结合，覆盖企业大数据业务的全流程模拟测试

测试工具BigBench

a).概念：于2016年2月被TPC委员会接受以后被命名为TPCx-BB，在此之前叫BigBench；TPCx-BB性能评估标准有两个，一是根据软硬件性能评估，二是根据软硬件性价比评估
b).测试领域：零售商
c).负载类型：离线分析
d).数据类型：结构化、半结构化、非结构化

四.大数据平台测试用例

Ⅰ).平台基准测试用例

主要是从性能的角度衡量大数据平台，包括数据生成、负载选择和明确测试指标等内容

Ⅱ).平台性能测试用例

在基准测试的基础上扩展测试内容，增加SQL任务测试比重

Ⅲ).平台基础能力测试用例

微信关注我们

原文链接：https://yq.aliyun.com/articles/712913

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MaxCompute问答整理之7月

本文是基于本人对MaxCompute产品的学习进度，再结合开发者社区里面的一些问题，进而整理成文。希望对大家有所帮助。问题一、DataWorks V2.0简单模式和标准模式的区别？公司数仓的数据上云后，在使用MaxCompute计算引擎时，需要一个稳定、可靠的调度系统，将自身数据生产任务（代码）按照所需依赖关系、运行时间来调度运行，那么DataWorks就派上了用场。DataWorks提供简单模式和标准模式两种工作空间模式。简单模式指一个DataWorks工作空间对应一个MaxCompute项目，无法设置开发环境和生产环境，只能进行简单的数据开发。标准模式指一个DataWorks工作空间对应两个MaxCompute项目，可以设置开发和生产环境，提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方

2019-08-05

694

一.说明在大数据平台的业务场景中，处理实时kafka数据流数据，以成为必要的能力；此篇将尝试通过Apache NiFi来接入Kafka数据然后处理后存储之HBase 二.开拔 Ⅰ).配置ConsumeKafka_0_10 测试使用了kafka0.10版本，所以NiFi中也选择对于版本 a).选择ConsumeKafka_0_10 在Processor中搜索ConsumeKafka_0_10 b).配置ConsumeKafka_0_10 1.Kafka Brokers: hostname1:9092,hostname2:9092:hostname3:90922.Topic Name(s): entry_index_nifi3.Group ID: entry_index_nifi Ⅱ).配置PutHBaseJSON a).选择PutHBaseJSON 在Processor中搜索PutHBaseJSON b).配置PutHBaseJSON 1.HBase Client Service：选择匹配版本的HBaseClient2.Table Name：配置入库HBase表名3.Row Ide...

2019-08-06

1004

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。