Impala、Hive性能简单对比测试-低调大师

Impala、Hive性能简单对比测试

2016-04-04 915

Impala、Hive性能简单对比测试

一、测试环境

操作系统：CentOS6.4

大数据平台：CDH5、Hive、Impala、MapReduce

集群规模：3台服务器，每台64G内存（原谅小气的公司给了如此糟糕的开发环境）

Impala共三几个后台Impalad进程，两个正常，一个失效，如图：

一、HBase加载数据

首先，在HBase中创建一个表，表中列簇为f，有两列dn、fn；

其次，利用Java API在HBase中产生约1000万条测试数据，代码如下：

	@SuppressWarnings("static-access")
	@Test
	public void testPutBasic() {

		for (int m = 0; m < 20; m++) {
			new Thread() {
				@Override
				public void run() {
					int j = 0;
					for (int i = 0; i < 1000000; i++) {
						Random random = new Random();

						Hashtable<String, String> pColumns = new Hashtable<String, String>();
						pColumns.put("dn", "dn" + random.nextInt(100));
						pColumns.put("fn", "fn" + random.nextInt(100));

						try {
							HBaseUtil.postBasic("impala_hbase_test_table",
									this.getName() + "a" + j++, "f", pColumns,
									null);
						} catch (Exception e2) {
							// TODO Auto-generated catch block
							e2.printStackTrace();
						}
					}
				}
			}.start();
		}

		try {
			Thread.currentThread().sleep(1000000000l);
		} catch (InterruptedException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

3、查看HBase数据量，共10643213条，如图：

二、Impala、Hive加载HBase数据

1、Hive使用DataBase hive_hbase，如图：

2、Hive加载HBase数据，执行语句如下：

CREATE EXTERNAL TABLE impala_hbase(
rk string,
dn string,
fn string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.hbase.HBaseSerDe'
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key, f:dn, f:fn")
TBLPROPERTIES("hbase.table.name" = "impala_hbase_test_table");

执行截图图如下：

验证表是否存在，如图所示：

之前

之后

3、Impala同步Hive元数据，并使用相同DataBase，验证表是否存在，如图：

Impala同步Hive元数据

Impala使用DataBase hive_hbase

元数据同步前

元数据同步后

三、性能对比测试

1、count

执行语句：select count(1) from impala_hbase;

Impala耗时：28.58s

Hive耗时：255.412s

Impala执行截图如下：

Hive执行截图如下：

2、group by

执行语句：select dn,count(1) from impala_hbase group by dn;

Impala耗时：60.13s

Hive耗时：257.453s

Impala执行截图如下：

Hive执行截图如下：

四、注意事项

Impala有个内存阈值的设置，如果该值设置太小，Impala执行大数据量查询时，会受限于内存阈值而无法正确执行，如下：

这个内存阈值在CDH5中Impala安装时默认为256M，将其修改为2G，如图：

很不幸，重启Impala后再次执行group by语句，依然不行，如图所示：

干脆按照参数说明直接改为-1B，即不增加内存阈值，爱怎怎，如图：

结果执行group by语句成功！

结论：

在以上测试环境中，Impala性能大大优于Hive！

微信关注我们

原文链接：https://yq.aliyun.com/articles/245653

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Impala之加载HBase数据

Impala如何加载HBase数据？本文将为大家进行详细介绍Impala加载HBase数据的步骤。第一步：HBase创建表（或选择已有表） HBase shell命令行执行命令： create 'impala_hbase_test_table', {NAME => 'f', VERSION => 3, COMPRESSION => 'SNAPPY'} 如图所示：第二步：HBase表存入数据利用Java API往HBase写入数据，示例代码如下： int j = 0; for (int i = 0; i < 10000; i++) { Random random = new Random(); Hashtable<String, String> pColumns = new Hashtable<String, String>(); pColumns.put("dn", "dn" + random.nextInt(100)); pColumns.put("fn", "fn" + random.nex...

2016-04-05

675

1.机器环境: 前几天,要在阿里环境装两套CDH的产品环境,其中一套CDH5在安装过程就抛错" Exhausted available authentication methods " 其中的抛错的机器是运维从stage环境机器上,copy的镜像做的新的机器。 2.在哪步出错: 在安装CDH5过程中，输完hadoop用户和密码的下一步(集群安装)，web开始刷新数据源抛错: Exhausted available authentication methods #由于当时没有截图,事后在某贴上找的图片 3.解决方案: a.检查hadoop用户是否配置sudo无密码权限成功？？？点击(此处)折叠或打开 [root@alish1-xxx-01 ~]# adduser hadoop [root@alish1-xxx-01 ~]# passwd hadoop Changing password for user hadoop. New password: BAD PASSWORD: it is too short BAD PASSWORD: is too simple Retype new p...

2016-04-05

996

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。