基于Hadoop生态系统的一种高性能数据存储格式CarbonData（性能篇）-低调大师

基于Hadoop生态系统的一种高性能数据存储格式CarbonData（性能篇）

2018-07-08 666

一、评测环境

1）网络拓扑图

2）配置参数

Ø 服务器配置

二、性能对比
目前主流hadoop的文件存储格式有行存储的CSV格式，列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1）测试数据

创建沈阳社保的数据仓库，导入、集成1年的测试数据，如下表：

生成CarbonData格式文件，如下表：

2）过滤查询场景测试

Parquet和CarbonData在过滤查询场景下的性能对比

3）聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4）总结分析

在过滤查询中，CarbonData的查询效率比parquet效率好，主要体现在列数据的索引查询，极大地提高了精确查询的性能。在聚合查询中，CarbonData通过使用全局字典编码来加快计算速度，这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式，通过索引有效过滤文件数据块减少磁盘的IO，提高查询性能。

三、小结
CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的场景下非常适合使用；社区比较活跃，响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成，增加了支持标准的Hive分区，支持流数据准实时入库等新特性，相信会有越来越多的项目会使用到。

原文发布时间为：2018-07-06
本文作者：东软
本文来自云栖社区合作伙伴“ Linux宝库”，了解相关信息可以关注“ Linux宝库”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/608669

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Flume+Kafka+Storm+Redis构建大数据实时处理系统

一、大数据处理的常用方法之前在《采集→清洗→处理：基于MapReduce的离线数据分析》中已经有提及到，这里依然给出下面的图示：前面给出的那篇文章是基于MapReduce的离线数据分析案例，其通过对网站产生的用户访问日志进行处理并分析出该网站在某天的PV、UV等数据。对应上面的图示，其走的就是离线处理的数据处理方式，而这里即将要介绍的是另外一条路线的数据处理方式，即基于Storm的在线处理。在下面给出的完整案例中，我们将会完成下面的几项工作：如何一步步构建我们的实时处理系统（Flume+Kafka+Storm+Redis）实时处理网站的用户访问日志，并统计出该网站的PV、UV将实时分析出的PV、UV动态地展示在我们的前面页面上如果你对上面提及的大数据组件已经有所认识，或者对如何构建大数据实时处理系统感兴趣，那么就可以尽情阅读下面的内容了。需要注意的是，核心在于如何构建实时处理系统，而这里给出的案例是实时统计某个网站的PV、UV，在实际中，基于每个人的工作环境不同，业务不同，因此业务系统的复杂度也不尽相同，相对来说，这里统计PV、UV的业务是比较简单的，但也足够让我们对大数据...

2018-07-08

619

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/80981101 提示：阅读本文前最好先阅读《Spark2.1.0之内置RPC框架》和《spark2.1.0之源码分析——RPC配置TransportConf》。 TransportClientFactory是创建传输客户端（TransportClient）的工厂类。在说明《Spark2.1.0之内置RPC框架》文中的图1中的记号①时提到过TransportContext的createClientFactory方法可以创建TransportClientFactory的实例，其实现见代码清单1。代码清单1 创建客户端工厂 public TransportClientFactory createClientFactory(List<TransportClientBootstrap> bootstraps) { return new TransportClientFactory(this, bootstraps); } pub...

2018-07-09

648

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。