Apache CarbonData:大数据生态一种新的高性能数据格式
Apache CarbonData是一种新的高性能数据存储格式,针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“任意维度组合的过滤查询、快速扫描、详单查询等”多种应用场景,并通过多级索引、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应。CarbonData是由华为开源贡献到Apache基金会的大数据项目,致力于推动大数据开源生态技术的发展。
随着数据与日俱增,业务驱动下的数据分析灵活性要求越来越高,不同场景的数据分业务系统而构建,导致冗余严重,缺乏高效、统一的融合数仓,阻碍企业快速转型。
企业典型的诉求总结如下:
- 第一,数据统一存储:为了节约成本,企业希望一份数据支持多种使用场景;减少数据孤岛和冗余,通过数据共享产生更大价值。
- 第二,高效:数据分析要求越来越高效、实时。
- 第三,易集成:提供标准接口,新的大数据方案与企业已采购的工具和IT系统要能无缝集成,支撑老业务快速迁移。
- 第四,大集群:区别于以往的单机系统,企业客户希望新的大数据方案能应对日益增多的数据,随时可以通过增加资源的方式横向扩展,无极扩容。
- 第五,开放生态:通过开源开放,让更多的客户和合作伙伴的数据连接在一起,发挥更大的价值。
华为针对上述典型诉求,从2013年开始调研分析业界大数据方案,发现每种技术都只能解决某种场景的诉求,不能同时满足上述的所有诉求,如:并行数据库技术不能有效与Hadoop生态集成,数据不能统一共享存储;搜索类技术提升了性能,但是数据膨胀很大,不支持标准SQL、不能兼容老的业务,这促使了华为着手开发CarbonData项目。整个大数据时代的开启,可以说是源自于Google的MapReduce论文,他引发了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之处在于计算和存储解耦的架构,使企业的部分业务(主要是批处理)从传统的垂直方案中解放出来,计算和存储可以按需扩展极大提升了业务发展的敏捷性,让众多企业普及了这一计算模式,从中受益。CarbonData借鉴了这一理念,存储和计算逻辑上分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析:
列式存储:高效的列式数据组织,区别于行存,可以实现列裁剪和过滤下压,使OLAP查询性能更高。同时,CarbonData针对明细数据查询实现了深度优化,在需要返回所有列的场景下性能优于其他列存方案。
丰富的索引支持:支持全局多维索引、文件索引、Min/Max、倒排索引等多种索引技术,从表级,文件级,列级等多个层级逐级快速定位数据,避免SQL-on-Hadoop引擎常见的“暴力扫描“,从而大幅提升性能,实现十年数据秒级响应, 三百维字段任意组合查询。
全局字典编码:除了常见的Delta、RLE、BitPacking等编码外,CarbonData应用了全局字典编码来实现免解码的计算,计算框架可以直接使用经过编码的数据来做聚合,排序等计算,这对需要做跨节点数据交换的业务来说性能提升非常明显(3倍以上)。
自适应类型转换:CarbonData针对分析型应用中大量使用的数值类型(Double/Decimal/Numeric/BigInt)实现存储内数据类型转换,配合列式数据压缩,使得压缩非常高效,数据压缩率基于应用场景不同一般压缩比在2到8之间。
标准SQL和API:在SparkSQL基础上,支持标准SQL99/2003;支持数据批量更新、删除,适用于OLAP场景下数据的周期性刷新,例如拉链表更新、维表数据同步。提供JDBC/ODBC连接,支持与BI工具无缝对接;兼容Spark DataFrame/DataSet,支持复杂分析应用。
数据生态集成:支持与Hadoop、Spark等大数据生态系统集成,支持和商业BI工具无缝对接。既满足传统数仓、数据集市、BI应用要求,也提供大数据生态丰富多样的API支持,覆盖从GB级到EB级应用。
开源开放: CarbonData于2016年6月3日全票通过进入大数据领域全球最大的开源社区Apache,半年时间里,Apache社区代码贡献者超过60人。目前特性贡献来自于华为、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美团、乐视、滴滴等公司资深架构师和开发人员。
本文作者:佚名
来源:51CTO

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
“双十一”即来 电商如何开启安全大战?
一年一度的“双十一”电商促销大幕又将拉开。经过了几年的培养,“双十一”已经成为电商、消费者以及其他IT从业人员每年最关注的时间节点之一。但另一方面值得思考的是,随着接入设备的复杂、应用类型的增多、交易笔数以及金额的不断攀升,如何应对“双十一”带了的信息安全、财产安全乃至IT架构安全则成为了整个促销链条内的企业不得不面对的问题。 从“双十一”这个特殊事件上看,其本质仍然是网络购物的标准流程,但其背后带来的流量压力、运算压力则是举世罕见。所以从应用的角度讲,在以下三个方面,我们应该加以特别关注。 银行结算避免短板 随着IT发展速度不断提升,电商平台往往都具备较强的技术积累。但是在以往“双十一”中,用户往往会发现交易无法顺畅进行。这种现象有时是因为银行对在线支付需求激增应对不足而造成的。我们都知道,一方面,由于银行的特殊性,其IT发展必须符合最严格的规定;另一方面,随着IT巨头涌进金融行业,银行为更具竞争力,必须使自己的IT架构提供更好的使用体验。 所以,银行在构建或升级基础架构时,安全的弹性与可扩展性,与合规性同等重要。举例而言,一些采用了F5双活数据中心方案的用户,在数据中心压力骤增的情...
- 下一篇
IBM谈软件定义的新时代:软件定义存储迈入套件时代
云计算、大数据的今天,随着企业对于数据应用的重视程度加深,需要企业不断在数据存储到数据管理,从数据保护到数据上云等技术上加大投入,而软件定义存储因为其具有先进性这种特点,成为市场选择的趋势。IBM在2015年推出软件定义存储代表,光谱存储系列产品,希望帮助用户不仅仅在数据管理上实现有效的保护,而且在数据价值获取上能够有一个好的平台提供给用户。 那么今天的存储市场面临一个怎么样的态势?那么变化影响了用户?以及IBM存储是如何应对的?我们采访了IBM大中华区系统与科技事业部存储产品线总监 朱国良和IBM大中华区系统部软件定义解决方案销售经理周立旸,站在软件定义存储的角度来分析和解读IBM一年来的存储发展趋势。 IBM大中华区系统与科技事业部存储产品线总监朱国良用三个D来描绘今天市场面临的一个存储临界点。 第一,数据(Data),数据的产生发生天翻复地的变化。今天数据是非常快速在增长,各种各样的数据不断地涌现,其实不仅仅限于这种所谓结构化数据,尤其是在非结构化数据里面爆炸性的增长,这是数据的产生。 第二,需求(Demand),数据访问的需求发生天翻复地的变化。因为现在移动互联这样的发展,其实...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2全家桶,快速入门学习开发网站教程
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7安装Docker,走上虚拟化容器引擎之路