JindoTable数据湖优化与查询加速
概述
近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。
数据优化
数据湖需要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍感烦恼。在存储计算分离的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目录list时间显著变长,小文件也会影响很多计算引擎的并发度。此外,由于对象存储一般以对象为单位,小文件也会导致请求数量的上升,会明显影响元数据操作的性能,更会增加企业需要支付的费用。而如果数据文件过大,如果数据又使用了不可分割的压缩格式,后续计算的并发度会过低,导致无法充分发挥集群的计算能力。因此,即使是数据湖架构中,对数据文件进行治理和优化也是非常必要的。
基于数据湖所管理的元数据信息,JindoTable 为客户提供了一键式的优化功能,用户只要在资源较为空闲时触发优化指令,JindoTable 可以自动为用户优化数据,规整文件大小,进行适当的排序、预计算,生成适当的索引信息和统计信息,结合计算引擎的修改,可以为这些数据生成更加高效的执行计划,大幅减少用户查询的执行时间。数据优化对用户透明,优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功能。
查询加速
JindoTable 还有一项重磅功能,就是查询加速功能。在数仓中,数据分析总是越快越好。尤其是 Ad-Hoc 场景,对查询延迟非常敏感。现在“湖仓一体”的概念也很火,对于数据湖这种普遍使用存储计算分离场景的架构,如何尽可能减少 IO 开销,对于缩短查询时间是非常关键的。
之前介绍的 JindoTable 数据优化功能,是在存储端减少额外开销,并且通过提前的计算,为运行时优化打好基础。JindoTable 的查询加速功能则是在查询执行时,通过把计算推向存储,减少计算时整体的 IO 压力,同时利用存储端空闲的计算资源提供高效的计算,缩短整体查询时间。JindoTable 的加速服务结合修改后的各种计算引擎,可以把尽可能多的算子下推到缓存端,并且利用高效的 native 计算能力过滤大量原始数据,再把数据高效地传输给计算引擎。这样,计算引擎所需处理的数据大大减少,甚至一些计算也可以直接略过,后续的计算所需的时间自然也就大为减少。
分层存储
数据湖所存储的数据量通常增长迅速。对于传统的 Hadoop 集群,如果数据量急剧增长,所需的存储资源也要相应增加,这样会导致集群规模迅速扩大,计算资源也会变得过剩。抛开集群规模增长导致的其他问题不谈,光是运营集群的成本问题就足够让人头疼。好在公有云平台提供了对象存储的服务,我们可以按存储的数据量来付费,这在节约成本的同时,用户也不用担心 HDFS 在集群资源和数据量快速增长情况下的稳定性问题。但数据量快速增长还是会等比例的增加整体开销。
阿里云的对象存储服务 OSS,为用户提供了低频存储和归档存储,对于访问不是那么频繁的数据,如果能够转为低频或归档模式来存储,可以尽量节约成本。而一部分数据如果有频繁的访问需求,放在远离计算资源的对象存储上,又会导致计算时的 IO 出现瓶颈。JindoTable 对接数据湖中各种计算引擎,以表或分区为最小单位,统计数据的访问频次。根据用户设定的规则,JindoTable 可以告诉用户哪些表或者分区的访问频次较高,让用户可以通过 JindoTable 命令,借助 JindoFS 提供的底层支持,把这些表或者分区对应的数据缓存到计算集群内,加速查询的执行。同时,对于访问频次较低的表或者分区,用户也可以使用 JindoTable 把对应的数据转为低频或者归档存储类型,或是设置生命周期。在需要对归档数据操作的时候,可以直接用 JindoTable 对归档数据进行解冻。JindoTable 还为用户提供了元数据管理,方便用户检视表或者分区当前的存储状态。JindoTable 让用户能尽可能高效地管理自己的数据,节约成本的同时,不牺牲计算性能。
小结
对于企业来说,数据湖为各种来源的数据提供了整合的可能性。背靠丰富的云产品体系,数据湖架构可以帮助客户进一步发掘数据价值,实现企业愿景。JindoTable 在数据湖解决方案中,为用户提供数据治理和查询加速的增值功能,进一步降低用户数据入湖的门槛,帮助用户在更低的成本下,实现更高的数据价值。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
F5打造多功能应用分析平台 积极应对多云环境的安全挑战
根据F5发布的《2020年应用服务状况报告(亚太版)》的数据显示,全球87% 的企业采用了多云架构运行应用程序。事实证明,“云”仍然是变革的驱动力,随着向云端的扩展,企业IT架构和应用程序的构建方式发生了转变,迫使企业考虑从工具到团队结构的全方面改变。 然而,如今客户在安全领域遇到的问题也尤为尖锐。尽管架构和应用的位置发生了变化,客户仍然需要在保护应用程序的同时,确保可用性并抵御DDoS攻击。“随着应用程序和用户的扩展以及攻击规模的扩大,应用程序安全成为了一个更大的挑战,客户需要新的方法和技术来解决旧的安全问题。” F5首席安全技术官 Renuka Nadkarni表示。 F5认为,这种新方式的核心原则之一是:从“点状防护”的安全解决方案,转向覆盖更广泛的整体安全方案。从这个意义上说,一般的安全提供商无法解决或扩展其能力来应对新环境下的安全挑战。首先,一般安全供应商都是在其可覆盖的范围内针对一些瓶颈点予以解决,但这样传统的瓶颈点在多云环境中是不存在的。与此同时,交付即服务的模型(SASE)仅适用于少部分的安全问题,而大部分的安全问题还是需要由云/计算提供商来解决。 对此,F5着力打造多...
- 下一篇
Canalys:2020年第二季度中国云基础设施服务支出达43亿美元
据外媒报道,市场研究机构Canalys发布的报告显示,2020年第二季度,中国云基础设施服务支出达到43亿美元,同比增长70%。 报告指出,中国处于世界第二大市场的地位,占全球投资的12.4%,高于2019年第二季度的9.6%。数字化转型项目以及消费者对在线服务的加速使用,推动了云服务使用的增长。 在2020年第二季度,排名前四位的厂商共占总消费额的78.7%,其中,阿里云保持了40.1%位列第一,华为云和腾讯云分别拥有15.5%和15.1%的市场份额。百度智能云是全国第四大云服务提供商,占总支出的8.0%。 Canalys首席分析师Matthew Ball说:“业务运营越来越趋向数字化,而远程工作仍在继续,人们越来越依赖协作平台的支持。这些趋势将进一步使用云原生应用程序,推动工作负载迁移,服务机会以及数据中心容量的扩大。” 据悉,Canalys将云基础架构服务定义为在专用托管私有基础架构或共享基础架构上提供基础架构即服务和平台即服务的服务。这不直接将软件作为服务支出,但包括基础设施服务产生的收入,这些收入被用于托管和运营这些服务。 经济时代对数字化转型和在线服务的需求不断增长,使云服...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- 2048小游戏-低调大师作品
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Mario游戏-低调大师作品
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS6,CentOS7官方镜像安装Oracle11G
- Docker使用Oracle官方镜像安装(12C,18C,19C)