基于MaxCompute InformationSchema进行冷门表热门表访问分析
一、需求场景分析
在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的使用情况,从而优化数据模型。
一个MaxCompute项目中经常使用的表简称为热门表,使用次数较少或者很长时间不使用的表简称为冷门表,本文将介绍如何去通过MaxCompute元数据信息去分析热门表和冷门表。
二、方案设计思路
MaxCompute Information_Schema提供了项目中全量的表元数据信息Tables以及包含访问表的作业明细数据tasks_history,通过汇总各个表被作业访问的次数可以获知不同表被作业使用的频度。
详细步骤如下:
1、热门数据通过获取tasks_history表里的input_tables字段的详细信息,然
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
首度公开!OceanBase存储系统架构的演进历程及工程实践 | 11月26号栖夜读
点击订阅云栖夜读日刊,专业的技术干货,不容错过! 阿里专家原创好文 1.首度公开!OceanBase存储系统架构的演进历程及工程实践 作为一款100%自研的分布式数据库,OceanBase历经了近十年的发展历程。近十年来,OceanBase的存储架构经历了多次演进,以解决业务越来越复杂苛刻的存储需求。本文整理自赵裕众(花名陈群)在2019 SACC中国系统架构师大会中的演讲。阅读更多》》 2.在阿里,40岁的奋斗姿势 在阿里,什么样的年纪可以称为老呢?35岁?在云网络,有这样一群人,他们的平均年龄接近40,却刚刚开辟职业生涯的第二战场。他们的奋斗姿势是什么样的呢?阅读更多》》 3.基于OOS批量修改资源标签值 一篇干货好文,值得一读!阅读更多》》 4.双 11 模块 79.34% 的代码是怎样智能生成的? 作为今年阿里经济体前端委员会的四大技术方向之一,前端智能化方向一被提及,就不免有人好奇:前端结合 AI 能做些什么,怎么做,未来会不会对前端产生很大的冲击等等。本篇文章将围绕这些问题,以「设计稿自动生成代码」场景为例,从背景分析、竞品分析、问题拆解、技术方案等几个角度切入,细述相关思...
- 下一篇
人工智能和5G:进入数据新世界
研究表明,以供应商为中心的人工智能设备的部署模型无法维持流量的指数性增长。 如今,电信行业已经确定需要更快的最终用户数据速率。在以往,用户通过打电话和发短信进行沟通。但是,移动通信现在以一种戏剧性的方式改变了人们的生活。 人们更倾向于基于影像和基于VR/AR视频的通信。因此考虑到这些需求,这些应用也需要一种新型的网络。而360°视频应用的沉浸式体验需要大量数据和零延迟网络。例如,分辨率等于4K电视分辨率的VR视频需要1 Gbps的带宽才能流畅播放,而需要2.5 Gbps的交互带宽。这两者都需要10ms的最小延迟。而这是往返时间。很快这些应用将以智能手机为目标,给网络带来更多压力。随着VR/AR服务的普及,即将采用的5G网络将提供所需的速度和性能。 每个物联网设备都会创建数据,而这些数据是人工智能引擎的动力。人工智能使人们能够对数据做更多
相关文章
文章评论
共有0条评论来说两句吧...