深入剖析 Delta Lake:Schema Enforcement & Evolution
编译:辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作
在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同,需要定义如何对新的信息进行分类和处理。
这就涉及到 schema 管理的问题,随着业务问题和需求的不断演进,数据结构也会不断发生变化。通过 Delta Lake,能够很容易包含数据变化所带来的新的维度,用户能够通过简单的语义来控制表的 schema。相关工具主要包括 Schema 约束(Schema Enforcement)和 Schema 演变(Schema Evolution),前者用以防止用户脏数据意外污染表,后者用以自动添加适当的新数据列。本文将详细剖
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
阿里云ECS服务器2核4G配置包括哪些实例规格?价格如何?
阿里云ECS云服务器2核4G配置是企业级服务器的起步配置。企业用户上云就要考虑这么多机型中选择一款,对于新手来说有困难。选择便宜的怕性能不够,影响业务正常运行;买贵了会浪费资源,提高上云费用。本文就把汇总到的 2核4G配置列举出来,详细讲解出区别,帮助企业用户选择。 说是企业用户选择,其实个人用户也可以用的。除了阿里云优惠活动中标明的企业才能购买之外,其余的只要没特意标明的话,个人也可以买,可以用。 阿里云ECS服务器2核4G配置目前在售的 11款机型,从入门级的突发性能实例、共享型实例,到企业级的计算型实例、计算网络增强型实例、高主频型实例都包括在内。 基于CPU性能限制和系统性能共享的原因,突发性能实例和共享型实例 2核4g不算在企业级之内,也就是说除了这两款实例以外的,都是企业级服务器,完全独享系统资源。基于不同机型,ECS实例的性能和价格也是千差万别。了解更多看云服务器 ECS > 实例 > 实例规格族 突发性能实例和共享型实例 2核4g如果用于个人业务,特别是突发性能实例在你足够了解详情的前提下,价格还较低,用起来蛮香的。共享型表现就更好一些了,个人网站之类的都没...
- 下一篇
4月9日JindoFS系列直播【存储计算分离场景的计算适应优化】
主题: 存储计算分离场景的计算适应优化 时间: 2020.4.9(周四)19:00 参与方式: 扫描下方二维码加入钉钉群,群内直接观看 或点击直播间链接: https://developer.aliyun.com/live/2592 讲师:王道远 花名健身,阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。 直播简介: 本次分享会介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- Red5直播服务器,属于Java语言的直播服务器
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启