Delta Lake Presto Integration & Manifests 机制
该功能与我们之前平台化 Delta Lake 平台化实践(离线篇) 的很多工作都较为相似,比如与 metastore 的集成,直接通过 manifest 读取 delta 存活文件等。
Delta Lake 在 0.5 之前只支持通过 Spark 读取数据,在新版本中增加了其他处理引擎通过 manifest 文件访问 Delta Lake 的能力。下文以Presto 为例说明如何通过 manifest 文件访问数据,manifest 文件的生成及其一些限制。
01 使用
Presto 使用 manifest 文件从 hive 外部表中读取数据,manifest文件是一个文本文件,包含该表/分区所有存活数据的路径列表。
当使用 manifest 文件在 Hive metastore 中定义外部表时,Presto 将会先读取 mani
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
电商网站搭建指南
云计算试飞员老蒋开播啦!锁定云栖号直播,驻云CEO老蒋手把手教你0门槛搭建电商网站! 网站搭建一览: ECS开通 EIP开通 域名解析 RDS开通 创建数据库&数据库账号&设置白名单 挂载数据盘 上传安装包&安装脚本 安装Nginx(预计1-3分钟) 安装PHP(预计5-10分钟) 电商网站安装前的Nginx配置 电商网站安装初始化 完成安装进入电商首页 进入电商管理后台-添加商品 进入首页查看商品详情 那么我们开始动手搭建吧! 1、ECS开通 2、EIP开通 开通EIP: 并EIP绑定ECS上: 3、域名解析 将域名A解析到EIP上。 4、RDS开通 5、创建数据库&数据库账号&设置白名单 创建账号: qiaobangzhu_test 创建数据库: qiaobangzhu_test 并授予账号qiaobangzhu_test读写权限 设置白名单: 添加ecs的内网ip白名单至default默认分组 6、挂载数据盘 登录服务器/格式化磁盘&挂载磁盘&设置开机自启动: mkfs.ext4 /dev/vdb && mk...
- 下一篇
HBase可用性分析与高可用实践
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! HBase作为一个分布式存储的数据库,它是如何保证可用性的呢?对于分布式系统的CAP问题,它是如何权衡的呢? 最重要的是,我们在生产实践中,又应该如何保证HBase服务的高可用呢? 下面我们来仔细分析一下。 1. 什么是分布式系统的CAP? CAP是指一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)。 Consistency 一致性 一致性指更新操作成功并返回客户端完成后,分布式系统中所有节点在同一时间的数据完全一致。 从客户端的角度来看,一致性主要指的是并发访问时获取的数据一致。从服务端来看,则是更新如何复制分布到整个系统,以保证数据最终一致。 对于数据库来说,如果要求更新过的数据能被后续的访问都能看到,这是强一致性。如果能容忍后续的部分或者全部访问不到,则是弱一致性。如果经过一段时间后要求能访问到更新后的数据,则是最终一致性。 Availability 可用性 可用性指服务一直可用,整个系统是可以正常响应的。 ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长