深度干货!一篇 Paper 带您读懂 HTAP | StoneDB 学术分享会第①期
在最新一届国际数据库顶级会议 ACM SIGMOD 2022 上,来自清华大学的李国良和张超两位老师发表了一篇论文:《HTAP Database: What is New and What is Next》,并做了 《HTAP Database:A Tutorial》 的专项报告。 本篇文章,我们将系统地梳理一下两位老师的报告,带读者了解 HTAP 的发展现状和未来趋势。
- 背景介绍 。
- HTAP Databases :分享最新的 HTAP 数据库技术,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类。
- HTAP Tecniques :介绍主流的 HTAP 数据库关键技术,包括事务处理技术、查询分析技术、数据组织技术、数据同步技术、查询优化技术以及资源调度技术等。
- HTAP Benchmarks :介绍目前现有的主流 HTAP 基准测试。
- Challenges and Open Problems :讨论 HTAP 技术未来的研究方向与挑战。
Part1 背景介绍
1. Motivation
Gartner envisioned that, HTAP techniques will<br>be widely adopted in the business applications<br>with real-time data analytics by 2024.
- 在购物节这种高并发的情形下,如果电商卖家能够实时地分析用户行为数据,并根据分析结果针对性地投放品类广告,这无疑会给卖家带来更多的收益。
- 银行在线上处理用户事务时还能实时地分析数据,从而检测判断该用户及其行为是否异常或者存在风险,这会让风控系统更加智能化。
- 第一阶段(2010-2014) :HTAP 数据库主要是采用主列存(primary column store)的方式。如SAP HANA、HyPer、DB2和BLU等。
- 第二阶段(2014-2020) :HTAP 数据库主要是扩展了以前主行存的技术,在行存上加上了列存。如SQL Server,Oracle和L-store等。
- 第三阶段(2020-present) :HTAP 数据库主要是开启了分布式的架构实现,满足高并发的请求。如SingleStore、MySQL Heatwave和Greenplum等。
- 行存(Row Store) :比较适合OLTP。
- Row-wise,update-heavy(重更新),short-lived transactions(短时延事务)
- 列存(Column Store) :比较适合OLAP。
- column-wise,read-heavy,bandwidth-intensive queries(带宽敏感查询)
2. A trade-off for HTAP databases
- 高的工作负载隔离会导致较低的数据新鲜度
- 低的工作负载隔离会获得较高的数据新鲜度
3. Challenges for HTAP databases
- 挑战一: 数据组织 (Data Organization)
- 挑战二: 数据同步 (Data Synchronization)
- 挑战三: 查询优化 (Query Optimization)
- 挑战四: 资源调度 (Resource Scheduling)
Part2 HTAP 数据库
- 主行存储+内存中列存储 (Primary Row Store + InMemory Column Store)
- 分布式行存储+列存储副本 (Distributed Row Store + Column Store Replica)
- 磁盘行存储+分布式列存储 (Disk Row Store + Distributed Column Store)
- 主列存储+增量行存储 (Primary Column Store + Delta Row Store)
a. 主行存储+内存中列存储
- TP 吞吐量高
- AP 吞吐量高
- 数据新鲜度高
- AP 扩展能力低
- 负载隔离性低
案例研究1:Oracle Dual-Format
- SIMD:单指令多数据
- Max-Min Zone Map
- Vector Group By:向量化
案例研究2:SQL Server
- Persistent Column Store:持久化列存
- Updatable:可更新
总结
b. 分布式行存储+列存储副本
- 负载隔离性高
- 扩展性高
- 数据新鲜度低
案例研究:F1 Lightning
总结
c. 磁盘行存储+分布式列存储
- 负载隔离性高
- AP吞吐量和扩展性高
- 数据新鲜度不高
- Medium(On-premise):部署在本地,在不同机器上会有数据新鲜度的牺牲
- Low(Cloud-based):部署在云端,网络延迟会影响数据新鲜度
案例研究1:MySQL Heatwave
- Auto-pilot service:自动调优(一些云服务,可以在系统中自动帮客户实现数据分区、查询优化和资源调度等等)
- Auto-Sunc:自动同步(可实现定时定量同步数据)
案例研究2:Oracle RAC
- Auto-Sunc:自动同步(基于阈值的方式)
总结
d. 主列存储+增量行存储
- 数据新鲜度高
- AP吞吐量高
- TP可扩展性不高
- 负载隔离性不高
案例1:SAP HANA
案例2:Hyper(Column)
总结
四种架构HTAP数据库的对比
Part3 HTAP 技术

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
解决方案|电力行业应如何应对数字化转型危机
背景与挑战 随着电网公司数字化转型工作的推进和云平台、大数据、物联网、移动化、智能化等新技术的应用,推进高效一体化网络排障定位与深入推进人工智能及大数据技术等在电网信息系统运维中的应用,以及运用前沿科技技术,提高生产管理效益,提升数字电网建设过程中数据的价值已成为电网公司数字化转型工作的必然要求。 与此同时,伴随着电力行业数字化转型的不断发展,相关企业业务系统的不断更新与设备数量的大幅增加,由此引发了电力行业以下痛点: 监控层面:缺乏非侵入式的业务数据监控手段; 工作流程层面:缺乏统一的IT服务入口和服务管理流程; 人员层面:业务体系复杂,不同业务部门各自为政; 故障处理层面:问题发生后被动处理,且故障分析定位困难。 基于以上背景及痛点,如何在不植入探针或 Agent 的情况下监控业务链路运行情况,业务管理人员如何统计分析关键业务指标数据,运维人员如何准确定位故障、排查故障对电力行业相关企业来说均是极大的挑战。 场景需求分析 基于上述背景及挑战分析,电力行业具体包含以下运维场景需求: 非侵入式监控:通过非侵入式手段或工具实现对业务拓扑和业务指标数据的监控; 运维数据分析:统一收集、处理...
- 下一篇
Proxy-Go v12.1 发布,十分好用的 IP/HTTP(S)/SOCKS5 代理!
Proxy 是 golang 实现的高性能 http、https、websocket、tcp、udp、socks5 代理服务器,支持正向代理、反向代理、透明代理、内网穿透、TCP/UDP 端口映射、SSH 中转、TLS 加密传输、协议转换、DNS 防污染智能代理、前置 CDN/Nginx 反代、代理连接重定向、API 动态调用上级代理、限速限连接数。提供全平台的命令行版本,友好易用的 Windows&Linux&macOS 控制面板,强大的安卓版。 更新内容 1、修复dns处理转发规则顺序可能错乱的问题。 更新: v10.7 及以后版本,执行:proxy update,即可完成快速更新到最新版。 特色功能 链式代理,程序本身可以作为一级代理,如果设置了上级代理那么可以作为二级代理,乃至 N 级代理。 通讯加密,如果程序不是一级代理,而且上级代理也是本程序,那么可以加密和上级代理之间的通讯,采用底层 tls 高强度加密,安全无特征。 智能 HTTP 代理,HTTPS 代理,SOCKS5 代理,会自动判断访问的网站是否屏蔽,如果被屏蔽那么就会使用上级代理 (前提是配置了上级...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19