⾯向现代分层存储的 Caching 技术漫谈|Data Infra 研究社第十九期(含资料发布)
大家好,我是 Databend 研发工程师尚卓燃,很长时间没有在 Data Infra 和大家见面了,今天给大家带来的分享是《面向现代分层存储的 Caching 技术漫谈》。 Caching 其实就是缓存,在像 Databend 这样的大数据处理系统中是非常常见的一项技术。但在最近几年的研究中,出现了一些新的 Caching 设计趋势,包括一些和机器学习结合的方案,本次分享会围绕一些相关论文进行展开。 Part 1 Caching vs. Tiering 在复杂的分层存储模型中,不同层级的存储设备(如内存、闪存、机械硬盘、远程存储、磁带机等)共同构成一个金字塔式结构。每一层的设计和算法需要考虑不同层级带来的性能影响和数据移动策略。 为了简化讨论,我们可以将分层存储模型抽象为两层: 容量层:容量大、速度慢、价格低廉,适用于大量数据的存储。 性能层:容量小、速度快、价格高,适用于存放热数据来优化数据访问路径的性能。 分层存储的目标可以看成是通过少量的高性能存储设备提升整体性能,并且控制存储系统的整体拥有成本。 缓存(Caching)和分层(Tiering)是两种优化数据存储和访问性能的重要...