吐血总结了各个中间件是如何实现持久化的
文转载自微信公众号「Java3y」,作者Java3y。转载本文请联系Java3y公众号。
\到目前为止,三歪也已经接触到了不少的中间件了,比如说「Elasticsearch」「Redis」「HDFS」「Kafka」「HBase」等等。
可以发现的是,它们的持久化机制都差不得太多。今天想来总结一下,一方面想来回顾一下这些组件,一方面给还没入门过这些中间件的同学总结一下持久化的”套路“,后面再去学习的时候就会轻松很多。
这些中间件我的GitHub目录都是在的:
- https://github.com/ZhongFuCheng3y/3y
- https://gitee.com/zhongfucheng/Java3y
持久化
下面我们就直接来分别回顾一下各个中间件/组件的持久化机制,最后再总结就好了(三歪相信大家应该也能从回顾中看出些端倪)
为什么要持久化?原因也很简单:数据需要存储下来,不希望出了问题导致数据丢失
Elasticsearch
Elasticsearch是一个全文搜索引擎,对模糊搜索非常擅长。
Elasticsearch在写数据的时候,会先写到内存缓存区,然后写到translog缓存区,每隔5s将translog缓冲区的数据刷到磁盘中
Kafka
众所周知,Kafka是一个高吞吐量的消息队列,那它是怎么持久化的呢?
Kafka relies heavily on the filesystem for storing and caching messages.
没错Kafka用的是文件系统来存储的。
在Kafka官网上其实也说了,Kafka的持久化依赖操作系统的pagecache和顺序写来实现的。
HDFS
HDFS是分布式文件系统,能存储海量的数据,那HDFS在写入数据的时候是怎么样的呢?
HDFS Client客户端无论读写都需要走到NameNode去获取/增删改文件的元数据,而NameNode则是专门维护这些元数据的地方。
所以,在HDFS写数据,需要先去NameNode上询问这些切分好的block往哪几个DataNode上写数据。
为了提高NameNode的效率,在写数据的时候,NameNode实际上是操作的是内存,然后涉及到增删改的数据顺序写到editlog日志文件上
Redis
Redis是基于内存的,如果不想办法将数据保存在硬盘上,一旦Redis重启(退出/故障),内存的数据将会全部丢失。
我们肯定不想Redis里头的数据由于某些故障全部丢失(导致所有请求都走MySQL),即便发生了故障也希望可以将Redis原有的数据恢复过来,所以Redis有RDB和AOF的持久化机制。
- RDB:基于快照,将某一时刻的所有数据保存到一个RDB文件中。
- AOF(append-only-file),当Redis服务器执行写命令的时候,将执行的写命令保存到AOF文件中。
AOF持久化功能的实现可以分为3个步骤:
- 命令追加:命令写入aof_buf缓冲区
- 文件写入:调用flushAppendOnlyFile函数,考虑是否要将aof_buf缓冲区写入AOF文件中
- 文件同步:考虑是否将内存缓冲区的数据真正写入到硬盘
HBase
HBase是一个能存储海量数据的数据库。
HBase在写数据的时候,会先写到Mem Store,当MemStore超过一定阈值,就会将内存中的数据刷写到硬盘上,形成StoreFile,而StoreFile底层是以HFile的格式保存,HFile是HBase中KeyValue数据的存储格式。
我们写数据的时候是先写到内存的,为了防止机器宕机,内存的数据没刷到磁盘中就挂了。我们在写Mem store的时候还会写一份HLog
MySQL
MySQL我们用得最多的InnoDB引擎是怎么存储的呢?它有redo log来支撑持久化的功能。
MySQL引入了redo log,内存写完了,然后会写一份redo log,这份redo log记载着这次在某个页上做了什么修改。
总结看完上面常见的中间件/组件的持久化方式,应该就不用我多说了吧?思想几乎都是一样的,只是他们记录“log”的名字不一样而已。
先写buffer,然后顺序IO写Log。防止buffer的数据还没刷到磁盘,宕机导致数据丢失。
对于Log文件,中间件也不会放任它们一直膨胀,导致体积很大:
在Redis里边,会对AOF文件进行重写
在HDFS里边,editlog会定时生成fsimage
在Elasticsearch里边,translog会根据阈值触发commit操作
.....
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
从国家到个人,《数据安全法》(草案)对我们将有何影响
数据安全已成为事关国家安全与经济社会发展的重大问题。党中央对此高度重视,习近平总书记多次作出重要指示批示,提出加快法规制度建设、切实保障国家数据安全等明确要求。党的十九大报告提出,推动互联网、大数据、人工智能和实体经济深度融合。党的十九届四中全会决定明确将数据作为新的生产要素。 今年6月28日,《数据安全法(草案)》(下文简称“数安法”)提请十三届全国人大常委会第二十次会议初次审议。7月3日,数安法向社会公众公开征求意见,各位专家和网友纷纷在互联网上展开热议。 今天,我们不做解读,因为目前还是草案,距离正式颁布还有一些时间,只把我近期所了解到的内容,结合一些自己的想法说出来,一起聊聊《数安法》。 1 《数据安全法》立法宗旨 官方起草说明 首先,我们先看下国家为什么要起草《数安法》,以下引用官方的起草说明: 按照党中央部署和贯彻落实总体国家安全观的要求,制定一部数据安全领域的基础性法律十分必要: 一是,数据是国家基础性战略资源,没有数据安全就没有国家安全。因此,应当按照总体国家安全观的要求,通过立法加强数据安全保护,提升国家数据安全保障能力,有效应对数据这一非传统领域的国家安全风险与挑战...
- 下一篇
数据库主从不一致,怎么解?
在聊数据库与缓存一致性问题之前,先聊聊数据库主库与从库的一致性问题。 问:常见的数据库集群架构如何? 答:一主多从,主从同步,读写分离。 如上图: 一个主库提供写服务 多个从库提供读服务,可以增加从库提升读性能 主从之间同步数据 画外音:任何方案不要忘了本心,加从库的本心,是提升读性能。 问:为什么会出现不一致? 答:主从同步有时延,这个时延期间读从库,可能读到不一致的数据。 如上图: 服务发起了一个写请求 服务又发起了一个读请求,此时同步未完成,读到一个不一致的脏数据 数据库主从同步最后才完成 画外音:任何数据冗余,必将引发一致性问题。 问:如何避免这种主从延时导致的不一致? 答:常见的方法有这么几种。 方案一:忽略 任何脱离业务的架构设计都是耍流氓,绝大部分业务,例如:百度搜索,淘宝订单,QQ消息,58帖子都允许短时间不一致。 画外音:如果业务能接受,最推崇此法。 如果业务能够接受,别把系统架构搞得太复杂。 方案二:强制读主 如上图: 使用一个高可用主库提供数据库服务 读和写都落到主库上 采用缓存来提升系统读性能 这是很常见的微服务架构,可以避免数据库主从一致性问题。 方案三:选择...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题