从Docker Hub和docker-registry看优秀的后端服务设计实现
从Docker Hub和docker-registry看优秀的后端服务设计实现
【编者的话】 本文通过研究Docker Hub和docker-registry的架构,介绍了在服务端Docker镜像的存储、管理、安全的架构设计,并给出了一次简单的Docker客户端服务端交互的过程。对于部署实现一个大规模、企业级的镜像库需要做的工作做了初步的探讨,汇总了需要准备的前期知识等。推荐想要搭建一个私有Docker镜像库的同学阅读。
需求
最近因为工作需要,我开始研究docker-registry的实现和服务搭建。docker-registry是Docker的镜像存储服务端。或者这么说,Docker干的事情就是把整个应用、操作系统、配置打包成一个静态的镜像,这个镜像可以快速的启动和停止。但这种能力对单个人是没有多大意义的,我们需要有个地方把镜像存下来,然后用一个url分享给其他人。
如果是你,你会怎么设计?开一个公共的FTP让大家存镜像然后分享?这是个好主意,不过……Docker的镜像有这么一个设定,就是一个镜像是由多层组成的,如果每次传输全量文件,对客户端、服务端、用户启动都造成时间和流量的浪费。
095141_PGk8_224285.jpg
于是……
需求一:远程存储服务
上传和下载需要智能的识别对面有没有这层,如果两边的层的uuid一致,已经有的话,就不传了。
简单的根据名字上传下载,对日常使用来说还不够方便,我们还需要一个Web界面,以支持登录、搜索、区分公共的镜像和私有的镜像等需求,这是用户的需求,不是客户端程序的需求。
103423_tFFG_224285.png
需求二:Web界面,支持搜索
每个镜像层一般都有几十兆到几百兆的大小,可以想象,当很多用户都往一个地方上传时,单个服务器的存储容量是绝对支撑不住的,需要可以水平扩展的集群,但Web界面不能分开,客户端程序也不应该很麻烦的自己找去哪里下载。
113601_LIxf_224285.png
需求三:支持水平扩展的集群存储
Docker Hub和docker-registry的分工如下:
Docker Hub负责管理集中的信息访问,包括:
- 用户账户
- 镜像的效验码
- 公共和私人镜像仓库的区分
Docker Hub有几个组件:
- Web UI
- Meta-data 元数据存储(附注、星级、公共库清单)
- 访问认证
- token管理
dokcer-registry有如下几个特性:
- 存储镜像、以及镜像层的家族谱系
- 没有用户账户数据
- 不知道用户的账户和安全性
- 把安全和认证委托给docker-hub来做,用token来保证传递安全
- 不需要重新发明轮子,支持多种存储后端
- 没有本地数据库
一次docker pull 或 push背后发生的事情
这两个图里面的index就是hub,可以看到每次客户端都要先访问index,决定镜像文件从哪个registry上传或下载,然后去相应的registry操作。从阅读源码中可以看出,在registry上,每个镜像的层都是以tar.gz格式存储的。
142853_vFJA_224285.png
自己搭建Docker镜像服务的考虑
既然是私服,同样需要考虑用户、安全认证、搜索等问题,可以说,Docker的开发者在设计镜像服务时就考虑了这些问题,把Web这块留给每个私服的开发者自己去实现,并把后端存储抽象成接口来调用。docker-registry的源代码放在这里 。为了保证后续的正常开发使用,我决定先阅读一下这个源码,不过碰上了不少问题,具体如下:
- docker-registry是用Python实现的,我对python的了解仅仅限于简单的脚本,对Python的包、模块、类都不大懂,所以我学习了Python 。
- docker-registry使用了egg打包发布,Gunicorn作为应用服务器(类似Tomcat),Flask作为MVC框架(类似Spring),后面还有SQLAlchemy作为搜索后端。这些技术都需要做简单的了解,在需要的时候深入学习。
- 后端存储,因为镜像最终是以tar.gz的方式静态存储在服务端,不需要实时读或者写,所以适用于对象存储而不是块存储,于是问题就转化成找一个或写一个私有的存储驱动,官方支持的驱动有亚马逊AWS S3、Ceph-s3、Google gcs、OpenStack swift、Glance等等,国内的七牛也写了自己的驱动 。
- 搜索,这块我还没涉及,后续再看……
- Web UI的实现,现在GitHub上已经有好几个项目了,例如docker-registry-web 、docker-registry-frontend,后续再看……
最近在研究用Docker实现PaaS,欢迎大家有想法找我交流:-)
最后分析一下这个架构的优点
- 解耦合
Docker Hub是web-UI、用户认证、镜像元数据的集合,在这个方面,不同的组织有不同的做法,所以需要独立出来。docker-registry是所有组织可以复用的部分,单纯用于镜像存储服务。 - 不重复造轮子
docker-registry自己去实现一套对象存储了吗?没有,因为在对象存储这个领域,已经有很多优秀的实现。所以docker-registry是一个HTTP接口的服务,仅仅是在对象存储上包了一层镜像的家族谱系,而且底层支持多种对象存储。 - 水平扩展性
在简单使用场景下,docker-registry也支持本地文件系统存储,可以说是all-in-one的设计,开箱即用。而当把这个场景扩展,用于大规模企业级的应用时,Docker Hub和docker-registry是1:n的关系,registry本身是一个无状态的服务,可以非常容易的水平扩展。这也是设计者的狡猾之处,他把有状态的部分都抽离了,把存储这个最大的状态机制做成可以放在其他的对象存储上,这样在大规模使用场景下就不会有性能的问题,也不会有单点问题。任何一个registry挂掉都是可以忍受的,可以被轻易的恢复而没有副作用。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
使用 Docker 容器应该避免的 10 个事情
使用 Docker 容器应该避免的 10 个事情 当你最后投入容器的怀抱,发现它能解决很多问题,而且还具有众多的优点: 第一:它是不可变的– 操作系统,库版本,配置,文件夹和应用都是一样的。您可以使用通过相同QA测试的镜像,使产品具有相同的表现。 第二:它是轻量级的– 容器的内存占用非常小。不需要几百几千MB,它只要对主进程分配内存再加上几十MB。 第三:它很快速– 启动一个容器与启动一个单进程一样快。不需要几分钟,您可以在几秒钟内启动一个全新的容器。 但是,许多用户依然像对待典型的虚拟机那样对待容器。但是他们都忘记了除了与虚拟机相似的部分,容器还有一个很大的优点:它是一次性的。 容器的准则: “容器是临时的”。 这个特性“本身”促使用户改变他们关于使用和管理容器的习惯;我将会向您解释在容器中不应该做这些事,以确保最大地发挥容器的作用。 1) 不要在容器中存储数据– 容器可能被停止,销毁,或替换。一个运行在容器中的程序版本1.0,应该很容易被1.1的版本替换且不影响或损失数据。有鉴于此,如果你需要存储数据,请存在卷中,并且注意如果两个容器在同一个卷上写数据会导致崩溃。确保你的应用被设计...
- 下一篇
《循序渐进学Docker》——1.4 本章小结
本节书摘来自华章出版社《循序渐进学Docker》一书中的第1章,第1.4节,作者李金榜 尹烨 刘天斯 陈纯,更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 本章小结 本章概括性地介绍了Docker是什么,它有哪些独特的物理特性,以及它适用于哪些场合和能带来哪些好处。它灵活便利,但也有一定的学习成本。下面章节中我们将循序渐进,讲解Docker的使用方法。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Thymeleaf,官方推荐html解决方案