微服务开发中的数据构架设计-低调大师

微服务开发中的数据构架设计

2018-11-27 1009

前言

微服务是当前非常流行的技术框架，通过服务的小型化、原子化以及分布式架构的弹性伸缩和高可用性，可以实现业务之间的松耦合、业务的灵活调整组合以及系统的高可用性。为业务创新和业务持续提供了一个良好的基础平台。本文分享在这种技术架构下的数据架构的设计思想以及设计要点，本文包括下面若干内容。

微服务技术框架中的多层数据架构设计
数据架构设计中的要点
要点1：数据易用性
要点2：主、副数据及数据解耦
要点3：分库分表
要点4：多源数据适配
要点5：多源数据缓存
要点6：数据集市

为了容易理解，本文用一个简化的销售模型来阐述，如下图。图1显示了客户、卖家、商品、定价、订单的关系（这里省略支付、物流等其他元素）。

图1 销售模型

在这个销售模型中，卖家提供商品、制定价格，客户选择产品购买、形成销售订单。根据微服务的理念设计，可以划分为客户服务、卖家服务、商品服务、定价服务、订单服务，以及公共服务（比如认证、权限、通知等），如图2所示。

图2 微服务功能

微服务架构中的多层数据架构设计

分布式架构一般把系统分为 Saas（Software-as-a-Service）、Paas（Platform-as-a-Service）、Iaas（Infrastructure as a Service ）三层。其中 Saas 层负责对外部提供业务服务，Paas 层提供基础应用平台，Iaas 层提供基础设施。微服务垂直嵌入这三层服务之中，相互独立。因此数据架构设计时需要考虑三层服务对数据的关注点，又要考虑微服务的独立性。

数据架构的分层设计

图3 微服务技术框架

如图3所示，Iaas 层提供程序运行的物理基础环境（这边涉及很多硬件·网络内容，在本文中省略）。Pass 层细分为三层，基础服务层，主要负责数据存储处理；事务框架层，主要负责微服务的注册·调度管理、分布式事务处理；应用服务层、主要实现各个微服务的 API，供其它微服务直接调用以及 Saas 层的服务调用。Saas 服务就是公开对外提供的业务服务。

数据架构自下向上相应的分为 Raw Data 层、Logic Data（inner）层和 Logic Data（outer）层（Iaas 中主要以基础硬件环境为主，在本文中省略）。Raw Data 层是基于数据库、文件或者其他形式数据内容。Logic Data（inner）层是微服务 API 使用的逻辑数据，比如客户数据、订单数据等等。Logic Data（outer）层是对外服务提供数据，比如客户订单数据。因此，我们的数据架构的分层结果如图4所示。

图4 数据分层架构

除此之外，很多情报会以画面或报表的形式展现出来。因此在 Logic Data(outer) 之上，可以构建 Information Block（常用的信息块）、通过 View type（显示模式）的设定后，最终 View 展现出来。

如图4所示，越靠近对外服务层，客户对设计者的影响度越大，越需要从使用性、易用性、适用性等考虑。反之，越远离对外服务层，设计上更关心数据的存储。

数据三层架构的好处是实现数据从系统实现到业务实现的逐层过渡，实现业务数据和系统数据间的松耦合。同时实现业务的灵活扩展和系统的灵活扩展。

数据架构设计中的要点

上面讲述了数据架构的分层设计，下面讲述数据架构设计中的要点。

要点1：数据易用性

数据无论用什么方式实现，其最终目的都是为业务（或者是客户）使用的。因此，在对外提供服务的时候，数据的易用性非常关键。

图5 数据易用性

如图5所示，客户信息在 Logic Data（inner）层中为了数据的柔软性和非冗余，把人员信息拆成若干子表来存储。比如，人员地址表可以无限多的存储客户地址信息。这样的好处在于每次人员地址更新时，不用直接更新人员地址，而是生成一个新的地址数据，原有的地址信息作为历史数据得到保存，易于数据快速恢复和历史信息追踪。但在 Logic Data（outer）层提供外部数据的时候，首先考虑的是一次性能提供足够用的信息（毕竟查询的操作大大高于修改的操作），减少业务场景中不需要的信息。比如对一般客户只提供三个常用地址的时候，数据设计中地址1、地址2和地址3放在一张表中。

要点2：主、副数据及数据解耦

每个微服务 API 的数据完全独立是不太现实的，比如订单中需要有商品、客户（包括收货者）、卖家以及价格等数据。如果这些数据都在订单服务 API 中管理，那么客户情报的变更、价格调整等信息都要同步给订单 API 中数据，数据的耦合度就会变得非常高。在数据设计的时候，需要考虑降低数据间的相互依赖性。因此，首先需要确定每个微服务 API 的主数据和副数据。主数据指微服务 API 的核心数据，这种数据的增删改主要集中在某个微服务 API 中，比如订单服务 API 中的订单数据。副数据指参照或者映射其他微服务 API 的数据，比如订单服务 API 中的商品数据、价格数据等。其次，为了降低数据之间的耦合度，用数据关联表来表征数据间的关系。如果想去掉数据间的关联关系，直接去掉关联表即可，对数据本身的没有任何影响。具体如图6所示。

图6 主、副数据及数据解耦

要点3：分库分表

随着业务数据量不断增加，单一数据库或单一数据表中会积累大量的数据，比如订单数据，随着时间推移和客户数量的增加，产生的订单数据也会越来越多。当数据累积到一定程度后，数据操作的性能会大幅下降，也就是我们常说的数据库“带不动了”。所以，在数据架构设计阶段就应该考虑数据的分库分表。

如图7所示，分库，即我们把订单数据分为当前数据应用库、历史数据库、历史归档数据库。当前数据应用库用来支持新订单的生成以及执行中订单的增删改查。历史数据库（这里举例分为最近3个月和最近1年）当客户想看过往订单的时候才使用。历史归档数据（按年间归档）原则上不直接对客户公开，用于备查、统计分析。对于当前数据应用库，可以继续再分库，按客户号范围来分库。这样每个数据库的大小都能得到有效控制。分表，即把一条信息分别存储在两张或多张表中。比如把订单信息按基本信息和详细信息分表，就可以适用于订单的基本信息查询和订单详细信息查询。总之，分库分表的核心就是控制单一数据库的负荷（数据量和数据信息量），通过多表多库来应对业务数据量的增长。

图7 分表分库

要点4：多源数据适配

传统的关系型数据库之外，有多种多样的数据源，比如图像、声音、视频等多媒体数据文件或数据流，CSV、TXT、Doc、Excle、PDF、XML 等各种异构数。这些数据都需要做相应的处理，转换成可管理的数据信息。因此在数据架构设计的时候，需要给不同性质的数据源配置相对应的读写适配器，同时也需要有统一调度的地方，如图8所示。

图8 多源数据适配

要点5：多源数据缓存

数据处理的性能除了处理逻辑的复杂度以外，还有很大一部分是目标数据的操作时长（含对硬件磁盘设备的读写以及网络的传输）。网络速度特别是光纤的使用后已经大幅度提高，但机器磁盘的读写效率并没有显著提高，因此减少磁盘读写是提高效率的一个重要途径。数据缓存就是把常用的数据（不会经常更改的数据）、最近使用数据放到内存中。这样就可以大幅降低系统对硬件磁盘设备的操作开销，提高整个数据系统的性能，如图9所示。

图9 数据缓存

要点6：数据集市

数据集市是一个很大的话题。当现有的数据不能简单地通过几个表数据关联以及简单加工后就可以供业务使用的时候，就需要考虑构建数据集市。数据集市以数据运用的观点来分析加工数据，通过多源数据的导入、清洗、加工、视图做成等一系列的数据操作后，为业务提供可用的、稳定的数据源。例如，对销售分析中、什么样的客户喜欢什么样的商品、价格对销售金额的影响、销售金额跟地区日期的关联关系等多维度分析，就要用数据集市的概念，如图10所示。

图10 数据集市

数据承载着信息，好的数据架构设计会使业务系统变得更加流畅、更加容易理解和维护。本文只是总结一些在实际工程中的体会，供大家分享。如果有不足之处、也请大家补充、赐教。

微服务架构开发参考内容：http://www.roncoo.com/course/list.html?tid1=&tid2=3cb8af02d60945c7a5d01fc52b8d1f39

微信关注我们

原文链接：https://blog.roncoo.com/article/132433

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何解决租房烦恼？阿里工程师写了一套神奇的代码

租房的烦恼，相信大家或多或少都有过。独自一人在大都市打拼，找个温暖的小窝实属不易，租个称心又价格公道的房子是件重要的事儿。作者阿里工程师鹿星，也是众多北漂中的一员。如何从各大租房网的房源里面，找到最称心如意的小窝？今天让鹿星带大家看看大数据能不能做出最优选择。文末有代码。选择困难症毕业到现在两年多了，一直住的自如合租房，但因为各种原因住处已经换过4次，每次换租都是一件头疼的事。从茫茫房海中找一间中意的房间，实在是一件费时费力的活，对于我这种买东西直奔目的地的人来说，在这么多房间里对比各种房间属性选出最优的根本就是一种折磨（这里不得不说一下自如网的选房功能，列表筛选无法准备知道房间地点，而地图找房功能的筛选项又太少，实在无法满足我的需求），所以我每次都是草草选一个，将就着住。最近在经历了又一次换租后，我萌生了把自如所有在租的房间数据都爬下来，找出最符合我预期的房间的想法，制作好一套流程以后再要换租的时候就可以无脑操作了。爬取数据分析之前需要从自如网上爬数据，我用的是Python的Scrapy爬虫框架，但第一遍采集后发现房间数量要比自如网上能查到的数量少，找了下原因发现是自如的...

2018-11-27

881

Docker是啥？打开翻译君输入Docker 结果显示码头工人，没错！码头工人搬运的是集装箱，那么今天要讲的Docker其操作的也是集装箱，这个集装箱就静态而言就是一个应用镜像文件，就动态而言，就是一个容器。蒙了吧？好吧，上图解释。 Docker从狭义上来讲就是一个进程，从广义上来讲是一个虚拟容器，其实更专业的叫法是应用容器（ Application Container ），Docker进程和普通的进程没有任何区别，它就是一个普通的应用进程。不过是用来操作镜像文件的。所以Docker进程+构建的应用镜像文件就等于Docker容器。本文所有讲的Docker都是指Docker容器哦。再继续下文之前我们首先要明确几个docker重要的基本概念吧，镜像，容器，仓库。镜像Docker images，就类似于VM虚拟机里面的快照，但是可比快照轻量化多了。快照不懂？那可以把images直接理解成一个文件夹。我们可以通过ID或者易识别的名字+tag来确认唯一的目标镜像。ImagesID是一个64位的字符，但是一般我们都是使用前面12位就足够区别了。如图中左边红框中redis: lates和右边...

2018-11-28

914

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。