微服务架构中分布式事务实现方案怎样何取舍-低调大师

微服务架构中分布式事务实现方案怎样何取舍

2020-06-07 675

提起微服务架构，不可避免的两个话题就是服务治理和分布式事务。数据库和业务模块的垂直拆分为我们带来了系统性能、稳定性和开发效率的提升的同时也引入了一些更复杂的问题，例如在数据一致性问题上，我们不再能够依赖数据库的本地事务，对于一系列的跨库写入操作，如何保证其原子性，是微服务架构下不得不面对的问题。

1 分布式事务解决方案

针对分布式系统的特点，基于不同的一致性需求产生了不同的分布式事务解决方案，追求强一致的两阶段提交、追求最终一致性的柔性事务和事务消息等等。各种方案没有绝对的好坏，抛开具体场景我们无法评价，更无法能做出合理选择。在选择分布式事务方案时，需要我们充分了解各种解决方案的原理和设计初衷，再结合实际的业务场景，从而做出科学合理的选择。

2 强一致解决方案

2.1 两阶段提交

两阶段提交算法中有两种角色：事务协调者和事务参与者，一个事务一般会涉及多个事务参与者，具体的两阶段过程如下图所示：

第一阶段：写库操作完成后协调者向所有参与者发送Prepare消息，询问各参与者的本地事务是否可以提交，参与者根据自身情况向协调者返回可以或不可以；

第二阶段：协调者收到所有参与者的反馈后，如果全部返回的是可以提交则向所有参与者发送提交事务命令。只要有一个参与者返回的是不能提交，则向所有参与者发送回滚命令。如下图所示：

图1 两阶段提交

在上述的两阶段模型中，事务提交过程中有可能出现协调者或个别参与者宕机的情况，但多数情况下参与事务的节点可以通过询问其他节点得知事务状态，做出正确的操作。但在极端情况下事务有可能处于未知状态。我们分析下下面这个场景：当协调者发送提交指令后宕机，而唯一收到提交指令的参与者完成提交后也宕机了，此时没有节点知道事务应该提交还是回滚，事务处于未知状态，所以在这种极端情况下可能造成数据的不一致。针对两阶段的缺陷，又提出了三阶段提交协议。

2.2 三阶段提交

三阶段提交是将第二阶段拆分成预提交和确认提交两个阶段。这样在事务提交过程中，无论哪个节点宕机，只要有一个存活节点处于预提交或是提交状态我们都可以确定事务是可以提交的（第一阶段已经确认事务可以提交），反之如果没有处于这两种状态的节点，则回滚事务。

图2 三阶段提交

从上面的分析可以看到，无论是两阶段还是三阶段最后的“提交”都是一个耗时极短的操作，即使在分布式系统中失败的概率也是非常小的，所以我们可以认为两阶段提交基本能够保证分布式事务原子性。

3 落地方案

上面介绍的只是理论基础，XA规范就是基于两阶段提交的理论模型提出的分布式事务规范，规范中的资源管理器相当于事务参与者；事务管理器相当于事务协调者，目前很多主流的关系数据库都实现了XA接口。

落地到实际应用中我们会发现两阶段提交存在的一些问题：

数据库产品要保证数据完成性，写入需要加锁，所以在整个分布式事务协调过程中可能造成数据库资源锁定时间过长，不适合并发高以及子事务生命周期较长的业务场景；
XA规范要求事务管理器本地记录事务执行状态，所以事务管理器作为有状态服务不支持事务异地恢复；

XA能够最大程度保证数据的一致性，但在高并发场景下性能衰减非常严重，所以在数据一致性需求上如果不是“强一致”，不建议使用。

3.1 最终一致性解决方案

在我们大多数的业务场景中，追求的都是数据的最终一致性，业界也提出了很多柔性事务的解决方案，可以很大程度上保证数据的一致性，我们可以根据实际场景来权衡使用。具体的解决方案有很多，总结其设计思路可以分为下面3种模型：

3.1.1 TCC（Try-Confirm-Cancel）

TCC将事务分为Try，Confirm，Cancel三个阶段。

Try阶段：尝试执行业务，预留资源；
Confirm阶段：确认执行业务，使用Try阶段资源；
Cancel阶段：取消执行业务，释放Try阶段预留的资源；

我们用一个转账汇款的业务场景，说明下TCC的具体过程。例如：张三给李四转账100元，一次转账业务由两个本地事务组成：1、张三账户扣减100元；2、李四账户增加100元。

事务成功处理流程如图3：

图3 Try-Confirm事务成功处理流程

事务失败处理流程如图4：

图4 Try-Cancel事务成功处理流程

Try阶段：

1、检查张三账户，满足要求账户扣减100元，记录扣减事件（预留资源）；

2、检查李四账户有效性；

Confirm：

如果Try成功，李四账户增加100元，事务完成；

Cancel：

如果Try失败，张三账户增加100元，删除扣减事件记录（释放预留资源），事务取消。

从性能角度分析，TCC过程没有对资源加锁，对系统并发性能几乎没有影响，只是会有些额外辅助操作。需要注意，在这个模型中要保证数据一致性有两个技术难点需要解决：

需要有类似事务管理器的角色保证TCC过程的完整性；
Confirm和Cancel方法需要保证幂等（由于不可避免的重试操作必须要保证幂等）；

TCC对业务侵入非常大，对RD同学十分不友好，业务改造成本相当高。

3.1.2 SAGA模型

SAGA模型把一个分布式事务拆分为多个本地事务，每个本地事务都有相应的执行模块和补偿模块，当事务中任意一个本地事务出错时，可以通过调用对应的补偿方法恢复之前的事务，从而达到数据的最终的一致性。SAGA的事务管理器负责在事务失败时执行补偿逻辑，可以通过调用执行模块的逆向操作（例如执行子事务时同时生成逆向SQL）或调用业务开发人员提供的补偿方法（需要保证补偿的幂等性）来实现。

可以看到，SAGA虽然对业务造成一定的侵入，但当相对TCC已经有好很多了，而且，事务管理器理论上可以做到向后补偿（撤销所有已完成操作，恢复到事务开始状态）或向前补偿（继续完成未完成事务，使业务请求得到成功处理，更符合业务预期）。

3.1.3 MQ事务消息

MQ事务消息对分布式事务模型进行了简化，重点不再是保证所有子事务的原子性，而是保证本地事务和发送MQ消息的原子性，我们可以利用这一特点，将分布式事务转化成本地事务和若干发送MQ消息的操作，然后要求消费方确保消费成功。利用MQ事务消息，在系统中去掉了TCC和SAGA方案中的事务管理器角色，简化了分布式事务模型，同时这也是对业务侵入最低最友好的方案（不用提供补偿接口）。

当然这里也有两个基本前提：

MQ系统保证消息能不丢失；
消费方确保消费幂等（保证不丢失，就很难避免重复消费）。

需要注意的是，MQ事务消息简化了事务模型、降低了业务侵入，所以对数据一致性的保证保障也就相对比较低了。

总结

柔性事务解决方案中，虽然SAGA和TCC看上去可以保证数据的最终一致性，但分布式系统的成产环境复杂多变，某些情况是可以导致柔性事务机制失效的，所以无论使用那种方案，都需要最终的兜底策略，人工校验，修复数据。

我们综合对比下几种分布式事务解决方案：

一致性保证：XA > TCC = SAGA > 事务消息

业务友好性：XA > 事务消息 > SAGA > TCC

性能损耗：XA > TCC > SAGA = 事务消息

最后，在设计系统时我们一定要结合业务自身的一致性需求，选择恰当的方案。可以看到对数据一致性保障越高的方案其开发成本、维护难度和系统性能损耗就越大，一定不要一味的追求高大上的方案，对系统过度设计。

微信关注我们

原文链接：https://yq.aliyun.com/articles/764253

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

新一代人工智能正在崛起

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！以深度学习为代表的新一代人工智能正在深刻影响着一个国家的国际竞争力和国际产业竞争格局。在全球竞争压力下，我们站在人工智能新时代的悬崖顶端发问：人工智能到底是什么？人工智能如何改变社会？中国的人工智能应该做怎样的探索？在今天的文章中，全国政协委员、自动化所所长徐波将从专业角度解析人工智能，洞察人工智能发展趋势，探索我国人工智能健康发展的正确路径。人工智能模拟、延伸和扩展人类智力。自1956年达特茅斯研讨会上，科学家们设想研发一种拥有与人类相媲美的机器智能，首先提出“人工智能”概念后，这一新兴学科引得无数的科学家为之奋斗，涌现出Wiener、Simon、Hinton等大师级代表性人物。研究者们在寻找答案的过程中导致了深刻的分歧，形成了连接主义、符号主义和行为主义等流派，同时也推动了人工智能与各学科领域的深入融合。人工智能的发展历程绝非一帆风顺，历经几荣几衰后，此轮以深度学习为代表的新一代人工智能的崛起，正在深刻影响一个国家的国际竞争力和国际产业竞争格局。当前，世界主要发达国家纷纷将人工智...

2020-06-08

805

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！在JDK8u的jdk项目下做个很粗略的搜索： mymbp:/Users/me/workspace/jdk8u/jdk/src $ egrep -nr "for \\(\\s?;\\s?;" . | wc -l 369 mymbp:/Users/me/workspace/jdk8u/jdk/src $ egrep -nr "while \\(true" . | wc -l 323 并没有差多少。其次，for (;;) 在Java中的来源。个人看法是喜欢用这种写法的人，追根溯源是受到C语言里的写法的影响。这些人不一定是自己以前写C习惯了这样写，而可能是间接受以前写C的老师、前辈的影响而习惯这样写的。在C语言里，如果不include某些头文件或者自己声明的话，是没有内建的Bool / bool类型，也没有TRUE / FALSE / true / false这些Bool / bool类型值的字面量的。所以，假定没有include那些头文件或者自己define出上述字面量，一个不把循环条件写...

2020-06-08

637

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。