2021年 Istio 大型“入坑”指南
【百度云原生导读】2021年伊始,如果你打算在生产环境中落地 Service Mesh,那么 Istio 必定在你的考虑范围之内。作为目前最流行的 Service Mesh 技术之一,Istio 拥有活跃的社区和众多的落地案例。但如果你想在生产环境大规模落地 Isito,这看似壮观美好的冰山下,却是暗流涌动,潜藏着无数凶险。
本文是笔者深度参与百度百亿量级流量生产环境研发和落地 Istio 两年来的经验总结和一些思考,旨在让正在考虑在自己生产环境引入 Isito 的读者能有所参考和启发,做好更充足的储备,更轻松的“入坑” Istio。
1、使用 Istio 无法做到完全对应用透明
服务通信和治理相关的功能迁移到 Sidecar 进程中之后, 应用中的 SDK 通常需要作出一些对应的改变。
SDK 需要关闭一些功能,例如重试。一个典型的场景是,SDK 重试 m 次,Sidecar 重试 n 次,这会导致 m * n 的重试风暴,从而引发风险。
此外,诸如 trace header 的透传,也需要 SDK 进行升级改造。如果你的 SDK 中还有其它特殊逻辑和功能,这些可能都需要小心处理才能和 Isito Sidecar 完美配合。
2、Istio 对非 K8S 环境的支持有限
在业务迁移至 Istio 的同时,可能并没有同步迁移至 K8S,而是仍然运行在原有 PaaS 系统之上。
这会带来一系列挑战:
-
原有 PaaS 可能没有容器网络,Istio 的服务发现和流量劫持都可能要根据旧有基础设施进行适配才能正常工作
-
如果旧有的 PaaS 单个实例不能很好的管理多个容器(类比 K8S 的 Pod 和 Container 概念),大量 Istio Sidecar 的部署和运维将是一个很大的挑战
-
缺少 K8S webhook 机制,Sidecar 的注入也可能变得不那么透明,而需要耦合在业务的部署逻辑中
3、只有 HTTP 协议是一等公民
Istio 原生对 HTTP 协议提供了完善的全功能支持,但在真实的业务场景中,私有化协议却非常普遍,而 Istio 却并未提供原生支持。
这导致使用私有协议的一些服务可能只能被迫使用 TCP 协议来进行基本的请求路由,这会导致很多功能的缺失,这其中包括 Istio 非常强大的基于内容的消息路由,如基于 header、 path 等进行权重路由。
4、扩展 Istio 的成本并不低
虽然 Istio 的总体架构是基于高度可扩展而设计,但由于整个 Istio 系统较为复杂,所以如果你实际对 Istio 进行过扩展,就会发现成本并不低。
以扩展 Istio 支持某一种私有协议为例,首先你需要在 Istio 的 api 代码库中进行协议扩展,其次你需要修改 Istio 代码库来实现新的协议处理和下发,接着你还需要修改 xds 代码库的协议,最后你还要在 Envoy 中实现相应的 Filter 来完成协议的解析和路由等功能。
在这个过程中,你还可能面临上述数个复杂代码库的编译等工程挑战(如果你的研发环境不能很好的使用 Docker 或者无法访问部分国外网络的情况下)。
即使做完了所有的这些工作,也可能面临这些工作无法合并回社区的情况,社区对私有协议的扩展支持度不高,这会导致你的代码和社区割裂,为后续的升级更新带来隐患。
5、Istio 在集群规模较大时的性能问题
Istio 默认的工作模式下,每个 Sidecar 都会收到全集群所有服务的信息。如果你部署过 Istio 官方的 Bookinfo 示例应用,并使用 Envoy 的 config dump 接口进行观察,你会发现,仅仅几个服务,Envoy 所收到的配置信息就有将近 20w 行。
可以想象,在稍大一些的集群规模,Envoy 的内存开销、Istio 的 CPU 开销、XDS 的下发时效性等问题,一定会变得尤为突出。
Istio 这么做一是考虑这样可以开箱即用,用户不用进行过多的配置,另外在一些场景,可能也无法梳理出准确的服务之间的调用关系,因此直接给每个 Sidecar 下发了全量的服务配置,即使这个 Sidecar 只会访问其中很小一部分服务。
当然这个问题也有解法,如果你的生产环境中,能梳理出这些调用关系,你可以通过 Sidecar CRD 来显示定义服务调用关系,使 Envoy 只得到他需要的服务信息,从而大幅降低 Envoy 的资源开销。
6、XDS 分发没有分级发布机制
当你对一个服务的策略配置进行变更的时候,XDS 不具备分级发布的能力,所有访问这个服务的 Envoy 都会立即收到变更后的最新配置。这在一些对变更敏感的严苛生产环境,可能是有很高风险甚至不被允许的。
如果你的生产环境严格要求任何变更都必须有分级发布流程,那你可能需要考虑自己实现一套这样的机制。
7、Istio 组件故障时是否有退路?
以 Istio 为代表的 Sidecar 架构的特殊性在于,Sidecar 直接承接了业务流量,而不像一些其他的基础设施那样,只是整个系统的旁路组件(比如 K8S)。
因此在 Isito 落地初期,你必须考虑,如果 Sidecar 进程挂掉,服务怎么办?是否有退路?是否能 fallback 到直连模式?
在 Istio 落地过程中,是否能无损 fallback,通常决定了核心业务能否接入 Service Mesh。
8、Istio 技术架构的成熟度还没有达到预期
虽然 Istio 1.0 版本已经发布很久了,但是如果你关注社区每个版本的迭代,就会发现,Istio 目前架构依然处于不太稳定的状态,尤其是 1.5 版本前后的几个大版本,先后经历了去除 Mixer 组件、合并为单体架构、仅支持高版本 K8S 等等重大变动,这对于已经在生产环境中使用了 Istio 的用户非常不友好,因为升级会面临各种不兼容性问题。
好在社区也已经意识到这一问题,2021 年社区也成立了专门的小组,重点改善 Istio 的兼容性和用户体验。
9、Istio 缺乏成熟的产品生态
Istio 作为一套技术方案,却并不是一套产品方案。
如果你在生产环境中使用,你可能还需要解决可视化界面、权限和账号系统对接、结合公司已有技术组件和产品生态等问题,仅仅通过命令行来使用,可能并不能满足你的组织对权限、审计、易用性的要求。
而 Isito 自带的 Kiali 功能还十分简陋,远远没有达到能在生产环境使用的程度,因此你可能需要研发基于 Isito 的上层产品。
10、Istio 目前解决的问题域还很有限
Istio 目前主要解决的是分布式系统之间服务调用的问题,但还有一些分布式系统的复杂语义和功能并未纳入到 Istio 的 Sidecar 运行时之中,比如消息发布和订阅、状态管理、资源绑定等等。
云原生应用将会朝着多 Sidecar 运行时或将更多分布式能力纳入单 Sidecar 运行时的方向继续发展,以使服务本身变得更为轻量,让应用和基础架构彻底解耦。
如果你的生产环境中,业务系统对接了非常多和复杂的分布式系系统中间件,Istio 目前可能并不能完全解决你的应用的云原生化诉求。
写在最后
看到这里,你是否感到有些沮丧,而对 Istio 失去信心?
上面列举的这些问题,实际上并不影响 Istio 依然是目前最为流行和成功的 Service Mesh 技术选型之一。Istio 频繁的变动,一定程度上也说明它拥有一个活跃的社区,我们应当对一个新的事物抱以信心,Istio 的社区也在不断听取来自终端用户的声音,朝着更合理的方向演进。
同时,如果你的生产环境中的服务规模并不是很大,服务已经托管于 K8S 之上,也只使用那些 Istio 原生提供的能力,那么 Istio 依然是一个值得尝试的开箱即用方案。
但如果你的生产环境比较复杂,技术债务较重,专有功能和策略需求较多,亦或者服务规模庞大,那么在开始使用 Istio 之前,你需要仔细权衡上述这些要素,以评估在你的系统之中引入 Istio 可能带来的复杂度和潜在成本。
百度云原生团队在2021年将持续为大家带来 Service Mesh 系列文章,内容涵盖 Istio 入门体验、Istio 和 Envoy 源码深度解析、服务网格大规模落地经验、服务网格性能优化等,敬请持续关注。
关于百度智能云云原生平台
百度智能云云原生平台,为客户建设容器化和无服务器化的基础设施,提供企业级的微服务治理能力,同时集成源自百度自身多年实践的 DevOps 工具链。能够保障开发者享受到高效、灵活、弹性的开发与运维体验,助力企业更高效率低风险地构建云原生应用,广泛应用于金融、互联网、制造等各行各业的云原生转型阶段。
其中天合 Stack 是私有化云原生技术中台,包含基于 Kubernetes 的容器云平台、基于 Istio 和 SpringCloud 架构的微服务平台和自研函数计算服务三部分,每部分均可独立提供服务。
点击https://cloud.baidu.com/product/cnap.html,查看百度云原生平台详情。
相关阅读:
重磅!云原生计算交流群成立
扫码添加小助手即可申请加入,一定要备注:名字-公司/学校-地区,根据格式备注,才能通过且邀请进群。。
了解更多微服务、云原生技术的相关信息,请关注我们的微信公众号【云原生计算】!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
DCache 分布式存储系统|安装部署与应用创建
随着微服务与云的发展,分布式架构的需求变得越来越普遍,Web 上的数据类型不再单一,数据量呈爆发式增长。传统的 SQL 结构化存储方案已经跟不上脚步, NoSQL 便出现了。DCache 作为基于 TARS 的分布式 NoSQL 缓存系统,完美支持 TARS 服务,能够方便地在 TARS 服务中使用,本系列文章将着重介绍 DCache 的安装与使用。那么如何拥有这套系统呢?本文将对 DCache 的安装和应用创建方式进行介绍。 简介 SQL 与 NoSQL DCache 安装 DCache 环境依赖 编译构建 部署 创建 DCache 应用 总结 随着移动互联网和云的发展,用户量不断增长,业务访问量与日俱增,光靠资源的扩容已经无法解决所有的问题。特别是像电商平台、音视频点播等,存在大规模的数据访问,对查询效率要求很高,传统的数据库磁盘 IO 已经很难满足。 为了解决这一问题,NoSQL 数据库诞生了,它通过将数据缓存到内存中,使用时直接从内存中调用,大大减少磁盘 IO 的开销,提升查询效率,与分布式结合还能够实现海量数据的处理。这个NoSQL,具体 No 在哪呢? SQL 与 NoSQ...
-
下一篇
半年招聘筛选了400+份简历,告诉你怎么写容易被撩!
持续坚持原创输出,点击蓝字关注我吧 作者:小傅哥博客:https://bugstack.cn ❝ 沉淀、分享、成长,让自己和他人都能有所收获!😜 ❞ 目录 一、前言 二、不同阶段的面试侧重点? 三、不同阶段的简历怎么写? 1. 实习生 2. 应届生 3. 工作1~3年 4. 工作5年以上 四、模版📚下载 1. 下载指引 2. 使用说明 五、🎉总结 六、系列推荐 一、前言 什么样的简历容易被撩? 20年近6个月,看过400份+简历,筛选出不到100份能面试的! 在这些简历中有各式各样的秀,也有真大牛。优秀的简历让人立刻就想约起来面基,秀的简历就只能先放一放。 秀的简历有多秀? 错字、造假、技术跟不上工作年限,这些都是一般的。但工作5年就写了一页简历的算秀不,你觉得写一页的少?那你见过一份简历写了40~50页的吗,像流水账一样,根本没法看。 其实简历可以说是一种包装手段,虽不鼓励过分包装,但最起码要有完整的个人信息、明确的工作履历以及清晰的项目经验。否则你怎么让面试官相中你,以及和你聊下去呢? 在这400份+简历的筛选和面试中,我也总结出一些面试小技巧,例如: 研发系列的简历筛选比较...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL数据库在高并发下的优化方案
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- 设置Eclipse缩进为4个空格,增强代码规范
- Docker容器配置,解决镜像无法拉取问题