一例容器服务kubernetes集群节点异常问题的解决

2020-03-31 705

结论

上来先发结论，方面出现同样问题的同学解决问题：

问题表现：

新创建的ACK托管版集群节点上被加了污点( node.kubernetes.io/network-unavailable: Effect: NoSchedule )

问题原因：

VPC中每个路由表中可保有的自定义路由条目数量(vpc_quota_route_entrys_num)超过配额限制，被ACK监测到从而给部分集群节点添加了污点标记

解决方法：

1.申请增加vpc_quota_route_entrys_num

2.手动删除对应节点的路由让ccm自动更新（推荐）或移除节点重新加入

问题解决感受：

1.阿里云容器服务kubernetes版本一直在不断地迭代，发展的越来越好，尤其是托管版，对于没有kubernetes专业人才甚至连专业运维人员都确认的企业非常方便适用；当然，阿里云容器服务kubernetes并不完美，还是有一些小问题的。
2.阿里云的支持人员非常敬业，晚上快11点了，还在帮忙排查和解决问题。点个赞。

问题发现和处理过程

下面是问题发现和处理过程，有兴趣或者需要了解详情的同学可以参考下：

近期，因业务需要，在测试环境新搭建了几个阿里云容器服务kubernetes托管版。
原本的#搭建过程非常顺利。在原有VPC网络中新建交换机、配置SNAT路由、创建新集群、指定了Pod网络CIDR和Service CIDR、指定使用新的ECS、配置日志服务等，点击创建集群，过个10来分钟，集群就创建好了。
然后取KubeConfig配置在发布系统中开始发布业务应用。
发布了几个应用之后，问题开始显露出来了。这个测试集群虽然只有几个节点，但也没道理应用一直都只往一个节点上部署啊。

仔细一检查，发现其他几个节点上都有污点。
再仔细一看，发现是创建集群时添加路由失败了。

然后去VPC控制台下检查路由，发现路由是存在的。
跟ACK支持同学确认，怀疑是创建时路由配额满了，导致ACK给节点标记了污点。
至于为啥路由是存在的，我怀疑是ACK有特殊权限，虽然路由满了，但是依然可以成功添加路由；同时，ACK仍然记录了此处路由数的限制问题,而在节点上标记了污点(纯粹合理猜想，因为复现成本较高，所以没有继续排查这方面的原因了)。
找到原因，就可以开始解决了。
首先，在配额管理中申请增加配额。
配额增加后，再查看路由表，没发现变化；查看节点详情，也没有变化，污点依然在，依然没有应用可以调度过去。
那么，试试手动去掉污点应该可以吧。

命令是执行成功了，但不管是describe node还是阿里云控制台上，污点依然在。
试了试调度，这时候有应用可以调度上去了。
好吧，看来是有些地方不太一致啊！
这时候，ACK支持的同学说，可以后台重启下ccm(cloud-controller-manager)，ccm会自动检查路由表并更新状态。
那么，我们就重启下吧。
重启之后，发现节点上的污点标记依然在。
这时候，我试了试把节点从集群中移除然后重新加入，发现污点没有了，节点状态完全正常了。
不过，移除节点再加入的方式比较重，集群处理起来也很慢。
这时候，ACK支持的同学建议把路由手动删除来触发CCM自动更新。
我们手动删除了路由，然后刷新路由表，发现路由很快被加回来了。
然后去查看节点详情，发现节点上的污点已经去掉了；
再调度下业务应用，发现业务应用可以正常调度上去了。
到此，问题解决。

微信关注我们

原文链接：https://yq.aliyun.com/articles/752697

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Novel 1.4.1 发布，修复 bug，新增七牛云存储

Novel v1.4.1 已发布，更新日志：添加代码规范配置eslint 添加七牛云文件存储实现修复界面热更新界面白屏问题修复打包时uglifyjs-webpack-plugin插件对es6代码报错问题更新fastjson到1.2.68，安全加固更新springboot到2.2.6 其他优化 Novel 简介一直想做一款后台管理系统，看了很多优秀的开源项目，从中发现了若依开源框架，从她出现以来就一直关注，但发现其中的功能太过强大，部分功能也不太适合自己，并且自己也一直想要动手学习一下若依的强大之处，便有了自己现在的novel。它可以用于所有的Web应用程序，如网站管理后台，网站会员中心，CMS，CRM，OA等等，当然，您也可以对她进行深度定制，以做出更强系统。所有前端后台代码封装过后十分精简易上手，出错概率低。同时支持移动客户端访问。系统会陆续更新一些实用功能。在线体验后端项目地址：Novel-api 前端项目地址：Novel-vue 演示地址：http://cnovel.club 演示图用户管理：用户是系统操作者，该功能主要完成系统用户配置。部门管理：配置系统...

2020-04-01

687

来源：cnblogs.com/littlecharacter/p/9342129.html 一、数据库瓶颈不管是IO瓶颈，还是CPU瓶颈，最终都会导致数据库的活跃连接数增加，进而逼近甚至达到数据库可承载活跃连接数的阈值。在业务Service来看就是，可用数据库连接少甚至无连接可用。接下来就可以想象了吧（并发量、吞吐量、崩溃）。 1、IO瓶颈第一种：磁盘读IO瓶颈，热点数据太多，数据库缓存放不下，每次查询时会产生大量的IO，降低查询速度 -> 分库和垂直分表。第二种：网络IO瓶颈，请求的数据太多，网络带宽不够 -> 分库。 2、CPU瓶颈第一种：SQL问题，如SQL中包含join，group by，order by，非索引字段条件查询等，增加CPU运算的操作 -> SQL优化，建立合适的索引，在业务Service层进行业

2020-04-01

622

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。