容器服务 kubernetes（ACK）中应用优雅上下线

2019-10-09 713

1. 概述

kubernetes滚动升级的过程：
1. 集群Deployment 或者 Statefulset 发生变化，触发部署滚动升级；
2. 根据 Deolyement 等配置，K8S集群首先启动新的POD来替代老 POD；
3. Deployemnt 根据配置调度 POD,拉取镜像，此时 POD 进入 Pending 状态；
4. POD 绑定到Node上，启动容器，在就绪检查readinessProbe 探针通过后，新的POD进入Ready状态；
5. K8S集群创建Endpoint，将新的POD纳入Service 的负载均衡；
6. K8S集群移除与老POD相关的Endpoint，并且将老POD状态设置为Terminating，此时将不会有新的请求到达老POD，同时调用PreStop Hook执行配置的脚本；
7. K8S集群会给老POD发送SIGTERM信号，并且等待 terminationGracePeriodSeconds 这么长的时间。(默认为30秒，可以根据优雅下线服务需要消耗时间调整)
8. 超过terminationGracePeriodSeconds等待时间后， K8S集群会强制结束老POD，在这个时间段内要将老 POD 资源释放掉，否则可能残留无用资源被占用。

从以上过程可以看到，如果在terminationGracePeriodSeconds 没有及时释放服务注册等资源信息，Service 负载均衡的健康检查又没有检查到老 POD服务已经挂掉，导致请求分发到这些 POD 上，从而触发一系列的请求错误，因而需要配置优雅下线脚本，在terminationGracePeriodSeconds 时间段内执行完毕。

2.优雅启动

kubernetes 集群提供了探针，类似健康检查，只有该请求通过，新的 POD 才能进入 Ready 状态，kubernetes集群才会将新的 POD 纳入 Service 的负载均衡。
因而如果该应用(POD)仅仅提供 service 配置的服务，不需要配置探针，就可以优雅启动，但是实际 POD 往往还有 HSF,LWP，Dubbo等注册于配置服务其实现负载均衡的服务，所以需要确保这些服务都已经启动，所以需要配置相应的探针。
同时，任何一个服务可能在运行中因为某种原因不稳定，导致服务中断，这个时候还需要配置livenessProbe探针，确保服务出故障时及时止损。
我们的应用主要有HSF,LWP 和 Https 服务，对于三种服务都有的应用，要求应用提供健康检查的接口，能即时检查三种服务都正常与否，然后做以下配置：

livenessProbe:
  failureThreshold: 3
  initialDelaySeconds: 30
  periodSeconds: 30
  successThreshold: 1
  tcpSocket:
    port: 5084
  timeoutSeconds: 1
readinessProbe:
  failureThreshold: 3
  initialDelaySeconds: 30
  periodSeconds: 30
  successThreshold: 1
  tcpSocket:
    port: 5084
  timeoutSeconds: 1
restartPolicy: Always

readinessProbe配置表示只有5804端口请求正常返回，pod 才会进入 ready 状态，确保各种服务 ok 。
livenessProbe 表示每10s 探一下5804端口，如果返回失败，达到阈值后，pod 会重启，对于服务出问题的 POD 及时止损。
注意：readinessProbe探针的探测频率和延时时间，不健康阈值等数据要合理，部分应用启动时间本身较长，如果设置的时间过短，会导致 POD 反复无效重启。

3. 优雅下线：

我们的应用云上主要有 HSF,LWP 和 Https 服务，在 pod prestop里设置执行摘除服务注册信息脚本，来完成优雅下线。
https 服务基于 kubernetes 服务 Service 来实现服务暴露，在老 POD 状态设置为Terminating后，就不会有请求达到，因而已经优雅下线；
lwp 服务，通过注册 vipserver 来提供负载均衡，需要在下线前先摘除该服务注册，防止老POD 下线后还有请求达到老 POD；
HSF 服务通过注册 configserver 来提供负载均衡，需要在下线前先摘除该服务注册，防止老POD 下线后还有请求达到老 POD。
yaml：

lifecycle:
  preStop:
    exec:
      command:
        - sudo
        - '-u'
        - admin
        - /home/admin/shutdown.sh
        - {app_name}

preStop在 pod 终止之前，执行脚本 appctl.sh {app_name} stop。
终止 HSF 与 LWP 脚本：

#!/bin/bash

APP_NAME=$1

## HEALTH_URL="http://localhost:7002/health"

offline() {
    echo "INFO: ${APP_NAME} try to offline..."
    offline_lwp
    offline_hsf
    echo "INFO: ${APP_NAME} offline success"
    return $?
}

offline_lwp() {
    echo "offline lwp"
        times=3
        for e in $(seq 3); do
            curl -s --connect-timeout 3 --max-time 5 ${offline_lwp_url}${APP_NAME} -o /dev/null
            sleep 1
        done
}

offline_hsf() {
   check_hsf=`(/usr/sbin/ss -ln4 sport = :12200; /usr/sbin/ss -ln6 sport = :12200) | grep -c ":12200"`
    check_pandora=`(/usr/sbin/ss -ln4 sport = :12201; /usr/sbin/ss -ln6 sport = :12201) | grep -c ":12201"`
    echo "try to offline hsf..."
    if [ $check_hsf -ne 0 -a $check_pandora -ne 0 ]; then
        echo "start to offline hsf...."
        ret_str=`curl --max-time ${HSF_ONLINE_TIMEOUT} -s "http://localhost:12201/hsf/offline?k=hsf" 2>&1`
        if echo "$ret_str" | grep "server is unregistered on cs(dr)" &>/dev/null; then
            echo "hsf offline success."
            return 0
        else
            echo "hsf offline failed."
            exit 9 # hsf offline failed
        fi
    else
        if [ $check_hsf -eq 0 ]; then
            echo "WARN: port 12200 cannot be detected."
        fi
        if [ $check_pandora -eq 0 ]; then
            echo "WARN: port 12201 cannot be detected."
        fi
        echo "WARN: hsf offline failed."
        # DO NOT exit here
    fi
}


echo "[stop 1] before call offline hsf,lwp ..."

微信关注我们

原文链接：https://yq.aliyun.com/articles/720349

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

容器服务kubernetes(ACK)基础镜像制作记录

1.概述容器服务云上环境与弹内差别较大，很多弹内支持默认埋点的 agent 在云上没法使用，同时需要预先部署一些云上环境需要的 agent, 因而云上的基础镜像跟弹内差异较大，需要从centos基础镜像开始配置环境。容器镜像服务在云上，当云效部署时，需要从镜像服务拉取基础镜像建立镜像，因而需要将基础镜像 push 到镜像服务仓库中。为了方便镜像 push 到镜像仓库，因而采用一个跳板机制作镜像，并上传到镜像仓库的方式来加快镜像制作和上传。最终执行环境：本地办公电脑执行打包脚本命令；跳板机打包镜像；跳板机镜像上传到镜像仓库。 2. 镜像制作：主要步骤有：跳板机环境安装 Docker；上传镜像中需要的第三方包和基础软件安装包上传到跳板机，比如 jdk, agent等；编写本地执行脚本，执行镜像打包，并 push 镜像到仓库； ## 2.1 镜像打包跳板机环境配置：安装 docker: 1、检查内核版本，必须是3.10及以上 uname -r 注：如果版本低于3.10，使用 yum update 升级 2、安装docker yum install doc...

2019-10-10

782

1. 前言 aliyun ram 权限系统功能强大，大部分云产品实现了极其细粒度的权限控制，但是在默认的管理管理中，往往只有读写2种权限，对产品具体设置分细粒度和访问控制权限可以实现根据应用分配不同产品的权限。应用设置与云资源以及人员的关系，对于已经上云的资源，按照应用所使用的云资源以及人员在应用的角色(owner,PE，Developer，reporter)，配置相应权限；没有上云的产品，比如 vipserer,sunfire 等，先改造实现 aliyun ram 权限控制，然后配置权限。 2. ECS,SLB等云资源权限控制： ecs,slb,vpc 等资源，可以按照通用的 ram 配置方式配置相应读写权限，具体参考：云服务器(ECS): 点击链接负载均衡(SLB)：点击链接云数据库(RDS): 点击链接日志服务(SLS): 点击链接云监控：点击链接注：云监控目前不支持细粒度资源描述，资源授权用“*”通配。范例： { "Version": "1", "Statement": [ { "Action": [ "ecs: AddTags", "ecs:Des...

2019-10-10

962

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。