首页 文章 精选 留言 我的

精选列表

搜索[环境],共10000篇文章
优秀的个人博客,低调大师

Apache Flink 运维&实战系列直播,揭秘生产环境技术难点

Apache Flink 是公认的新一代开源大数据计算引擎,其流水线运行系统既可以执行批处理程序也可以执行流处理程序。目前,Flink 已成为 Apache 基金会和 GitHub 社区最为活跃的项目之一。 随着 Flink 社区的快速发展,其技术也逐渐走向成熟。在 2019 年,国内已经有大量的本土互联网公司开始采用 Apache Flink 作为主流的实时计算解决方案。同时,在全球范围内,优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用 Apache Flink。 为了让大家更方便上手使用 Flink,Flink 中文社区邀请 Apache Flink 核心贡献者与国内外一线大厂线上直播分享 Flink 技术原理解析、应用上手实操、最佳实践应用等,揭秘 Flink 从基础、进阶到运维&实战等详细细节,助力社区开发者从小白成长为技术专家! 直播观看方式: 钉钉扫描下方二维码或搜索:23138101,即可加入Apache Flink社区大群,每周二或周四锁定群直播! 3.1 Flink 反压/延时监控和调参控制 【分享嘉宾】Rong Rong(Apache Flink Committer,Software Engineer at Uber) 视频回放 3.2 Metric 指标、监控、报警 【分享嘉宾】孙梦瑶(美团点评 研发工程师)视频回放 3.3 如何利用 Flink 和深度学习模型实现垃圾图片分类 【分享嘉宾】陈戊超(阿里巴巴 技术专家)视频回放 3.4 Flink CEP 实战 【分享嘉宾】刘博(哈啰出行 大数据实时平台资深开发)视频回放 文章整理 3.5 Flink 实时数仓的应用 【分享嘉宾】黄伟伦(美团点评 数据系统研发工程师)视频回放 3.6 State Processor API 介绍与演示 【分享嘉宾】戴资力(Apache Flink PMC)视频回放 3.7 Flink 常见问题诊断 【分享嘉宾】杨阳(阿里巴巴 高级运维工程师)视频回放 3.8 大规模场景的高阶运维 【分享嘉宾】王华(阿里巴巴 运维专家)视频回放 3.9 Flink 作业问题分析和调优实践 【分享嘉宾】李康(虎牙 实时平台负责人)视频回放 3.10 Flink 生产配置最佳实践 【分享嘉宾】席建刚(趣头条 实时平台负责人)视频回放 3.11 基于 Apache Flink 的监控告警系统 【分享嘉宾】zhisheng(《Flink 实战与性能优化》专栏作者)视频回放 3.12 30分钟教你如何入门 – Apache Flink 最全知识图谱详解 【分享嘉宾】程鹤群(军长)(Apache Flink Committer,阿里巴巴技术专家)视频回放 3.13 【1.10特别篇】Demo: 基于 Flink SQL 构建离线应用 【分享嘉宾】李劲松(之信)(Apache Flink Committer,阿里巴巴技术专家)视频回放 3.14 【1.10特别篇】Demo: 基于 Flink SQL 构建实时应用 【分享嘉宾】伍翀(云邪)(Apache Flink PMC,阿里巴巴技术专家)视频回放 3.15 【1.10特别篇】Flink on Zeppelin: 极致体验(1) 入门 + Batch 【分享嘉宾】章剑锋(Apache Zeppelin PMC,阿里巴巴高级技术专家)视频回放 3.16 【实时数仓篇】基于 Flink 的典型 ETL 场景实现 【分享嘉宾】买蓉(美团点评 高级技术专家)视频回放 3.17 【1.10特别篇】Flink on Zeppelin: 极致体验(2) Streaming + 高级用法 【分享嘉宾】章剑锋(Apache Zeppelin PMC,阿里巴巴高级技术专家) 视频回放 3.18 【1.10特别篇】Alink 入门到实践 【分享嘉宾】杨旭(阿里巴巴资深算法专家)直播:3月5日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.19 【实时数仓篇】利用 Flink 实现实时超时统计场景 【分享嘉宾】马汶园(菜鸟 数据工程师)直播:3月10日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.20 【实时数仓篇】利用 Flink 实现实时状态复用场景 【分享嘉宾】李晨(菜鸟 数据工程师)直播:3月12日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.21 【1.10特别篇】PyFlink 架构、应用案例及未来规划 【分享嘉宾】孙金城(Apache Flink PMC,Apache Beam Committer,阿里巴巴高级技术专家)直播:3月17日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.22 【实时数仓篇】Flink CEP 及 应用场景 【分享嘉宾】薛康(滴滴 资深研发工程师)直播:3月19日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.23 【实时数仓篇】Flink 窗口函数的应用场景 【分享嘉宾】张俊(Apache Flink Contributor,OPPO大数据平台研发负责人)直播:3月26日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.24 【1.10特别篇】细粒度资源管理 【分享嘉宾】宋辛童(Apache Flink Contributor,阿里巴巴高级开发工程师)直播:3月31日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.25 【1.10特别篇】native on Kubernetes 【分享嘉宾】王阳(阿里巴巴实时计算引擎团队研发专家)直播:4月2日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新 3.26 【直播主题】PyFlink 最新功能介绍 【分享嘉宾】程鹤群(军长)(Apache Flink Committer,阿里巴巴技术专家)直播:4月16日 20:00-21:00 (UTC+8)备注:视频、PPT待直播后更新

优秀的个人博客,低调大师

容器服务Kubernetes(ACK)及相关云环境几次故障和问题排查记录

1. 镜像仓库被设置为公有,导致镜像泄露风险: 错误现象: 公有镜像仓库可能会被云上其它用户拉取,导致泄露镜像安全风险;部分运维或者开发同学,因为没有设置准确的 secret 到 Deployment,为了解决无法拉取镜像问题,直接开放镜像仓库为公有。 解决方法: 镜像仓库的命名空间一定要设置为私有,准确设置绑定云效中docker 镜像账号,通过云效发布应用; 严格设定容器镜像仓库的维护权限; 2. 镜像拉取失败: 错误现象: ## 查看 pod 部署日志 kubectl logs {pod} ## 错误信息 Failed to pull image "registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}:20190823150817": rpc error: code = Unknown desc = Error response from daemon: pull access denied for registry-vpc.{region_id}.aliyuncs.com/{app_name}-daily/{app_name}, repository does not exist or may require 'docker login' 错误原因: 当前 tag 的镜像不存在、镜像地址错误、镜像网络不通,没法访问; 解决方法: 只需修改正确地址或者打通网络即可; Deployment 或者 Statefulset 的imagePullSecrets 没有设置或者设置错误 解决方法: 控制台或者使用命令建立保密字典,然后使用 imagePullSecrets 引入,或者自己建立 Secret: ## deplyment yaml 设置: imagePullSecrets: - name: acr-credential-be5ac8be6a88c42ac1d831b85135a585 3. SLB被容器服务清除,导致故障,需要重建和安全配置: 错误现象: 与容器服务关联配置的负载均衡(SLB)被清除; 错误原因: 因为有状态副本或者 Deployment集部署删除,存在级联删除 Service 情况,开发和运维人员使用重建方式修改自己配置的时候,导致 service 级联相应 SLB 被删除,导致故障,需要紧急重建 SLB 并多方增加访问控制等配置。 Service 配置任意修改或者删除,比如将 SLB 模式修改为 NodePort 或者 Cluster 模式,导致 SLB 负载均衡配置被清除。 解决与防止方法: kubernetes 使用 NodePort,再通过手动建立负载均衡(SLB)与 NodePort 关联,解耦 Service 与 SLB 级联关系。 使用 Ingress 暴露服务,Service 使用虚拟集群 IP,与 Ingress 关联。 使用此种方式需要注意 SLB 到后端服务的负载均衡,具体参考负载均衡 中负载均衡请求部分。 4. ECS 添加到集群失败: 错误现象: 集群增加已有节点或者扩容失败。 错误日志例如下: 2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Wait k8s node i-9dpfd2n6ijvdd5tb642r join cluster timeout 2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to check instance i-9dpfd2n6ijvdd5tb642r healthy : Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout 2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to init instance i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout 2019-07-31 19:44:59cf7c629dbf1dc4088a5a6b316fa5e561a | Failed to attach node i-9dpfd2n6ijvdd5tb642r, err Wait for cn-north-2-gov-1.i-9dpfd2n6ijvdd5tb642r join to cluster cf7c629dbf1dc4088a5a6b316fa5e561a timeout 错误原因: 单个集群内节点数量配额达到阈值,导致 ECS 几点没法加入; 虚拟网络 VPC中路由表的路由条目达到阈值,导致新增节点没法添加路由条目; kubernetes apiserver 的 SLB 负载均衡设置有访问控制,导致添加的 ECS 没法访问 ApiServer; 添加的 ECS 节点自身安全组限制或者底层网络故障,导致没法访问 apiserver; 解决方法: 联系阿里云同学增加集群或者路由表阈值; 配置 SLB 访问控制,增加白名单; 配置安全组,增加白名单,或者重建 ECS,释放故障 ECS; 5. 集群中,个别 POD 网络访问不通: 错误现象: 个别应用产生一定比例的访问超时错误报告,经过监控系统 sunfire 配置发现特定的A 应用 pod 与另外一个应用B pod 网络不通; 网络测试: A pod 访问不通 B pod; B pod 能访问通 A pod; A pod 宿主机 ECS 能访问通 B pod宿主机 ECS; B pod 宿主机 ECS 能访问通 A pod宿主机 ECS; A pod 访问通 B pod宿主机 ECS; B pod 访问通 A pod宿主机 ECS; 抓包并与阿里云同学网络排查发现, 云上 VPC 的 NC 网络控制模块没有正确下发路由信息,导致网络故障。 解决方法: 联系阿里云 vpc 同学,排查 vpc 中 NC 路由下发问题。 6. 部分 ECS 网络故障,Master 访问Node 的 kube-proxy 端口访问不通: 错误现象: 新添加一批 ECS 节点,个别 ECS 总是添加失败,报告超时,排除 SLB 访问控制等原因; 监控 kubelet-TelnetStatus.Value 报警; 【阿里云监控】应用分组-k8s-cbf861623f10144c488813375a8a0d489-worker-1个实例发生报警, 触发规则:kubelet-TelnetStatus.Value 14:16 可用性监控[kubelet dingtalk-a-prod-node-X06/172.16.6.9] ,状态码(631>400 ),持续时间1天3分钟 错误原因: 经过观察和多次测试,失败的 ECS 网络很不稳定,经常网络不通;该故障排查错层较长,一直没怀疑机器问题;ECS 宿主机基础设施有问题,排除释放此宿主机上的 ECS。 解决方法: 新建 ECS, 释放故障 ECS,重新加入 kubernetes 集群。

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册