应对云计算中断的6个步骤-低调大师

应对云计算中断的6个步骤

2019-10-08 782

【大咖・来了第7期】10月24日晚8点观看《智能导购对话机器人实践》

企业通常希望公共云为许多应用程序类型提供灵活性、快速可扩展性和可靠性，但公共云并不完美。每个主要云计算提供商都经历过内部系统或存储以及外部资源(如网络连接)的中断。业务中断对任何企业来说都是毁灭性的打击，而云计算中断也可能会影响数百个用户的业务。

所有这些都凸显了公共云计算的普遍现实：用户需要采用灾难恢复计划，就像使用内部部署数据中心一样。制定计划以及在出现云计算中断时采取的措施可以减轻或加剧对企业的影响。人们需要考虑以下六个重要步骤，以平稳度过公共云中断。

步骤1：制定灾难复原策略

应对云计算中断的第一步是创建和实施灾难恢复(DR)计划，并在灾难发生之前很长时间就将其部署到位。尽管云计算提供商提供了大量的服务和资源，但是用户需要为每个工作负载创建、部署、配置和监视这些服务和资源。

实际的灾难恢复策略可能会根据工作负载的需求及其对企业的重要性而发生根本性的变化。日常应用程序可能非常适合常规数据备份和虚拟机快照到辅助位置，例如其他提供程序区域、另一个云计算提供程序甚至本地存储资源。

高级灾难恢复计划可以使用已部署但在另一个区域处于空闲状态的备用实例，并准备在主要实例中断时接管。甚至更全面的灾难恢复策略也可以包括分布式集群，该集群可以在多个云区域或可用性区域中运行重复的工作负载实例。例如，这种策略可以包括使用负载平衡器在多个实例之间分配流量，并在该区域发生云中断时重定向流量。

这些复制工作的极端变化是多云灾难恢复策略，其中工作负载跨两个或多个云平台(例如AWS和Microsoft Azure或Azure和谷歌云)进行冗余操作，以防止云计算中断的可能性。

步骤2：沟通并实现云计算透明

当事情发生变化时，需要了解云中发生了什么。传统上，云计算提供商对服务中断一直不透明，但随着企业将更有价值的工作负载委托给公共云，这种情况正在改变。企业需要更多的云计算透明性，提供商也在改善与用户的通信，提供有关中断性质及其当前状态的更及时的见解。

例如，AWS公共云提供的服务运行状况仪表板显示了所有服务的当前状态，而微软Azure公共云提供了类似的“Azure状态”页面。灾难恢复决策可以取决于企业对灾难及其严重性的理解，提供商对灾难持续时间的估计——所有这些都可以随着云计算透明度的提高而改善。

但是不要停留在那里。业务和用户群取决于受影响的工作负载，因此，将中断的详细信息传达给内部用户或客户也同样重要。通知他们停机、停机对工作负载的影响以及为解决停机而采取的步骤。

步骤3：确定灾难恢复计划的业务价值

确定需要执行什么来实施灾难恢复计划。有些计划是自动的。例如，重要的工作负载通常通过某种类型的集群来保护，即使节点(或实例)发生故障，集群也应继续运行。但是，针对次要工作负载的灾难恢复策略可能需要人为干预或分散步骤，例如恢复和重新启动快照或切换到备份实例。

如果需要人为干预，需要考虑恢复过程中涉及的工作和费用，并确定启动恢复的业务价值。询问恢复工作负载是否会比只是等待云计算提供商解决中断所需的时间更长且成本更高。来自云计算提供商的通信将会显著影响这一决定。

步骤4：实施灾难恢复计划

在许多情况下，关键任务灾难恢复计划可能是完全自动化的，并且管理人员可能无需采取任何有意的操作。例如，即使一个节点在云计算中断期间变得不可用，跨越AWS云计算可用性区域或Azure云区域的集群也可能继续起作用。

但是，不太重要的工作负载可能需要采取有计划的行动。采用准备好的脚本、模板或其他资源，以协调适当的灾难恢复响应。当企业决定启动需要人为干预的灾难恢复计划时，管理员必须立即采取行动。这可能包括在云计算中断期间从快照重新启动或将流量重定向到备用实例。

灾难恢复计划需要定期测试。执行测试演练，以确保适当的过程和资源来推动工作负载恢复。测试还验证相关资源的配置，例如IP地址以及相关的驱动程序和相关性。如果恢复在常规测试中正常运行，则很可能在实际灾难恢复情况下正常运行。

步骤5：监控灾难复原策略

无论实施灾难恢复策略所涉及的工作量或自动化程度如何，验证已恢复的工作负载是否正常运行仍然很重要。管理人员应将以灾难恢复状态运行的工作负载的性能与在正常条件下运行的相同工作负载的性能进行比较。

应用程序监视工具(例如Amazon CloudWatch和Google Stackdriver)着眼于工作负载运行状况。这些工具还收集日志、指标和事件，以中继有关已恢复工作负载的操作数据。此外，他们将在整个云计算中断期间继续监视工作负载的性能和可用性。

步骤6：云计算中断的事后评估

云计算中断对企业来说可能会很痛苦，但不会一直持续下去。当云计算提供商解决其中断并恢复正常的工作负载操作时，组织需要对事件进行事后评估，并评估其灾难恢复响应。

企业还要考虑灾难恢复计划的效果如何，并根据需要调整计划。这可能包括更改分配给应用程序的灾难恢复保护级别，微调用于实施灾难恢复程序的过程或其他可能减轻未来云计算中断影响的更改。

微信关注我们

原文链接：http://cloud.51cto.com/art/201910/603839.htm

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

十年耕耘 5G时代的天翼云核心竞争力凸显

【大咖・来了第7期】10月24日晚8点观看《智能导购对话机器人实践》随着公有云IaaS市场正在进入到寡头时代，马太效应凸显，强者愈强，真正有实力的IaaS服务提供商正在砥砺前行。在今年IDC发布的《中国公有云服务市场（2018下半年）跟踪》报告中显示，中国电信天翼云在IaaS服务商排名全球第七，中国排名第三，而天翼云也是进入国内排名中唯一一家央企云。在伴随5G时代的到来，拥有天然优势的中国电信天翼云则凭借着网络、云计算、边缘计算、人工智能等特色产品和服务，正在实现弯道超车。天翼云的十年耕耘国内的云计算市场格局未定，无论是互联网公司、运营商、传统的IT厂商，大家都在云计算的版图上迅速扩张。而天翼云的发展与中国电信集团的战略密不可分，早在2009年，中国电信就启动了“翼云计划”。 2009年到2012年是天翼云的萌芽阶段，也是天翼云服务市场的试水阶段，天翼云积累了丰富的政企客户的服务经验，为后期的发展打下坚实的基础。到了2012年，中国电信股份有限公司云计算分公司正式成立，凭借着前几年的丰富经验，在2013年到2016年期间，中国电信在内蒙和贵州建立了两个航母级的数据中心，两...

2019-09-25

900

【大咖・来了第7期】10月24日晚8点观看《智能导购对话机器人实践》如今，云计算的应用有着与托管数据中心基础设施类似的趋势。许多数据中心起初获得单一的基础设施供应商的服务，这削弱了单一解决方案的简单性带来的灵活性。随着数据中心的发展，它们逐渐转向使用最佳的基础设施，多个供应商的基础设施都基于标准协同工作。在云计算市场上，包括AWS、谷歌和微软在内的云计算提供商都提供了包括数百种不同云服务在内的全面服务，企业IT团队被其所谓的简单性所吸引。但是，单一供应商并不能在所有方面都做到最好，这会导致某些方面的妥协。同时，这些提供商关闭了不兼容的应用程序编程接口(API)，并且为将数据从其服务中删除而收取高昂的出口费用，这造成了云平台锁定。对于IT专业人员来说一个好消息是，“第二代”云计算正在出现，出现了多云和同类最佳的方法。具有围绕计算和存储的专门独特功能以及更积极定价的提供商已进入市场。客户现在可以选择最佳的云存储供应商、云计算供应商、分析供应商等等，并且所有这些服务可以一起工作。为客户带来的结果是低成本的基础设施，而无需牺牲诸如性能或可用性之类的关键功能。为什么采用多云方法会产生最...

2019-10-08

884

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

应对云计算中断的6个步骤