本周末,由于软件更新出错而导致的全球IT中断凸显了现代IT基础设施相互关联且往往脆弱的特性。它表明单点故障可能会带来深远的后果。
此次中断与CrowdstrikeFalcon的一次自动更新有关。CrowdstrikeFalcon是一款无处不在的网络安全工具,主要由大型组织使用。该更新导致全球各地的MicrosoftWindows计算机崩溃。
CrowdStrike已经修复了该问题。虽然许多组织现在已经能够恢复工作,但IT团队需要一些时间才能完全修复所有受影响的系统——其中一些工作必须手动完成。
怎么会这样呢?
许多组织都依赖相同的云提供商和网络安全解决方案。结果形成了一种数字单一文化。
虽然这种标准化意味着计算机系统可以高效运行,并且具有广泛的兼容性,但这也意味着问题可能会波及许多行业和地区。正如我们现在在CrowdStrike案例中看到的那样,它甚至可以波及整个全球。
现代IT基础设施高度互联且相互依赖。如果一个组件发生故障,则可能导致该组件引发连锁反应,进而影响系统的其他部分。
随着软件及其所运行的网络变得越来越复杂,出现不可预见的交互和错误的可能性也随之增加。一个小更新就可能带来意想不到的后果,并迅速蔓延到整个网络。
正如我们现在看到的,在监督人员能够做出反应阻止之前,整个系统可能会陷入停滞。
微软是如何参与其中的?
当各地的Windows计算机开始崩溃并出现“蓝屏死机”信息时,早期报告称此次IT中断是由微软造成的。
事实上,微软证实其在美国中部地区经历了云服务中断,中断始于2024年7月18日星期四东部时间下午6点左右。
此次中断影响了使用各种Azure服务的部分客户。Azure是Microsoft的专有云服务平台。
Azure故障影响深远,扰乱了多个行业的服务,包括航空、零售、银行和媒体。不仅在美国,而且在澳大利亚和新西兰等国家也受到了影响。它还影响了各种Microsoft365服务,包括PowerBI、MicrosoftFabric和Teams。
事实证明,整个Azure中断也可以追溯到CrowdStrike更新。在这种情况下,它影响了安装了Falcon的运行Windows的Microsoft虚拟机。
我们可以从这一事件中学到什么?
不要把所有的IT资源都放在一个篮子里。
公司应采用多云策略:将其IT基础设施分布在多个云服务提供商上。这样,如果一家提供商出现故障,其他提供商可以继续支持关键运营。
公司还可以通过在IT系统中建立冗余来确保其业务持续运营。如果一个组件出现故障,其他组件可以接替。这包括拥有备份服务器、备用数据中心和“故障转移”机制,以便在发生中断时快速切换到备份系统。
自动化日常IT流程可以降低人为错误的风险,而人为错误是导致停机的常见原因。自动化系统还可以监控潜在问题,并在问题导致严重后果之前予以解决。
培训员工如何在发生停电时做出反应,可以让困难的情况恢复正常。这包括知道联系谁、采取什么步骤以及如何使用替代工作流程。
IT中断会造成多严重的后果?
由于互联网基础设施的分布式和去中心化特性,全球整个互联网瘫痪的可能性极小。互联网拥有多条冗余路径和系统。如果某一部分发生故障,流量可以通过其他网络重新路由。
然而,发生比CrowdStrike中断更大、更广泛的中断的可能性确实存在。
可能原因的列表读起来就像灾难片的剧本。类似于1859年卡灵顿事件的强烈太阳耀斑可能会对卫星、电网和海底电缆造成大面积破坏,而这些都是互联网的骨干。此类事件可能会导致跨越大陆并持续数月的互联网中断。
全球互联网严重依赖海底光缆网络。多条关键电缆同时受损(无论是自然灾害、、事故还是蓄意破坏)都可能导致国际互联网流量严重中断。
针对关键互联网基础设施(如根DNS服务器或主要互联网交换点)的复杂、协同的网络攻击也可能导致大规模中断。
虽然互联网彻底崩溃的可能性极小,但数字世界的互联性意味着任何大规模中断都将产生深远的影响,因为它会破坏我们所依赖的在线服务。
持续的适应和准备对于确保全球通信基础设施的弹性至关重要。