首页 生活 > 内容

一个小更新导致全球数百万IT系统瘫痪

时间:2024-07-29 16:20:08 来源:
导读 本周末,由于软件更新出错而导致的全球IT中断凸显了现代IT基础设施相互关联且往往脆弱的特性。它表明单点故障可能会带来深远的后果。此次中...

本周末,由于软件更新出错而导致的全球IT中断凸显了现代IT基础设施相互关联且往往脆弱的特性。它表明单点故障可能会带来深远的后果。

此次中断与CrowdstrikeFalcon的一次自动更新有关。CrowdstrikeFalcon是一款无处不在的网络安全工具,主要由大型组织使用。该更新导致全球各地的MicrosoftWindows计算机崩溃。

CrowdStrike已经修复了该问题。虽然许多组织现在已经能够恢复工作,但IT团队需要一些时间才能完全修复所有受影响的系统——其中一些工作必须手动完成。

怎么会这样呢?

许多组织都依赖相同的云提供商和网络安全解决方案。结果形成了一种数字单一文化。

虽然这种标准化意味着计算机系统可以高效运行,并且具有广泛的兼容性,但这也意味着问题可能会波及许多行业和地区。正如我们现在在CrowdStrike案例中看到的那样,它甚至可以波及整个全球。

现代IT基础设施高度互联且相互依赖。如果一个组件发生故障,则可能导致该组件引发连锁反应,进而影响系统的其他部分。

随着软件及其所运行的网络变得越来越复杂,出现不可预见的交互和错误的可能性也随之增加。一个小更新就可能带来意想不到的后果,并迅速蔓延到整个网络。

正如我们现在看到的,在监督人员能够做出反应阻止之前,整个系统可能会陷入停滞。

微软是如何参与其中的?

当各地的Windows计算机开始崩溃并出现“蓝屏死机”信息时,早期报告称此次IT中断是由微软造成的。

事实上,微软证实其在美国中部地区经历了云服务中断,中断始于2024年7月18日星期四东部时间下午6点左右。

此次中断影响了使用各种Azure服务的部分客户。Azure是Microsoft的专有云服务平台。

Azure故障影响深远,扰乱了多个行业的服务,包括航空、零售、银行和媒体。不仅在美国,而且在澳大利亚和新西兰等国家也受到了影响。它还影响了各种Microsoft365服务,包括PowerBI、MicrosoftFabric和Teams。

事实证明,整个Azure中断也可以追溯到CrowdStrike更新。在这种情况下,它影响了安装了Falcon的运行Windows的Microsoft虚拟机。

我们可以从这一事件中学到什么?

不要把所有的IT资源都放在一个篮子里。

公司应采用多云策略:将其IT基础设施分布在多个云服务提供商上。这样,如果一家提供商出现故障,其他提供商可以继续支持关键运营。

公司还可以通过在IT系统中建立冗余来确保其业务持续运营。如果一个组件出现故障,其他组件可以接替。这包括拥有备份服务器、备用数据中心和“故障转移”机制,以便在发生中断时快速切换到备份系统。

自动化日常IT流程可以降低人为错误的风险,而人为错误是导致停机的常见原因。自动化系统还可以监控潜在问题,并在问题导致严重后果之前予以解决。

培训员工如何在发生停电时做出反应,可以让困难的情况恢复正常。这包括知道联系谁、采取什么步骤以及如何使用替代工作流程。

IT中断会造成多严重的后果?

由于互联网基础设施的分布式和去中心化特性,全球整个互联网瘫痪的可能性极小。互联网拥有多条冗余路径和系统。如果某一部分发生故障,流量可以通过其他网络重新路由。

然而,发生比CrowdStrike中断更大、更广泛的中断的可能性确实存在。

可能原因的列表读起来就像灾难片的剧本。类似于1859年卡灵顿事件的强烈太阳耀斑可能会对卫星、电网和海底电缆造成大面积破坏,而这些都是互联网的骨干。此类事件可能会导致跨越大陆并持续数月的互联网中断。

全球互联网严重依赖海底光缆网络。多条关键电缆同时受损(无论是自然灾害、、事故还是蓄意破坏)都可能导致国际互联网流量严重中断。

针对关键互联网基础设施(如根DNS服务器或主要互联网交换点)的复杂、协同的网络攻击也可能导致大规模中断。

虽然互联网彻底崩溃的可能性极小,但数字世界的互联性意味着任何大规模中断都将产生深远的影响,因为它会破坏我们所依赖的在线服务。

持续的适应和准备对于确保全球通信基础设施的弹性至关重要。

标签:
最新文章