一个小更新导致全球数百万IT系统瘫痪

时间：2024-07-29 16:20:08 来源：编辑：

本周末，由于软件更新出错而导致的全球IT中断凸显了现代IT基础设施相互关联且往往脆弱的特性。它表明单点故障可能会带来深远的后果。

此次中断与CrowdstrikeFalcon的一次自动更新有关。CrowdstrikeFalcon是一款无处不在的网络安全工具，主要由大型组织使用。该更新导致全球各地的MicrosoftWindows计算机崩溃。

CrowdStrike已经修复了该问题。虽然许多组织现在已经能够恢复工作，但IT团队需要一些时间才能完全修复所有受影响的系统——其中一些工作必须手动完成。

怎么会这样呢?

许多组织都依赖相同的云提供商和网络安全解决方案。结果形成了一种数字单一文化。

虽然这种标准化意味着计算机系统可以高效运行，并且具有广泛的兼容性，但这也意味着问题可能会波及许多行业和地区。正如我们现在在CrowdStrike案例中看到的那样，它甚至可以波及整个全球。

现代IT基础设施高度互联且相互依赖。如果一个组件发生故障，则可能导致该组件引发连锁反应，进而影响系统的其他部分。

随着软件及其所运行的网络变得越来越复杂，出现不可预见的交互和错误的可能性也随之增加。一个小更新就可能带来意想不到的后果，并迅速蔓延到整个网络。

正如我们现在看到的，在监督人员能够做出反应阻止之前，整个系统可能会陷入停滞。

微软是如何参与其中的?

当各地的Windows计算机开始崩溃并出现“蓝屏死机”信息时，早期报告称此次IT中断是由微软造成的。

事实上，微软证实其在美国中部地区经历了云服务中断，中断始于2024年7月18日星期四东部时间下午6点左右。

此次中断影响了使用各种Azure服务的部分客户。Azure是Microsoft的专有云服务平台。

Azure故障影响深远，扰乱了多个行业的服务，包括航空、零售、银行和媒体。不仅在美国，而且在澳大利亚和新西兰等国家也受到了影响。它还影响了各种Microsoft365服务，包括PowerBI、MicrosoftFabric和Teams。

事实证明，整个Azure中断也可以追溯到CrowdStrike更新。在这种情况下，它影响了安装了Falcon的运行Windows的Microsoft虚拟机。

我们可以从这一事件中学到什么?

不要把所有的IT资源都放在一个篮子里。

公司应采用多云策略：将其IT基础设施分布在多个云服务提供商上。这样，如果一家提供商出现故障，其他提供商可以继续支持关键运营。

公司还可以通过在IT系统中建立冗余来确保其业务持续运营。如果一个组件出现故障，其他组件可以接替。这包括拥有备份服务器、备用数据中心和“故障转移”机制，以便在发生中断时快速切换到备份系统。

自动化日常IT流程可以降低人为错误的风险，而人为错误是导致停机的常见原因。自动化系统还可以监控潜在问题，并在问题导致严重后果之前予以解决。

培训员工如何在发生停电时做出反应，可以让困难的情况恢复正常。这包括知道联系谁、采取什么步骤以及如何使用替代工作流程。

IT中断会造成多严重的后果?

由于互联网基础设施的分布式和去中心化特性，全球整个互联网瘫痪的可能性极小。互联网拥有多条冗余路径和系统。如果某一部分发生故障，流量可以通过其他网络重新路由。

然而，发生比CrowdStrike中断更大、更广泛的中断的可能性确实存在。

可能原因的列表读起来就像灾难片的剧本。类似于1859年卡灵顿事件的强烈太阳耀斑可能会对卫星、电网和海底电缆造成大面积破坏，而这些都是互联网的骨干。此类事件可能会导致跨越大陆并持续数月的互联网中断。

全球互联网严重依赖海底光缆网络。多条关键电缆同时受损(无论是自然灾害、、事故还是蓄意破坏)都可能导致国际互联网流量严重中断。

针对关键互联网基础设施(如根DNS服务器或主要互联网交换点)的复杂、协同的网络攻击也可能导致大规模中断。

虽然互联网彻底崩溃的可能性极小，但数字世界的互联性意味着任何大规模中断都将产生深远的影响，因为它会破坏我们所依赖的在线服务。

持续的适应和准备对于确保全球通信基础设施的弹性至关重要。

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：

上一篇:自动化出行欧洲的未来即将成为现实

下一篇:大规模IT中断凸显全球信息生态系统的重大漏洞