上周五早上,印度企业高管拉索德(Hemant Rathod)正在德里的一间会议室里喝茶,准备给他的团队发送一封长邮件,这时他的电脑突然出故障了。

这台惠普(HP)笔记本电脑突然提示需要重启。然后屏幕变成了蓝色。他尝试了重启,但也是徒劳。不到10分钟,房间里其他三位同事的电脑也蓝屏了。

作为建筑材料公司Pidilite Industries的高级副总裁,拉索德在故障发生半天后的电话中说,“我花了很多时间起草那封邮件”,他仍然随身携带着那台宕机的笔记本电脑。“我真希望这封邮件还在,这样我就不用再写一遍了。”

此次系统宕机是近年来最严重的一次,它导致全球范围内的计算机瘫痪,并让人们意识到自己所依赖的错综复杂的全球软件系统有多么脆弱。

上述宕机事件是由网络安全公司CrowdStrike的一次错误软件更新引发的,当时美国东海岸的大多数人都还在睡梦中,亚洲的人们刚刚开始了新的一天。

在CrowdStrike叫停此次更新前的不到80分钟内,这一更新已蔓延至全球使用微软(Microsoft) Windows系统的电脑,企业配备的笔记本电脑成了毫无用处的“砖头”,餐馆、媒体公司和其他企业的运营陷入瘫痪。美国911呼叫中心的服务受到干扰,亚马逊(Amazon.com)员工的企业电子邮件系统失灵,全球范围内数以万计的航班延误或取消。

“在我30年的技术生涯中,这是迄今为止我见过影响最大的一次技术事件”,总部位于华盛顿州伦顿的普罗维登斯(Providence)医疗系统首席信息官摩尔(B.J. Moore)说,该系统旗下的医院难以调取患者记录、做手术和进行CT扫描。

修复这个问题需要采取一些让许多非技术型用户头疼的技术步骤。上周五晚间,一些企业的IT部门仍在努力解冻计算机系统。CrowdStrike表示,此次宕机事件并非网络攻击。

除了上述混乱局面,就在CrowdStrike软件故障发生前不久的上周四,微软的Azure云计算系统也出现了另一个问题,一些美国航空公司以及Xbox和Microsoft 365用户等一些客户的服务中断,这一状况进一步凸显出全球IT系统的脆弱性。

上周五,德里英迪拉·甘地国际机场的屏幕显示了错误信息。

图片来源:Kabir Jhangiani/Zuma Press

CrowdStrike的问题暴露了当今世界面临的风险: IT系统愈发密不可分并依赖于无数的软件公司——其中许多公司并不为大众所知。一旦这些公司的技术出现故障或受到威胁,可能会造成严重的问题。这些软件在人们的笔记本电脑和企业IT设置中运行,在大多数用户都不知情的情况下,它们会自动更新,以增强功能或提供新的安全保护。

2020年的一次黑客攻击中,俄罗斯黑客将恶意代码插入了SolarWinds软件的更新中,破坏了美国政府的许多部门和数十家私营公司的安全。

近年来,网络攻击(包括植入勒索软件和间谍软件的攻击)的频率不断上升,影响不断扩大,这推动了CrowdStrike以及Palo Alto NetworksSentinelOne等竞争对手的增长。过去五年,CrowdStrike的年收入增长了11倍,达到逾30亿美元。

但CrowdStrike等网络安全软件在出现问题时可能会造成特别严重的破坏,因为这类软件必须具备对计算机系统的深度访问权限以阻止恶意攻击。

并非所有更新都会自动进行,而计算机攻击的发生往往是因为个人或企业没有及时采用软件公司为修复漏洞而发送的补丁,本质上相当于医生开了药,病人没有服用。但在这次事件中,药本身却害苦了病人。

上周五,在布拉格瓦茨拉夫·哈维尔机场等待的旅客,许多航班都被取消。

图片来源:Michal Krumphanzl/CTK/Zuma Press

CrowdStrike表示,此次全球范围内的系统中断始于一个被称为“通道文件”的文件更新,该文件包含帮助CrowdStrike软件化解网络威胁的数据。此次更新的时间戳为协调世界时凌晨4:09,也即纽约时间午夜刚过,印度时间上午9:30左右。

此次更新导致Windows操作系统的核心(即内核)崩溃。重启电脑只会导致它再次崩溃,这意味着许多用户不得不从每台受影响的电脑手动删除这个有问题的文件。

该补丁的性质意味着其影响并不均衡,即使在同一间办公室里,人们遭遇系统中断的情况也各不相同。苹果公司(Apple)的Mac电脑不使用受影响Windows软件,因而没有出现问题,而未开机或未联网的服务器和个人电脑也没有收到这个有问题的更新。

CrowdStrike很快意识到出了问题,并在78分钟后撤回了该文件的更新。这意味着那些在上述时间段内处于关机或睡眠模式的电脑不会受到影响。但对于许多开机的电脑来说,损害已经造成。

CrowdStrike在一篇博客文章中告诉这些用户启动进入Windows“安全模式”,删除名为“C-00000291*.sys”的有问题的文件,然后重启电脑。

上周五,达美航空的员工在纽约肯尼迪国际机场协助旅客。

图片来源:Michael Nagle/Bloomberg News

IT团队通常可以使用远程访问软件来修复员工电脑上的问题,这类工具在新冠疫情期间的居家办公热潮中变得尤为普遍。但对于笔记本电脑和其他个人电脑来说,如果机器无法重启,这种方法就行不通了。对于这些系统,CrowdStrike的修复工作必须由人工手动完成,要么是由现场的技术支持人员实施,要么让普通员工尝试按照指引操作。

华盛顿州的医疗卫生首席信息官Moore正在休假,当上周四晚上他的收件箱里开始收到有关计算机应用程序故障的电子邮件时,他起初并不担心。

但到了太平洋时间晚上11点,他得知故障已经攻陷了这家非营利医疗系统在七个州的约50家医院和1000家诊所。他说,数百名IT员工开始部署补丁程序,需要手动修复。

该系统受影响的部分电脑和设备在早上6点前得到修复,大部分电脑和设备在上午10点前恢复正常运行。摩尔上周五上午说:“我们要到晚上才能全部完成修复工作。”

蓝屏故障期间,CrowdStrike首席执行官George Kurtz试图安抚客户和股东。

图片来源:Michael Short/Bloomberg News

在各公司努力应对蓝屏影响的同时,CrowdStrike的联合创始人兼首席执行官George Kurtz在电视上努力安抚客户和股东,他在经历漫长的一夜后显得有些憔悴。

“我们很快就发现了这个问题,并撤回了这个内容文件,”Kurtz在此次错误更新发生约九小时后接受CNBC采访时说。他还表示,“有些系统可能无法完全恢复,我们正在与每一位客户逐一沟通,确保能让他们正常运行。”

他说,恢复时间可能是几个小时,也可能“更长一些”。Kurtz在X上说,这次故障不是“安全事件或网络攻击”。

微软首席执行官纳德拉(Satya Nadella)在X上安抚用户,称该公司正在与CrowdStrike密切合作,使系统恢复工作。特斯拉(Tesla)首席执行官马斯克(Elon Musk)回应说:“这让汽车供应链出了乱子,”他随后表示,“我们刚刚从所有系统中删除了CrowdStrike。”

对于Pidilite的高级副总裁Rathod来说,他的痛苦不仅限于可能丢失的电子邮件。在切换到iPad继续工作后,他匆忙赶往机场搭乘航班,却发现排起了长队,安检人员手忙脚乱地人工查验登机牌。航班信息屏幕失灵,他不得不找航空公司工作人员指引他到正确的登机口。

“德里机场乱成一团,”Rathod说。“我们怎么能如此依赖一家公司呢?”