Facebook 对周一大规模宕机事件作出解释

Facebook 对周一大规模宕机事件作出解释

昨天,全球各地的 Facebook 用户遭遇了意外的长时间服务中断,影响了其所有应用的访问,包括 WhatsApp、Instagram 和 Messenger。此后,Facebook 发布了两篇博客文章,解释了发生的情况。

周一晚些时候,该公司发布了第一篇博客文章,解释了导致这一严重问题的原因。Facebook 基础设施副总裁 Santosh Janardhan 写道:“此次中断的根本原因是配置更改错误”,并详细说明“协调 Facebook 数据中心之间网络流量的骨干路由器上的配置更改”是问题发生的地方。

这次网络流量中断不仅导致 WhatsApp 等 Facebook 旗下应用程序的服务暂停,还“影响了我们日常运营中使用的许多内部工具和系统,使我们快速诊断和解决问题的尝试变得更加困难”,Janardhan 补充道。

[相关:我们对 Facebook 瘫痪原因的了解]

此后,Facebook 于今天下午晚些时候发布了另一篇更详细的博客文章,解释了到底出了什么问题。在这篇文章中,Janardhan 写道,他之前提到的“骨干”是“Facebook 为连接所有计算设施而建立的网络”,该网络还通过物理电线和电缆将 Facebook 在全球的所有数据中心连接在一起。这些数据中心负责存储数据、保持平台运行,并将 Facebook 的网络连接到互联网的其他部分。

“所有这些计算设施之间的数据流量由路由器管理,路由器决定将所有传入和传出数据发送到何处。在日常维护该基础设施的繁重工作中,我们的工程师经常需要将部分主干网脱机进行维护 — 可能是修复光纤线路、增加容量或更新路由器本身的软件,”Janardhan 解释道。

但昨天,在一次例行维护工作中,“发出了一条旨在评估全球骨干容量可用性的命令”,但它“无意中切断了我们骨干网络中的所有连接,实际上切断了全球 Facebook 数据中心之间的连接”,并切断了它们与互联网的连接。更糟糕的是,通常可以防止此类错误的审计工具由于错误而没有发现问题。

相关问题涉及互联网架构的另外两个部分:域名系统 (DNS) 服务器和边界网关协议 (BGP),后者将 Facebook DNS 通告给互联网的其余部分。

“最终结果是,我们的 DNS 服务器无法访问,尽管它们仍在运行。这使得互联网的其余部分无法找到我们的服务器,”Janardhan 写道。“DNS 的彻底丢失破坏了我们通常用来调查和解决此类中断的许多内部工具。”

所有这些听起来都非常技术性,因此用外行人能理解的术语来说,以下是有关 DNS、BGP 以及 Facebook 发生的事情的知识。

让我们讨论一下 DNS 和 BGP

让我们从域名系统 (DNS) 服务器和边界网关协议 (BGP) 开始。那么它们到底是什么?

DNS 通常被称为互联网的地址簿或电话簿。卡内基梅隆大学助理教授 Justine Sherry 告诉《大众科学》 :“它的作用是,当我有一个域名时,该域名被设计为人类可读的,例如 Google.com 或 Facebook.com,它会将其转换为 IP 地址,即一串数字。这很像你的街道地址。所以它就像 5000 Forbes Ave 和卡内基梅隆大学。”

雪莉昨天尝试登录 Facebook 时发现,电话簿功能缺失了。这项服务非常重要,因为它会接收您在搜索栏中输入的可读域名 (facebook.com),然后告诉互联网如何引导您访问您想要连接的服务器。毕竟,对于人们来说,在网络浏览器中输入 facebook.com 字母比记住并输入数字要容易得多。

[相关: Facebook 用户现在可以在群聊中混合使用 Messenger 和 Instagram 好友]

“重要的是,该电话簿是分布式的,因此 Facebook 在某种程度上拥有该电话簿的一部分,上面写着‘我们是 Facebook.com,这些是我们的地址’,”Sherry 解释道。“当我输入 URL 时,我收到一个错误,上面写着 NXDOMAIN,这是 DNS 告诉我,‘我不知道该域名是什么,它没有指向我的任何地址。’”

然后还有一项服务叫做 BGP,即边界网关协议。Sherry 说:“你可以把 BGP 想象成互联网的谷歌地图。它会告诉你如果我有一个地址,我该如何到达那里。它旨在让来自不同组织(如 Facebook、谷歌、康卡斯特、Sprint 和 AT&T)的不同网络共享它们拥有的路由。”

哥伦比亚大学副教授 Ethan Katz-Bassett 在一封电子邮件中表示,边界网关协议(之所以这样称呼,是因为它在 Facebook 和 Google 等网络之间的边界运行)为访问请求设置了一条到达 Facebook DNS 服务器的路由。

配置错误导致 Facebook 的 BGP 路由器不再向 Facebook DNS 服务器通告路由。因此,请求将在发送方网络的边缘“丢失”。Katz-Bassett 写道:“[Facebook] 系统的设计是,如果路由器无法与数据中心通信,它会撤回 DNS 路由。当单个路由器出现问题时,这可能是一种正常的行为,但当所有路由器同时出现问题时,它会断开所有连接。”

Sherry 将 BGP 与州际公路系统进行了比较:“BGP 将不同州的公路连接在一起。Facebook 撤回了他们的大量路线,并开始说他们没有路线可以进入他们的电话簿。”

那么工程师为什么必须去加州数据中心呢?

在昨天的中断期间,互联网的地图系统基本上消除了访问 Facebook 的所有路线,这不仅意味着日常客户无法访问它,而且其员工也无法访问(至少,远程无法访问)。

Sherry 推测 Facebook 可能将所有数字徽章卡联网到托管在他们自己的服务器和 DNS 上的内部数据库,该数据库将跟踪谁有权进入大楼。当他们的 DNS 和服务器出现故障时,卡钥匙系统也会停止运行。

通常情况下,工程师在操作服务器时,不必亲自​​靠近服务器。他们可以远程登录以访问和与服务器交互,并通过互联网操作服务器。但是,在这种情况下,他们无法远程访问服务器,因此唯一的访问方式是亲自进入服务器,并将显示器插入这些服务器。

Facebook 表示,他们派工程师到物理数据中心现场调试和重启系统。“这需要时间,因为这些设施在设计时就考虑到了高水平的物理和系统安全性,”Janardhan 在博客中表示。“它们很难进入,而且一旦进入,硬件和路由器的设计就很难修改,即使你有物理访问权限。”为了防止突然的电涌或崩溃,他们以零碎的方式重新开启服务。

昨天,在 Facebook 恢复上线之前,许多计算机科学家发现互联网基础设施出现过载和备份。Cloudflare 报告称,他们通过 DNS 服务收到的查询比平时多 30 倍。这是因为当您的网络浏览器尝试加载 Facebook 或 Instagram 时找不到它,它会重试。Sherry 说:“人们不断地查询电话簿,一遍又一遍地问‘Facebook 在哪里?Facebook 在哪里?Facebook 在哪里?’”

[相关:光束——而不是电缆——正在将互联网传送到刚果的一条河流上]

Facebook 的前景和尚待解决的问题

十年前,这样的问题不会如此普遍。WhatsApp、Instagram 和 Facebook 都是独立公司,在独立基础设施上运行。“而现在,它们都是同一款产品,”Sherry 说。“我们昨天看到的是无法运营的公司。”许多拥有 Facebook 页面和 Instagram 页面的本地企业无法再与客户联系。据彭博社报道,数百万用户涌向 Signal、Telegram 甚至 Twitter 等替代消息应用程序。

“我们现在每年都会看到几次这样的故障,互联网的很大一部分都瘫痪了。有时是 BGP,有时是 DNS,有时是亚马逊内部使用的某种深奥的存储系统,”Sherry 说。但现在,“每家公司、每家企业、每个组织都只依赖少数几家公司、少数几款技术产品,当这些东西发生故障时,它们会对整个互联网和不同行业产生巨大的连锁反应。”

对她来说,影响最大的是 WhatsApp,这是她用来联系家人的服务。“世界上有很多地方都提供WhatsApp 手机服务,”她说。

[相关:在新的参议院网络安全报告卡中,没有一个联邦机构获得“A”级评分]

不过,Sherry 表示,一般来说,许多独立服务不太可能同时瘫痪。例如,Facebook 和 Twitter 同时崩溃的情况很少见,Google Chat 和 Facebook Messenger 同时出现技术问题的情况也很少见。“但越来越多的平台正在集中化和合并,这让我们越来越容易受到大规模中断的影响,”她说。“我们昨天看到的是连锁故障,因为 Facebook 的所有服务(包括门禁控制)都依赖于一个集中式系统。”

Sherry 指出,工程界长期以来也认为,组合式集中式系统并不是最理想的设计。“最安全的做法是将各个系统分开,这样当一个系统发生故障时,它只是一个小的、局部的故障,而不是整个全球性的中断,”她说。“因此,这种‘一个组织处理所有事情’的推动使我们更容易遇到这些本来可能是小问题的重大灾难性问题。”

<<:  当火山摧毁你的实验室时如何研究它

>>:  Facebook 举报人的国会听证会是科技界的“重大烟草时刻”

推荐阅读

《海洋清理》经得起同行评审吗?

荷兰工程专业学生 Boyan Slat 计划从世界海洋中清除数百万吨会杀死动物、损害经济的塑料垃圾。...

《世界暗黑百科全书》评论:描绘深渊恐怖与美学的名作动画

《世界黑暗百科全书》:描绘黑暗世界的短篇动画的魅力概述《世界的黑暗百科全书》是一部短篇动画系列,于 ...

杀人蜂已经正式到来,但不要惊慌

除非您与世隔绝,否则您可能在过去几天里听说过“杀人蜂”这个词,尤其是 10 月 22 日在华盛顿发现...

这些强大的太阳能电池板像人的头发一样薄

六年前,麻省理工学院有机和纳米结构电子实验室 (ONE Lab) 的一个工程团队开发出一种超薄太阳能...

这款割草机器人可以将院子里的部分空间留给传粉昆虫

本月是“五月无割草”活动五周年纪念日。“五月无割草”活动是一项年度环保项目,旨在通过为期 31 天的...

《决斗大师零》评论:该系列第五部作品的吸引力何在?

《决斗大师 Zero》:激情决斗者灵魂燃烧的故事《决斗大师 Zero》是 2007 年 10 月 ...

拖着死鱼四处走动揭示了粘液的超能力

通过拖拽一堆死鱼,科学家可能发现了生物中最重要的物质之一——粘液的隐藏力量。他们的发现甚至可能有助于...

环保署换了新领导,科学前景不容乐观

美国环境保护署正式迎来了一位新领导人:参议院于周五下午批准俄克拉荷马州司法部长斯科特·普鲁特出任环境...

《雨中罪恶》评论:这部描绘雨的罪恶的动画究竟有何魅力?

雨中的罪恶:雨中的罪恶与救赎的故事■作品概要《Shin in the Rain》是E-Net Fro...

加油田渊!!全面回顾第二场激烈的冠军争夺战!

加油!!田渕君!!第2届激烈锦标赛~Ganbare!!田渕君!!第二届激烈锦标赛■ 公共媒体剧院■ ...

与邻居的宇宙碰撞可能让这些白矮星变得沉重

有一天,当我们的太阳耗尽所有燃料并剥落外层时,其核心冷却的余烬将最终变成一颗白矮星,我们银河系中超过...

OKAWARI-BOY Starzan S - 重播的魅力和评论

Okawari Boy Starzan S:回顾 80 年代经典动画1984年播出的《魔法使之星S》...

利用假血管解密蛇毒的致命秘密

我们知道蛇毒对人类有剧毒,但要进一步了解其作用机制,必须在实验室中研究蛇毒。为了减少实验动物数量并研...

我们与铀的危险关系的奇怪历史

摘录自Lucy Jane Santos 所著的《链式反应:铀的希望历史》,经 Pegasus Boo...

拍摄这张太阳轨迹的照片花了八年时间,而且用了一个啤酒罐

制作一台非常基本的相机不需要很多花哨的材料。无论是旧咖啡罐还是废弃的燕麦片容器,你都可以在背面放一些...