最近的 AWS 故障表明了云计算的强大和脆弱

最近的 AWS 故障表明了云计算的强大和脆弱

本月前两周,亚马逊网络服务 (AWS) 出现故障,导致两次中断:一次是 12 月 7 日发生的规模更大、范围更广的中断,另一次是 12 月 15 日发生的规模更小、范围更广的中断。两次中断都导致一系列网站和在线应用程序中断,包括 Google、Slack、Disney Plus、Amazon、Venmo、Tinder、iRobot、Coinbase 和《华盛顿邮报》。这些服务都依赖 AWS 为其提供云计算 — 事实上,AWS 是 Microsoft Azure、Google、IBM 和阿里巴巴等其他大型企业中领先的云计算提供商。

为了了解影响为何如此之大,以及公司可以采取哪些措施来防止将来再次发生类似的破坏,有必要退一步来看看云计算是什么,以及它有什么好处。

那么什么是云计算和 AWS?

无论何时通过互联网连接任何设备,您的计算机实际上都在与另一台计算机对话。服务器是一种计算机,可以处理请求并将数据传送到同一网络或互联网上的其他计算机。

但运行自己的服务器并不便宜。你必须购买硬件盒,将其安装在某处,并为其提供大量电力。在许多情况下,它还需要互联网连接。然后,为了确保以最小的延迟接收和发送数据,这些服务器需要在物理上靠近其用户。

此外,你还必须安装需要定期更新的软件。你还必须建立故障安全机制,以便在主服务器发生故障时将操作切换到另一台服务器。

[相关: Facebook 对周一大规模中断做出解释]

卡内基梅隆大学助理教授贾斯汀·雪利 (Justine Sherry) 表示:“亚马逊等公司注意到,很多(计算基础设施)并不是真正针对你所运行的服务。”

例如,运行 Netflix 的代码与运行 Venmo 等服务的代码有所不同。Netflix 代码向用户提供视频,而 Venmo 代码促进金融交易。但底层的大多数计算工作实际上是相同的。

这时,云提供商就派上用场了。他们通常在全国范围内拥有数百到数千台服务器,带宽充足。他们负责处理繁琐的任务,如安全、数据中心运营的日常管理以及在需要时扩展服务。

“然后你就可以专注于你的[专业]代码。只需编写使视频工作的部分,或使金融交易工作的部分。这更简单,更便宜,因为亚马逊正在为很多很多客户做这件事。”雪莉解释道。“但也有缺点,那就是世界上每个人都依赖于同几个装满电脑的 Costco 大小的仓库。美国有几十个这样的仓库。但当其中一个出现故障时,后果将是灾难性的。”

12 月 7 日和 15 日 AWS 出了什么问题

导致 AWS 中断的原因似乎与后台处理数据流的自动化系统的错误有关。

AWS 在一篇文章中解释称,12 月 7 日的错误是由于“在主 AWS 网络中托管的 AWS 服务之一的容量扩展自动活动”出现问题而导致的,这导致“连接活动激增,导致内部网络和主 AWS 网络之间的网络设备不堪重负,从而导致这些网络之间的通信延迟”。

[相关:深入了解“云”数据中心]

这种自动扩展功能允许整个系统根据网络上的用户数量调整其使用的服务器数量。Sherry 解释说:“如果早上 7 点我有 100 名用户,中午时分,每个人都在午休时间去亚马逊购物,现在我有 1,000 名用户,我需要 10 倍的计算机来与所有这些客户端进行交互。这些框架会自动查看需求量,并在需要时分配更多服务器来执行所需的任务。”

12 月 15 日晚些时候,AWS 发布的状态更新称,此次中断是由于“流量工程”错误地将“超出预期的流量转移到 AWS Backbone 的部分区域,从而影响了与部分互联网目的地的连接”造成的。

大型数据中心通过不同的互联网服务提供商拥有大量互联网连接。它们可以选择在线流量的路由,无论是通过 AT&T 的一条电缆,还是通过 Sprint 的另一条电缆。

他们的自动“流量工程”会根据一系列条件决定重新路由流量。“大多数提供商将主要根据负载重新路由流量。他们希望确保情况相对平衡,”Sherry 说。“听起来自动适应在 15 日失败了,他们最终在一个连接上路由了太多流量。你可以把它想象成一条水太多的管道,水从接缝处流出来。”这些数据最终被丢弃并消失了。

尽管过去几年出现过几次普遍的中断,但 Sherry 认为 AWS“非常擅长管理其基础设施”。从本质上讲,设计能够预见所有问题的完美算法非常困难,而错误是软件开发中令人讨厌但又很常见的部分。“云计算情况的唯一独特之处在于其影响。”

[相关:亚马逊进军奇异的量子计算领域有了新的基地]

越来越多的独立公司开始转向 AWS 等第三方集中式服务来获取云基础设施、存储等。

“如果我付钱给亚马逊,让他们为我运营数据中心、存储文件并为我的客户提供服务……他们做得会比我作为大学管理员或小公司管理员做得更好,”雪莉说。“但从社会角度来看,当所有这些小个体参与者决定外包给云时,我们最终会陷入一个非常大的集中依赖关系。”

回归本源?

在 AWS 停运期间,Sherry 无法控制电视。通常,她使用手机作为遥控器。但手机并不直接与电视通信。相反,手机和电视都与云端服务器通信,而该服务器负责协调两者之间的通信。云端对于某些功能至关重要,例如下载自动软件更新。但对于通过天线或卫星浏览有线电视节目,“没有必要这样做,”她说。“我们在同一个房间,使用同一个无线网络,我要做的一切就是换个频道。”在某些情况下,云端可以提供方便的技术解决方案,但并非每个应用程序都需要它。

[相关:这就是微软将数据服务器置于海洋中的原因]

一项让她印象最深的被遗弃的技术是定时猫喂食器,它必须通过云端,这是一种不必要的迂回设计。自动猫喂食器在云端出现之前就已经存在了。它们基本上是与闹钟配对的。“但出于某种原因,有人决定不将闹钟部分内置到猫喂食器中,而是将闹钟喂食器放在云端,让猫喂食器通过互联网询问云端,是时候喂猫了吗?”雪莉说。“没有理由把它放在云端。”

展望未来,她认为应用程序开发人员应该审查为云设计的每个功能,并询问它是否可以在没有云的情况下工作,或者至少有一个离线模式,在互联网、数据中心甚至断电期间不会完全瘫痪。

“其他事情可能都无法正常工作。如果你无法访问银行服务器,你可能无法登录网上银行,”Sherry 说道。“但很多失败的事情其实都不应该失败。”

<<:  如何在任何网站上嵌入 Instagram 个人资料(并阻止他人嵌入您的个人资料)

>>:  在更多您喜爱的应用上找到您的“Spotify Wrapped”

推荐阅读

地球边缘的气候科学场景

气候学家通常认为斯瓦尔巴群岛是全球变暖的热点地区。自 20 世纪 90 年代以来,地球的平均气温上升...

《小小猫小比和朋友们》的魅力与评价:大人小孩都能享受的治愈系动画

小猫科比和朋友们 - 小猫科比和朋友们概述《小小猫和朋友们》是一部于 1998 年 5 月 21 日...

三星收购移动支付初创公司 LoopPay

我们支付的方式正在改变。自去年秋季推出 Apple Pay 系统以来,苹果取得了长足进步,因此三星想...

4 个酸性海洋“热区”威胁牡蛎和蛤蜊种群

通常,当你想到酸和贝类时,你可能会想到一些新鲜的柠檬汁或淡淡的木犀草来给完美去壳的生牡蛎增添光彩。但...

权力经纪人:资助能源革命

密歇根州立大学发动机研究实验室通常很安静,但到了八月的这个上午,每个人都紧张起来。然后,在中午前几分...

屁股神探系列第4季号召力与评价:解谜冒险更进一步进化

《屁股神探》系列第四季的号召力与评价《屁股侦探》是一部根据巨魔的图画书改编的人气动画系列,这次我们将...

通过大力水手行动,美国政府将天气变成了战争工具

1974 年的一个寒冷的下午,罗德岛州民主党参议员克莱本·佩尔和新泽西州共和党参议员克利福德·凯斯走...

本周我们了解到的最奇怪的事情:女权主义黄油雕塑和美国最受欢迎的消遣方式

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听 PopSci 的热门播客,你会得...

现在在亚马逊上购买 Apple M1 MacBook Pro 可享受 300 美元折扣

购买上一代手机或笔记本电脑是省钱的好方法,而且不会牺牲质量——尤其是如果你不需要市场上最新或最好的技...

龙珠Z 银河边缘!!最佳之最——终极之战与情感回顾

《龙珠Z:银河边缘!!最神奇的男人》——终极战斗与友情的故事《龙珠Z:在银河边缘!!最厉害的男人》是...

在亚马逊黑色星期五期间购买 Beats、Sony 等品牌的耳机可享受高达 51% 的折扣

黑色星期五是购买您梦寐以求的昂贵耳机的好时机。感恩节前,您可以凭借亚马逊的黑色星期五优惠,在亚马逊上...

火山喷发极难预测。原因如下。

印度尼西亚巴厘岛的阿贡火山正在轰鸣,喷出数千英尺高的火山灰柱,混合着气体和尖锐的火山灰碎片。机场已关...

这台巨大的施乐打印机可以为美国海军制造金属零件

施乐的新型打印机宽 9 英尺,高 7 英尺,内部温度超过 1,500 华氏度。当然,它不是喷墨打印机...

《重写第二季》评论与印象:透彻解读续集的吸引力与演变

“重写第二季”:扩展的故事和感人的结局《Rewrite 第 2 季》是一部电视动画系列,改编自 Ke...

屈服于怀旧情绪,回归更简单的 Twitter 版本

我是一个简单的人——我只想从 Twitter 上看到我关注的人的最新帖子,按时间倒序排列,这样我就可...