最近的 AWS 故障表明了云计算的强大和脆弱

最近的 AWS 故障表明了云计算的强大和脆弱

本月前两周,亚马逊网络服务 (AWS) 出现故障,导致两次中断:一次是 12 月 7 日发生的规模更大、范围更广的中断,另一次是 12 月 15 日发生的规模更小、范围更广的中断。两次中断都导致一系列网站和在线应用程序中断,包括 Google、Slack、Disney Plus、Amazon、Venmo、Tinder、iRobot、Coinbase 和《华盛顿邮报》。这些服务都依赖 AWS 为其提供云计算 — 事实上,AWS 是 Microsoft Azure、Google、IBM 和阿里巴巴等其他大型企业中领先的云计算提供商。

为了了解影响为何如此之大,以及公司可以采取哪些措施来防止将来再次发生类似的破坏,有必要退一步来看看云计算是什么,以及它有什么好处。

那么什么是云计算和 AWS?

无论何时通过互联网连接任何设备,您的计算机实际上都在与另一台计算机对话。服务器是一种计算机,可以处理请求并将数据传送到同一网络或互联网上的其他计算机。

但运行自己的服务器并不便宜。你必须购买硬件盒,将其安装在某处,并为其提供大量电力。在许多情况下,它还需要互联网连接。然后,为了确保以最小的延迟接收和发送数据,这些服务器需要在物理上靠近其用户。

此外,你还必须安装需要定期更新的软件。你还必须建立故障安全机制,以便在主服务器发生故障时将操作切换到另一台服务器。

[相关: Facebook 对周一大规模中断做出解释]

卡内基梅隆大学助理教授贾斯汀·雪利 (Justine Sherry) 表示:“亚马逊等公司注意到,很多(计算基础设施)并不是真正针对你所运行的服务。”

例如,运行 Netflix 的代码与运行 Venmo 等服务的代码有所不同。Netflix 代码向用户提供视频,而 Venmo 代码促进金融交易。但底层的大多数计算工作实际上是相同的。

这时,云提供商就派上用场了。他们通常在全国范围内拥有数百到数千台服务器,带宽充足。他们负责处理繁琐的任务,如安全、数据中心运营的日常管理以及在需要时扩展服务。

“然后你就可以专注于你的[专业]代码。只需编写使视频工作的部分,或使金融交易工作的部分。这更简单,更便宜,因为亚马逊正在为很多很多客户做这件事。”雪莉解释道。“但也有缺点,那就是世界上每个人都依赖于同几个装满电脑的 Costco 大小的仓库。美国有几十个这样的仓库。但当其中一个出现故障时,后果将是灾难性的。”

12 月 7 日和 15 日 AWS 出了什么问题

导致 AWS 中断的原因似乎与后台处理数据流的自动化系统的错误有关。

AWS 在一篇文章中解释称,12 月 7 日的错误是由于“在主 AWS 网络中托管的 AWS 服务之一的容量扩展自动活动”出现问题而导致的,这导致“连接活动激增,导致内部网络和主 AWS 网络之间的网络设备不堪重负,从而导致这些网络之间的通信延迟”。

[相关:深入了解“云”数据中心]

这种自动扩展功能允许整个系统根据网络上的用户数量调整其使用的服务器数量。Sherry 解释说:“如果早上 7 点我有 100 名用户,中午时分,每个人都在午休时间去亚马逊购物,现在我有 1,000 名用户,我需要 10 倍的计算机来与所有这些客户端进行交互。这些框架会自动查看需求量,并在需要时分配更多服务器来执行所需的任务。”

12 月 15 日晚些时候,AWS 发布的状态更新称,此次中断是由于“流量工程”错误地将“超出预期的流量转移到 AWS Backbone 的部分区域,从而影响了与部分互联网目的地的连接”造成的。

大型数据中心通过不同的互联网服务提供商拥有大量互联网连接。它们可以选择在线流量的路由,无论是通过 AT&T 的一条电缆,还是通过 Sprint 的另一条电缆。

他们的自动“流量工程”会根据一系列条件决定重新路由流量。“大多数提供商将主要根据负载重新路由流量。他们希望确保情况相对平衡,”Sherry 说。“听起来自动适应在 15 日失败了,他们最终在一个连接上路由了太多流量。你可以把它想象成一条水太多的管道,水从接缝处流出来。”这些数据最终被丢弃并消失了。

尽管过去几年出现过几次普遍的中断,但 Sherry 认为 AWS“非常擅长管理其基础设施”。从本质上讲,设计能够预见所有问题的完美算法非常困难,而错误是软件开发中令人讨厌但又很常见的部分。“云计算情况的唯一独特之处在于其影响。”

[相关:亚马逊进军奇异的量子计算领域有了新的基地]

越来越多的独立公司开始转向 AWS 等第三方集中式服务来获取云基础设施、存储等。

“如果我付钱给亚马逊,让他们为我运营数据中心、存储文件并为我的客户提供服务……他们做得会比我作为大学管理员或小公司管理员做得更好,”雪莉说。“但从社会角度来看,当所有这些小个体参与者决定外包给云时,我们最终会陷入一个非常大的集中依赖关系。”

回归本源?

在 AWS 停运期间,Sherry 无法控制电视。通常,她使用手机作为遥控器。但手机并不直接与电视通信。相反,手机和电视都与云端服务器通信,而该服务器负责协调两者之间的通信。云端对于某些功能至关重要,例如下载自动软件更新。但对于通过天线或卫星浏览有线电视节目,“没有必要这样做,”她说。“我们在同一个房间,使用同一个无线网络,我要做的一切就是换个频道。”在某些情况下,云端可以提供方便的技术解决方案,但并非每个应用程序都需要它。

[相关:这就是微软将数据服务器置于海洋中的原因]

一项让她印象最深的被遗弃的技术是定时猫喂食器,它必须通过云端,这是一种不必要的迂回设计。自动猫喂食器在云端出现之前就已经存在了。它们基本上是与闹钟配对的。“但出于某种原因,有人决定不将闹钟部分内置到猫喂食器中,而是将闹钟喂食器放在云端,让猫喂食器通过互联网询问云端,是时候喂猫了吗?”雪莉说。“没有理由把它放在云端。”

展望未来,她认为应用程序开发人员应该审查为云设计的每个功能,并询问它是否可以在没有云的情况下工作,或者至少有一个离线模式,在互联网、数据中心甚至断电期间不会完全瘫痪。

“其他事情可能都无法正常工作。如果你无法访问银行服务器,你可能无法登录网上银行,”Sherry 说道。“但很多失败的事情其实都不应该失败。”

<<:  如何在任何网站上嵌入 Instagram 个人资料(并阻止他人嵌入您的个人资料)

>>:  在更多您喜爱的应用上找到您的“Spotify Wrapped”

推荐阅读

《Soft-san 的悲剧:新物种的诞生》评论:感人的故事和独特的人物

全面回顾和推荐《软先生的悲剧:一个新物种的诞生》概述《Soft-san的悲剧:新物种的诞生》是Pon...

可能改变足球的头盔

几十年来,足球运动员一直佩戴坚硬、不屈的头盔,这些头盔可以保护头骨,但对预防脑震荡却无能为力。为了解...

生化猎人:其吸引力与评价:深度评论

生化猎人——细野藤彦的黑暗幻想世界1995年12月8日发售的OVA《生化猎人》改编自细野藤彦的同名漫...

城市水危机往往归咎于阶级歧视

在过去四十年中,全球用水量每年增加约 1%。这一增长是由许多因素推动的,包括人口增长、消费模式变化和...

高丸:幕末少年——融合历史与科幻的全新冒险故事

《高丸:幕末少年》:一个永恒的冒险与友谊故事《高丸:幕末少年》是 1991 年以 OVA 形式发布的...

古埃及人利用鳄鱼粪便来避孕,而且很有效果

本周你学到的最奇怪的事情是什么?好吧,不管是什么,我们保证如果你听PopSci的热门播客,你会得到一...

古埃及人将动物制成木乃伊,并将它们放入精美的小棺材中

2500 年前的微型棺材里有什么?现在大英博物馆的研究人员知道了。一组科学家使用一种名为中子断层扫描...

本周末亚马逊上不提供的五项超值随机优惠

我的工作是寻找酷炫的东西。整个星期我都会花几个小时在网上搜索有用、有趣或便宜得离谱的东西。很多时候,...

废纸篓大小的核反应堆可以为我们的火星定居点提供动力

这个铀圆柱体大小与咖啡罐相当。即使加上屏蔽罩和探测器,这个装置仍然不比废纸篓大。但这个即将在内华达州...

中国将带入未来战斗的新型外骨骼、坦克和全地形车:珠海航展的地面装备

2016 年珠海航展上有大量飞机、无人机和导弹展示,但地面部分仍然非常重要。这种形式让国际观察员以全...

机械而冰冷的心脏

短信写道:“人们在婚礼当天见面曾经是常态。”她感觉心脏在胸腔里跳动,跳动得有点过猛。人工瓣膜保持着正...

中国正在开发海军理论家梦想的军舰

中国海军正在将军火舰推向新的方向——巨型潜水艇。冷战后的海军理论家们一直梦想着通过大型“军火舰”或携...

美国宇航局选择了这些设计师来改造其古老的宇航服

随着 NASA 计划重返月球,未来的宇航员可能很快就会穿上一些全新的外衣。经过 40 年的太空生活,...

《NORA》的魅力与评价:描绘街头文化的动画的深度

NORA综合评估与推荐概述1985年1月21日发售的原作动画(OVA)作品《NORA》是一部具有原创...

《Fate/kaleid liner Prisma☆Illya 2wei!》的魅力与评价:续篇的深化与新的冒险

Fate/kaleid liner Prisma☆Illya 2wei 的详细评论和推荐! - Fa...