本月前两周,亚马逊网络服务 (AWS) 出现故障,导致两次中断:一次是 12 月 7 日发生的规模更大、范围更广的中断,另一次是 12 月 15 日发生的规模更小、范围更广的中断。两次中断都导致一系列网站和在线应用程序中断,包括 Google、Slack、Disney Plus、Amazon、Venmo、Tinder、iRobot、Coinbase 和《华盛顿邮报》。这些服务都依赖 AWS 为其提供云计算 — 事实上,AWS 是 Microsoft Azure、Google、IBM 和阿里巴巴等其他大型企业中领先的云计算提供商。 为了了解影响为何如此之大,以及公司可以采取哪些措施来防止将来再次发生类似的破坏,有必要退一步来看看云计算是什么,以及它有什么好处。 那么什么是云计算和 AWS?无论何时通过互联网连接任何设备,您的计算机实际上都在与另一台计算机对话。服务器是一种计算机,可以处理请求并将数据传送到同一网络或互联网上的其他计算机。 但运行自己的服务器并不便宜。你必须购买硬件盒,将其安装在某处,并为其提供大量电力。在许多情况下,它还需要互联网连接。然后,为了确保以最小的延迟接收和发送数据,这些服务器需要在物理上靠近其用户。 此外,你还必须安装需要定期更新的软件。你还必须建立故障安全机制,以便在主服务器发生故障时将操作切换到另一台服务器。 [相关: Facebook 对周一大规模中断做出解释] 卡内基梅隆大学助理教授贾斯汀·雪利 (Justine Sherry) 表示:“亚马逊等公司注意到,很多(计算基础设施)并不是真正针对你所运行的服务。” 例如,运行 Netflix 的代码与运行 Venmo 等服务的代码有所不同。Netflix 代码向用户提供视频,而 Venmo 代码促进金融交易。但底层的大多数计算工作实际上是相同的。 这时,云提供商就派上用场了。他们通常在全国范围内拥有数百到数千台服务器,带宽充足。他们负责处理繁琐的任务,如安全、数据中心运营的日常管理以及在需要时扩展服务。 “然后你就可以专注于你的[专业]代码。只需编写使视频工作的部分,或使金融交易工作的部分。这更简单,更便宜,因为亚马逊正在为很多很多客户做这件事。”雪莉解释道。“但也有缺点,那就是世界上每个人都依赖于同几个装满电脑的 Costco 大小的仓库。美国有几十个这样的仓库。但当其中一个出现故障时,后果将是灾难性的。” 12 月 7 日和 15 日 AWS 出了什么问题导致 AWS 中断的原因似乎与后台处理数据流的自动化系统的错误有关。 AWS 在一篇文章中解释称,12 月 7 日的错误是由于“在主 AWS 网络中托管的 AWS 服务之一的容量扩展自动活动”出现问题而导致的,这导致“连接活动激增,导致内部网络和主 AWS 网络之间的网络设备不堪重负,从而导致这些网络之间的通信延迟”。 [相关:深入了解“云”数据中心] 这种自动扩展功能允许整个系统根据网络上的用户数量调整其使用的服务器数量。Sherry 解释说:“如果早上 7 点我有 100 名用户,中午时分,每个人都在午休时间去亚马逊购物,现在我有 1,000 名用户,我需要 10 倍的计算机来与所有这些客户端进行交互。这些框架会自动查看需求量,并在需要时分配更多服务器来执行所需的任务。” 12 月 15 日晚些时候,AWS 发布的状态更新称,此次中断是由于“流量工程”错误地将“超出预期的流量转移到 AWS Backbone 的部分区域,从而影响了与部分互联网目的地的连接”造成的。 大型数据中心通过不同的互联网服务提供商拥有大量互联网连接。它们可以选择在线流量的路由,无论是通过 AT&T 的一条电缆,还是通过 Sprint 的另一条电缆。 他们的自动“流量工程”会根据一系列条件决定重新路由流量。“大多数提供商将主要根据负载重新路由流量。他们希望确保情况相对平衡,”Sherry 说。“听起来自动适应在 15 日失败了,他们最终在一个连接上路由了太多流量。你可以把它想象成一条水太多的管道,水从接缝处流出来。”这些数据最终被丢弃并消失了。 尽管过去几年出现过几次普遍的中断,但 Sherry 认为 AWS“非常擅长管理其基础设施”。从本质上讲,设计能够预见所有问题的完美算法非常困难,而错误是软件开发中令人讨厌但又很常见的部分。“云计算情况的唯一独特之处在于其影响。” [相关:亚马逊进军奇异的量子计算领域有了新的基地] 越来越多的独立公司开始转向 AWS 等第三方集中式服务来获取云基础设施、存储等。 “如果我付钱给亚马逊,让他们为我运营数据中心、存储文件并为我的客户提供服务……他们做得会比我作为大学管理员或小公司管理员做得更好,”雪莉说。“但从社会角度来看,当所有这些小个体参与者决定外包给云时,我们最终会陷入一个非常大的集中依赖关系。” 回归本源?在 AWS 停运期间,Sherry 无法控制电视。通常,她使用手机作为遥控器。但手机并不直接与电视通信。相反,手机和电视都与云端服务器通信,而该服务器负责协调两者之间的通信。云端对于某些功能至关重要,例如下载自动软件更新。但对于通过天线或卫星浏览有线电视节目,“没有必要这样做,”她说。“我们在同一个房间,使用同一个无线网络,我要做的一切就是换个频道。”在某些情况下,云端可以提供方便的技术解决方案,但并非每个应用程序都需要它。 [相关:这就是微软将数据服务器置于海洋中的原因] 一项让她印象最深的被遗弃的技术是定时猫喂食器,它必须通过云端,这是一种不必要的迂回设计。自动猫喂食器在云端出现之前就已经存在了。它们基本上是与闹钟配对的。“但出于某种原因,有人决定不将闹钟部分内置到猫喂食器中,而是将闹钟喂食器放在云端,让猫喂食器通过互联网询问云端,是时候喂猫了吗?”雪莉说。“没有理由把它放在云端。” 展望未来,她认为应用程序开发人员应该审查为云设计的每个功能,并询问它是否可以在没有云的情况下工作,或者至少有一个离线模式,在互联网、数据中心甚至断电期间不会完全瘫痪。 “其他事情可能都无法正常工作。如果你无法访问银行服务器,你可能无法登录网上银行,”Sherry 说道。“但很多失败的事情其实都不应该失败。” |
<<: 如何在任何网站上嵌入 Instagram 个人资料(并阻止他人嵌入您的个人资料)
>>: 在更多您喜爱的应用上找到您的“Spotify Wrapped”
《向阳素描》:描绘日常生活的温暖与治愈的纪念碑式治愈系动画■作品概要《向阳素描》是一部改编自青木梅创...
不仅仅是纽约和加州最近通过了重大措施来抑制并最终停止新的燃气汽车销售——就在今天,欧盟周四也宣布了自...
那是 2016 年,黑掉五角大楼刚刚成为联邦政府有史以来第一个漏洞赏金计划。该计划向 1,400 多...
在 iOS 13 中,苹果推出了 Memoji 贴纸,这是一种卡通头像,您可以根据自己的喜好自定义不...
世界上有些地方对恐龙有着极大的吸引力——犹他州的雪松山组、中国辽宁的化石层、艾伯塔省的恐龙省立公园。...
_在 www.twitch.tv 上观看来自 playstation 的现场视频按时间倒序排列 –...
SAMURAI 7 - 七武士 - 完整评论和推荐■ 公共媒体电视动画系列■ 原创媒体真人版■ 播出...
埃默里大学医学教授迪恩·琼斯表示,通过简单的测试,他就能确定宠物主人的身份。“我们几乎可以根据血液中...
如果你不喜欢牛奶麦片,那你一定是疯了。但是那些酥脆的泡芙或薄片在牛奶碗里放的时间越长,它们就会变得越...
My AI eBook Creation Pro 提供革命性的解决方案,简化您的电子书创作,帮助带来...
据了解,数百甚至数千只寒鸦会同时从树梢飞向冬季天空。现在,生态学家知道,这种同步迁徙是与一种名为“共...
《绿林》:青春与友谊的故事1991 年 11 月 21 日,Victor Music Industr...
《女高音雨》——深入挖掘每个人歌曲的魅力和情感《女高音雨》是一部短篇动画电影,于 2012 年 12...
美国邮政服务局因送货卡车而引发的争议决定将诉诸法庭。这场争议已经酝酿了数月:今年 2 月,一项购买 ...
在日常生活中,您很可能已经遇到过数百次单面物体,例如印在铝罐和塑料瓶背面的通用回收符号。这个数学物体...