天塌了,“云”怎么办?


  亚马逊云服务的短暂故障透露出,它的用户们在不经意间对云服务的依赖程度已经大大超过了在网站上购物。亚马逊也出租服务器供别的公司建网站用,其中一个装满了服务器的巨型“仓库”上周四时开始出现问题,然后迅速波及开来。

  CNN报道说:“受亚马逊的云服务故障影响的网站有Reddit、Quora、FourSquare、Hootsuite,《纽约时报》(New York Times)和ProPublica的一部分,还有将近70%的其他站点。”

  Facebook游戏的提供商Zynga也受到了影响,还有政治网站“谈话要点备忘录”(Talking Points Memo)。他们都依赖于亚马逊的“弹性云计算”(elastic cloud compute)服务,也就是著名的“EC2”。一些站点全天都无法运行,少数网站,如领先的新闻聚合服务网站Reddit和当前正流行的问答网站Quora当时还能维持有限的功能。

  去年12月,一队匿名黑客攻击过亚马逊,但并未对其强大的服务器造成影响。此次运行中断并非因为他们在亚马逊的设备中发现了漏洞:

  “今晨发生的网络事件引发了US-EAST-1中EBS卷的大面积重复反射。”亚马逊网络服务的状态页面这样写道。

  通俗地说就是,华盛顿附近一个数据中心(aka US-EAST-1)服务器上的大量存储开始复制已有的数据。这样就耗尽了服务器上可用的存储空间,从而使所有的服务都停止了。数据中心被分割成各自独立的计算机集群,这是为了保证它们不会全部立刻瘫痪,但是这次的问题跨越了这种界限。

  一些依赖亚马逊数据中心的公司能挺过来或者较快恢复过来,是因为他们也使用其他的亚马逊其他地点的服务器或者其他的服务提供商。亚马逊自己未受影响,因为——就像其他的网络巨头(比如谷歌)一样——建立自己的数据中心的享受就在于你能够小心翼翼地运行它们,使之能与其他公司对抗,以确保高可靠性。这也是Facebook前不久新建的巨型数据中心的动机之一。

  亚马逊将不得不因超过4小时的故障而赔偿许多客户,这4小时是它的客户在一年之内所能允许的全部故障时间。而且,不管媒体的头条怎么报道这次关于云计算的危险性,亚马逊都不太可能关闭与此相关的诸多业务。对于只想建立新的网络服务和只想突出速度的工程师来说,一项几乎独一无二的服务——能够实现“现收现付制“(pay-as-you-go)计算,还能够提供可处理流量阻塞、恶意攻击以及更多问题的存储能力——是无法抗拒的。只要看一看受到影响的网站的综合名单就会发现,那些新创公司有多么喜欢这种方式。

  随着当前Web2.0时代以这种方式兴起的公司的成熟,亚马逊的云服务有可能变得更加重要,而不是相反。