新闻中心

EEPW首页 > 消费电子 > 业界动态 > Google云服务故障:只因同时做了两项升级

Google云服务故障:只因同时做了两项升级

作者: 时间:2016-08-25 来源:TECH2IPO 收藏

  本月11日13时13分到15时,位于美国数据中心的App Engine服务出现大面积故障。其中3%的应用出错概率超过50%,18%的应用访问出错概率在10%到50%之间,14%的应用出错概率在1%到10%之间,有2%的应用出错率在1%以下但依然高于正常水平。剩余63%的应用访问正常。

本文引用地址://m.amcfsurvey.com/article/201608/296024.htm

  近日在其官方日志中公开了故障原因,原来只因为工程师们在例行维护时同时做了两件事。

  出于负载均衡的考虑,Googe的工程师配置了新的数据中心,把老数据中心一定比例的App迁移到了新的数据中心,然后把流量从之前的服务器导向新的数据中心。

  至此相安无事,但不凑巧的是,数据中心的多台路由器正在软件升级,需要滚动式重启,网络流量处理能力不如平常。

  同时,新迁移的许多应用由于启动缓慢,导致旧服务器大量重复向新服务器发送启动应用的请求,进一步加重路由器负载,最终造成偶然丢失外部用户的访问。

  对此意外,方面表示将会加大对硬件的投入,修正导入流量的方式,并修改针对新服务器的重试请求。



关键词: Google 云服务

评论


相关推荐

技术专区

关闭