30°

SRE超载系统导致Google服务大规模中断

Google发布了一份关于3月12日大规模服务中断的分析报告,指出SRE超载系统导致Google云存储错误率增加。

12日,全球许多用户报告了Gmail,YouTube,Google云端硬盘,Google音乐和其他Google服务的问题,包括北美,南美,欧洲和亚洲的部分地区,Google随后承认了此错误。 Google云状态信息中心显示此故障会影响Google云端存储的所有区域。

Raysonho @ Open Grid Scheduler / Grid Engine [CC0], via Wikimedia Commons

Google表示内部blob(大型数据对象)存储服务经历了4小时10分钟的服务中断。分析了根本原因,表明在3月11日,内部blob服务使用的元数据的存储资源中的Google SRE显着增加;在3月12日,为了减少资源使用,SRE进行了配置更改,其副作用是使系统的关键部分过载以查找blob数据的位置,并且增加的负载最终会导致错误率。

Google表示将针对非Google云平台服务的影响单独提供事件报告。Google为受此事件影响的服务和应用程序客户道歉,并表示正在采取措施提高可用性并防止此类中断再次发生。

原文链接:https://www.linuxidc.com/Linux/2019-03/157501.htm

全部评论: 0

    我有话说: