Google предостави повече информация за причините на големия срив от края на предната седмица. Той засегна както компании, които разчитат на Google Cloud, така и собствените услуги като Gmail, YouTube, търсачката, Drive и Docs.

Един от вицепрезидентите на компанията, Бенджамин Трейнър, даде обяснение. Проблемът се корени в погрешна промяна на конфигурацията на малка група сървъри в един регион. Тя е приложена към по-голяма група сървъри, които са разпръснати в няколко съседни региона. Това кара машините да използват по-малко от половината си мрежов капацитет.

За това и проблемът се усети най-силно в платформите с висока нужда от трафик – като YouTube. Където крайните потребители имат нужда от по-малко ресурси, като търсачката на Гугъл, пълно изключване нямаше, но се стигна до сериозно забавяне.

Оценката на ефекта показва, че YouTube е загубил 10% от глобалните си посещения за периода на аварията. При Google Cloud спадът в трафика е 30%. Около 1% от потребителите на Gmail са имали проблеми с акаунтите си. Ниският процент не трябва да ви подвежда – това значи милиони засегнати хора.

От платформата за статуса на Google Cloud виждаме, че мрежовото запушване в източните Щати е траело 4 часа. Проблемът е бил отстранен в 16 часа тихоокеанско време. Там като засегнати са посочени Cloud, YouTube и G Suite.

Инженерите на компанията са успели да разберат какъв е проблема за секунди, но им отнело много повече да го решат. От една страна, самият проблем им пречи да върнат правилните конфигурации на сървърите. От друга страна аварията ударила техните вътрешни инструменти за комуникация, разказва служител на компанията пред Hackernews.

Това не е пълният доклад, който бе обещан, защото разследването продължава и цели да разкрие всички причини за загубата на такъв капацитет и бавното му възстановяване.