Microsoft ha rivelato che l’interruzione mondiale di Microsoft 365, che si è verificata questa settimana, è stata causata da un’interruzione di corrente nell’infrastruttura, che a sua volta ha causato failover nei servizi di gestione del traffico in più aree geografiche.
A partire da lunedì 20 giugno, alle 23:00 UTC, i clienti hanno iniziato a riscontrare e segnalare diversi problemi durante il tentativo di accedere e utilizzare i servizi Microsoft 365.
Secondo Microsoft, i problemi riscontrati durante l’incidente includevano ritardi e errori durante l’accesso ad alcuni servizi di Microsoft 365. I rapporti dei clienti hanno anche condiviso informazioni sulle continue richieste di accesso, sui messaggi di posta elettronica che non vengono consegnati dopo essere rimasti bloccati nella posta in uscita e sull’impossibilità di accedere alle cassette postali di Exchange Online.
I servizi interessati includevano la piattaforma di comunicazione Microsoft Teams, la piattaforma di posta elettronica ospitata da Exchange Online, SharePoint Online, Universal Print e l’API Graph.
La risposta di Microsoft durante l’indagine sulla causa principale dell’interruzione ha anche portato alla luce alcuni problemi relativi al modo in cui l’azienda non riesce a condividere nuove informazioni relative agli incidenti con i clienti.
Anche se Microsoft ha detto ai clienti che potevano saperne di più su questo incidente dall’interfaccia di amministrazione in EX394347 e MO394389, i rapporti degli utenti suggeriscono che quei ticket di incidente non venivano visualizzati, mantenendo di fatto i clienti all’oscuro.
Incidente di 16 ore causato da un’interruzione di corrente
Più di 16 ore dopo il rilevamento dei primi segni di interruzione, martedì 21 giugno alle 15:27 UTC, Microsoft ha dichiarato ai clienti che la causa principale era un’interruzione di corrente nell’infrastruttura.
“Un’interruzione di corrente dell’infrastruttura ha reso necessario il failover della gestione del traffico di Microsoft 365 che serve gli utenti principalmente nell’Europa occidentale”, ha spiegato la società.
“Questa azione non è stata completata correttamente, causando ritardi funzionali e errori di accesso per diversi servizi Microsoft 365”.
L’interruzione è stata più grave per i clienti nell’Europa occidentale. Tuttavia, l’impatto si è esteso a “una piccola percentuale” di utenti in tutta l’area EMEA (Europa, Medio Oriente e Africa), Nord America e nelle regioni dell’Asia-Pacifico.
Redmond ha anche confutato i rapporti secondo cui un’interruzione separata, che ha colpito il servizio Web Outlook dell’azienda, era collegata anche a questo incidente.
“Inoltre, abbiamo completato la nostra indagine sul potenziale impatto residuo su Outlook sul Web (OWA) e abbiamo confermato che si tratta di un problema noto che non è correlato a questo evento”.
Martedì, anche Cloudflare è stato colpito da una massiccia interruzione che ha preso di mira oltre una dozzina di data center e centinaia delle principali piattaforme e servizi online.
Cloudflare ha rivelato che l’incidente è stato causato da un errore di configurazione.