Microsoft lernt aus weltweitem Ausfall von Teams und Office

GSL-Team

Ein falsch konfigurierter Microsoft-Dienst löste in der vorigen Woche eine Kettenreaktion aus, die dazu führte, dass Kunden in aller Welt stundenlang nicht richtig arbeiten konnten.

Inzwischen hat Microsoft die Ursache für den fünfstündigen weltweiten Ausfall seiner Microsoft-365-Dienste jetzt öffentlich kommuniziert: Der Microsoft-Service rollte einen falsch konfigurierten Enterprise Configuration Service (ECS) aus, welcher sich kaskadenartig auf verschiedene andere Dienste ausbreitete und so zu jeder Menge Fehlern führte, berichtet das IT-Magazin Bleepingcomputer dazu.

Die Störung begann mit dem Ausfall von Teams

Begonnen hat der Störfall mit dem Ausfall von Microsofts Videokonferenz-App Teams. Die Benutzer konnten nicht mehr auf diese App zugreifen oder überhaupt irgendwelche Funktionen nutzen. Microsoft meldete sich dazu über Twitter und kommunizierte den Ausfall auch.

Zu diesem Zeitpunkt konnten viele der Kunden schon gar nicht mehr oder nur noch eingeschränkt arbeiten, denn Teams ist bei vielen Unternehmen ein unbedingt notwendiges Kommunikationswerkzeug.

Microsoft begründet den Ausfall jetzt sehr ausführlich: “Eine Bereitstellung im ECS-Service enthielt einen Codefehler, der die Abwärtskompatibilität mit Services beeinträchtigte, die ECS nutzen. Das Endergebnis war, dass für Dienste, die ECS verwenden, falsche Konfigurationen an alle Partner zurückgegeben wurden.”,

Am schlimmsten war es in Asien

“Unsere Telemetrie verrät uns, dass davon etwa 300.000 Calls weltweit betroffen waren”, bestätigt Microsoft. Die Region Asia/Pacific spürte das wohl am härtesten, weil der Ausfall dort in die normalen Arbeitsstunden der asiatischen Zeitzonen fiel.

Nicht nur Teams-User berichteten von einem Ausfall – auch andere Dienste wie Exchange Online, Microsoft Word, Sharepoint Online, Yammer und selbst der Miet-Cloud-PC Windows 365 waren davon betroffen.

Konsequenz: Verbesserung der Abläufe geplant

Microsoft will das für die Zukunft verhindern, indem es Methoden zur Fehlerbehandlung in den existierenden Workflow einbaut.

Zusätzlich sollen die Dienste jetzt eine Rückfallebene auf noch zwischengespeicherte ECS-Konfigurationen bekommen. Im Falle eines Ausfalls kann der davon betroffene Dienst dann auf die ältere, aber funktionierende Konfiguration zurückgreifen…