Am 17.6.2010 hatten wir einen Ausfall unseres Rechenzentrums und somit einen Totalausfall der von uns gehosteten Services. Wir bitten unsere Kunden hierfür um Entschuldigung, jedoch liegt dieser Ausfall innerhalb aller vereinbarten SLAs.
19:02 Uhr - Ein starkes Unwetter geht über Dorfen nieder. Keller werden überschwemmt, die Isen tritt über die Ufer, die Feuerwehr ist im Dauereinsatz.
19:09 Uhr - Die Stromversorgung in Dorfen bricht zusammen. Unsere Services laufen natürlich weiter, denn sie sind durch eine USV Anlage (Unterbrechungsfreie Stromversorgung) mit Batterien für mindestens 20 Minuten geschützt.
19:24 Uhr - Die Standleitung zum Internet bricht zusammen, unser Rechenzentrum ist nicht mehr erreichbar, für unsere Services beginnt die Ausfallzeit somit um 19:24 Uhr (würde die Standleitung alleine, d.h. ohne Stromausfall zusammenbrechen, dann würde die Internetverbindung nach 20 Minuten automatisch auf den Linksys Backup Router mit UMTS umgeleitet)
19:29 Uhr - Unsere USV Anlage beschließt, die Rechner kontrolliert herunterzufahren, falls der Stromausfall noch eine Weile anhalten sollte.
19:35 Uhr - Alle Rechner sind heruntergefahren, die USV schaltet die Stromversorgung des Rechenzentrums ab.
19:40 Uhr - Nun hat es wohl auch die Batterie der Sendeanlage des zweiten großen Mobilfunkproviders in Dorfen erwischt, denn unser Linksys Router, der als Backup Zugang zum Rechenzentrum dient, ist nicht mehr erreichbar.
20:18 Uhr - Die Stromversorgung in Dorfen wird wiederhergestellt. In der Folge lädt unsere USV Anlage erstmal ihre Batterien wieder auf 30% Kapazität auf, damit sie einen nachfolgenden Stromausfall wieder verkraften würde.
20:19 Uhr - Unser Linksys Backup Router ist per UMTS wieder erreichbar. Das Management unserer USV Anlage zeigt, daß sie gerade am Aufladen der Batterien ist.
20:31 Uhr - 30% Kapazität sind erreicht, die Batterien schalten die Stromversorgung wieder durch, unsere Server werden in der definierten Reihenfolge wieder aktiviert.
20:37 Uhr - Die Standleitung zum Internet wird wieder aufgebaut, bis jetzt war das Modem auf der Gegenseite (beim Provider) nicht erreichbar.
20:55 Uhr - Die Server unserer Kunden und unser Blog sind wieder erreichbar, als Ende des Ausfalls gilt somit 20:55 Uhr.
21:48 Uhr - Ich habe alle Server und Services einzeln kontrolliert und alle Dienste laufen wieder. Die Nagios Konsole zeigt keine Fehler mehr an.
Der Ausfall dauerte 1 Stunde und 31 Minuten und lag somit innerhalb der vereinbarten Service Level Agreements. Ein Totalausfall der Stromversorgung über eine Dauer von mehr, als 20 Minuten wird von unseren SLAs nicht aufgefangen.
Am 17.6.2010 hatten wir einen Ausfall unseres Rechenzentrums und somit einen Totalausfall der von uns gehosteten Services. Wir bitten unsere Kunden hierfür um Entschuldigung, jedoch liegt dieser Ausfall innerhalb aller vereinbarten SLAs.
19:02 Uhr – Ein starkes Unwetter geht über Dorfen nieder. Keller werden überschwemmt, die Isen tritt über die Ufer, die Feuerwehr ist im Dauereinsatz.
19:09 Uhr – Die Stromversorgung in Dorfen bricht zusammen. Unsere Services laufen natürlich weiter, denn sie sind durch eine USV Anlage (Unterbrechungsfreie Stromversorgung) mit Batterien für mindestens 20 Minuten geschützt.
19:24 Uhr – Die Standleitung zum Internet bricht zusammen, unser Rechenzentrum ist nicht mehr erreichbar, für unsere Services beginnt die Ausfallzeit somit um 19:24 Uhr (würde die Standleitung alleine, d.h. ohne Stromausfall zusammenbrechen, dann würde die Internetverbindung nach 20 Minuten automatisch auf den Linksys Backup Router mit UMTS umgeleitet)
19:29 Uhr – Unsere USV Anlage beschließt, die Rechner kontrolliert herunterzufahren, falls der Stromausfall noch eine Weile anhalten sollte.
19:35 Uhr – Alle Rechner sind heruntergefahren, die USV schaltet die Stromversorgung des Rechenzentrums ab.
19:40 Uhr – Nun hat es wohl auch die Batterie der Sendeanlage des zweiten großen Mobilfunkproviders in Dorfen erwischt, denn unser Linksys Router, der als Backup Zugang zum Rechenzentrum dient, ist nicht mehr erreichbar.
20:18 Uhr – Die Stromversorgung in Dorfen wird wiederhergestellt. In der Folge lädt unsere USV Anlage erstmal ihre Batterien wieder auf 30% Kapazität auf, damit sie einen nachfolgenden Stromausfall wieder verkraften würde.
20:19 Uhr – Unser Linksys Backup Router ist per UMTS wieder erreichbar. Das Management unserer USV Anlage zeigt, daß sie gerade am Aufladen der Batterien ist.
20:31 Uhr – 30% Kapazität sind erreicht, die Batterien schalten die Stromversorgung wieder durch, unsere Server werden in der definierten Reihenfolge wieder aktiviert.
20:37 Uhr – Die Standleitung zum Internet wird wieder aufgebaut, bis jetzt war das Modem auf der Gegenseite (beim Provider) nicht erreichbar.
20:55 Uhr – Die Server unserer Kunden und unser Blog sind wieder erreichbar, als Ende des Ausfalls gilt somit 20:55 Uhr.
21:48 Uhr – Ich habe alle Server und Services einzeln kontrolliert und alle Dienste laufen wieder. Die Nagios Konsole zeigt keine Fehler mehr an.
Der Ausfall dauerte 1 Stunde und 31 Minuten und lag somit innerhalb der vereinbarten Service Level Agreements. Ein Totalausfall der Stromversorgung über eine Dauer von mehr, als 20 Minuten wird von unseren SLAs nicht aufgefangen.
Artikel, die Sie auch interessieren könnten:
coded by nessus