Ausfall des Servers am 03.04.2013

Maestro2k5

Projektleiter
Mitarbeiter
Beiträge
13.692
Ort
Erfurt
Smartphone
OnePlus 6T
Hallo und guten Abend,

Wie Ihr sicher bemerkt habt waren wir heute kurzzeitig Offline. Das ganze war nicht unser verschulden sondern hatte andere Gründe ... Hier mal ein Auszug aus der Mail die ich erhalten habe.

Sehr geehrte Damen und Herren,

heute Nachmittag gegen 16:20 Uhr ereignete sich ein Rechenzentrumweiter Stromausfall über ca. 1 Stunde und 30 Minuten. Grund für den Ausfall waren Arbeiten an der USV (Unterbrechungsfreien Stromversorgung). Heute Mittag sollte eine Erweiterung der Anlage um eine weitere USV durchgeführt werden. Der zuständige Elektromeister hat bei diesen Arbeiten allerdings einen folgenschweren Fehler gemacht, der einen Kurzschluss im geschützten Bereich verursacht hat. Dieser Kurzschluss hat das Schaltorgan beschädigt, welches ausgetauscht werden musste. Es konnten innerhalb von 15 Minuten 60 % der Versorgung wieder hergestellt werden, für die übrigen 40 % musste jedoch zunächst der Fehler gesucht und behoben werden. Da es sich bei dem Ausfall um ein internes Problem handelte, konnten auch die üblichen Sicherungsmaßnahmen nicht greifen. Der Ausfall lag innerhalb des USV geschützten Bereichs.

Derzeit ist die Stromversorgung wieder hergestellt. Wir arbeiten mit Hochdruck daran die Serversysteme wieder einzuschalten. Sollte ihr Serversystem noch nicht wieder verfügbar sein, bitten wir Sie uns eine E-Mail mit folgenden Informationen zukommen zu lassen:

- Serverbezeichnung (bei V-Servern V-Server ID)
- IP-Adresse

Im Laufe der nächsten Stunden sind noch weitere Arbeiten notwendig, um alle Systeme wieder in ihren gewohnten Betriebszustand zu versetzen. Wir entschuldigen uns in alle Form für die Ihnen entstandenen Umstände.

Bitte beachten Sie, dass wir in den nächsten Stunden den Arbeiten im Rechenzentrum höchste Priorität zuweisen, daher kann es zu einer Verzögerung bei der Bearbeitung von Konfigurations- und Administrationsaufträgen kommen.
MFG

Christian
 

Maestro2k5

Projektleiter
Mitarbeiter
Beiträge
13.692
Ort
Erfurt
Smartphone
OnePlus 6T
Hallo,

hier nochmal eine ausführliche Stellungnahme zu dem Ausfall:

Sehr geehrte Damen und Herren,

ich bin gerade wieder aus unserem Rechenzentrum in Frankfurt im Büro eingetroffen und möchte den Tag noch einmal abschließend Revue passieren lassen.

Zugegebenermaßen, ein vergleichbares Problem bzw. eine vergleichbare Störung hatten wir bislang noch nie. Über 700 Serversysteme wurden gleichzeitig vom Stromnetz getrennt, Hochverfügbarkeitscluster, die wiederhergestellt werden mussten, Redundante Datenbankcluster die den Dienst verweigerten, defekte Festplatten, defekte Netzteile, InnoDB Datenbanken die nicht mehr starten konnten, Switche die ihr Gedächtnis verloren haben, die Liste ist schier grenzenlos. Dazu eine Flut an E-Mails, Anrufen, Messanger Nachrichten und co. da kann man schnell schon einmal den Überblick verlieren. Nichts desto trotz konnten wir alle Mitarbeiter unseres Teams sowie technischen Mitarbeiter im Rechenzentrum mobilisieren um eine möglichst schnelle und koordinierte Endstörung der Dienstleistungen zu ermöglichen. Leider kam es dennoch bei einigen Kunden zu größeren Verzögerungen, da viele Probleme doch sehr spezieller Natur waren, wofür wir uns nur entschuldigen können. Ich hoffe, dass wir noch aktue
ll bestehende Probleme in einer guten Zusammenarbeit lösen können um einen langfristigen und einwandfreien Betrieb sicherzustellen.

Besonders möchte ich mich bei unseren Kunden bedanken, die größtenteils sehr viel Verständnis für die Situation aufbrachten und uns durch eine schnelle und sehr gute Kommunikation bei der Störungsbeseitigung behilflich waren. Ebenso bei unseren Mitarbeitern, die im Rechenzentrum sowie im Büro bis Nachts großartige Arbeit geleistet haben.

Trotz mehrfacher Sicherheitsmaßnahmen für die Stromversorgung im Rechenzentrum, mehrfach redundant ausgelegter Netzwerktechnik und USV Anlagen müssen leider auch wir die Erfahrung machen, dass jedes System eine Schwachstelle hat und wo Menschen arbeiten Fehler passieren. Die Frage ist nur, wie man mit den daraus resultierenden Fehlern umgeht und welche Maßnahmen man zukünftig unternimmt, um solche Probleme besser Koordinieren und Administrieren zu können. Einer der ersten Schritte wird die Einführung einer externen Statusseite sein, über die Störungen an die Kunden besser kommuniziert werden können. Ein weiterer Schritt wird ein Tool sein, worüber die Mitarbeiter noch besser koordiniert werden können um unnötige Wartezeiten zu vermeiden. Natürlich sind wir auch gerne offen, für weitere Vorschläge und Feedbacks von Kundenseite aus.

Sollte es aktuell noch zu Problemen mit ihren Services kommen, werden wir uns gerne umgehend darum kümmern. Da die 99 % der Dienste wieder einwandfrei hergestellt wurden, können Sie wieder mit einer schnellen Reaktionszeit unseres technischen Supports rechnen.



Mit freundlichen Grüßen
 

Similar threads


Top