Stellungnahme zur Störung im RZ Espelkamp

Sehr geehrter Hostingkunde,

am Mittwoch, den 10. Januar 2018 kam es um 15:30 Uhr in unserem Rechenzentrum zu einem Ausfall, wodurch weite Teile unserer Infrastruktur nicht erreichbar waren. Betroffen waren Kunden, die unsere Webhosting- vServer und Managed Serve-Tarife nutzen. Unsere dedizierten Rootserver waren nicht von der Störung betroffen.

In dieser Mitteilung wollen wir näher auf die Ursache der zurückliegenden Störung eingehen und auch die von uns ergriffenen Lösungs- sowie Präventionsmaßnahmen konkret benennen.

Beim Aufruf von Webseiten, die in unserem Rechenzentrum gehostet werden, werden eingehende Anfragen zunächst an unsere zentralen Loadbalancer weitergeleitet. Diese steuern die Anfragen intelligent und übergibt sie dann an den jeweils zuständigen Webserver, auf dem die angeforderte Webseite liegt.

Für unsere drei Netzbereiche (Webhosting & vServer, Managed Server, Rootserver) stehen insgesamt sechs Loadbalancer zur Verfügung. Die Loadbalancer sind pro Netzbereich redundant ausgelegt, so dass beim Ausfall eines der Geräte einer der anderen einspringt. Mit diesem Netzwerkaufbau betreiben wir unser Hosting bereits seit vielen Jahren mit einer durchschnittlichen Verfügbarkeit von mehr als 99,97%.

Am Mittwochnachmittag erfolgte um 15:30 Uhr in dem von der Störung betroffenen Netzbereich ein automatisierter Schwenk vom aktiven auf den passiven Loadbalancer. Dies ist ein üblicher Vorgang, der regelmäßig stattfindet. Eine ungewöhnlich hohe CPU-Auslastung der Geräte in Kombination mit einem bislang unentdeckten Softwarefehler sorgte im konkreten Fall jedoch dafür, dass der Vorgang fehlschlug. Eine weitergehende Analyse der Situation ergab, dass die Loadbalancer nicht mehr in der Lage waren, Anfragen korrekt weiterzuleiten. Die im Netzbereich befindlichen Webseiten waren daher nicht mehr erreichbar.

Unser Monitoring hat uns umgehend über diesen Vorfall informiert, weswegen wir unverzüglich mit der Analyse der Störung begonnen haben. Auch ein Neustart der beiden betroffenen Geräte führte nicht zum gewünschten Erfolg, da die aktuelle Backupkonfiguration trotz regelmäßiger Tests von keinem der beiden Loadbalancer akzeptiert wurde. Nach Rücksprache mit dem Gerätehersteller wurde daher der schrittweise Neuaufbau der Konfigurationsdatei initiiert. Hierbei ist es notwendig, die Konfiguration in einer festdefinierten Reihenfolge neu aufzubauen, da die jeweiligen Konfigurationen zum Teil aufeinander aufbauen. Dies erklärt auch, warum zunächst unsere Webhostingpakete wieder erreichbar waren, danach unsere vServer und schlussendlich Systeme mit aktiver SSL-Verschlüsselung. Innerhalb der jeweiligen Systembereiche haben wir starkfrequentierte Webseiten und Onlineshops vorrangig behandelt.

Der Neuaufbau der Konfiguration hat rückblickend betrachtet etwa zwei Sekunden pro Kundenumgebung in Anspruch genommen, was die zum Teil unterschiedlichen Ausfallzeiten unserer Systeme erklärt. Erste Webseiten waren bereits am Mittwochnachmittag um 17:15 Uhr wieder erreichbar, der von uns ebenfalls priorisierte Maildienst war ab 22:00 Uhr wieder verfügbar und hat mit dem Abarbeiten der zwischengespeicherten E-Mails begonnen.

Die genauen Ausfallzeiten waren für uns zu Beginn der Arbeiten nur sehr grob abschätzbar, da die prognostizierten Zeiten anfänglich sehr stark schwankten. Daher mussten wir die ursprünglich für Donnerstag 22:00 Uhr geplante Erreichbarkeit aller Systeme später auf Freitagmorgen 8:00 Uhr korrigieren. Während etwa 98% aller Systeme in der Nacht von Donnerstag auf Freitag wieder erreichbar waren, haben wir bis in das Wochenende hinein an der Beseitigung individueller Problemstellungen (u. a. im Zusammenhang mit Varnish) gearbeitet.

Parallel zum Neuaufbau der Loadbalancerkonfiguration haben wir am frühen Mittwochabend damit begonnen, alternative Lösungen zu evaluieren sowie Maßnahmen zur Beschleunigung dieses Prozesses zu erarbeiten.

Gemeinsam mit den Spezialisten des Herstellers haben unsere Netzwerkexperten nun eine Konfiguration erarbeitet, die sowohl den Softwarefehler auflöst, als auch die Auslastung der Geräte minimiert und einen Neuaufbau der Konfiguration in wenigen Sekunden ermöglicht. Damit können wir für die Zukunft einen stabilen Betrieb sicherstellen.

Wir möchten uns an dieser Stelle noch einmal ausdrücklich und in aller Form sowohl bei Ihnen als auch bei Ihren Kunden für die entstandenen Unannehmlichkeiten entschuldigen! An der Wiederherstellung Ihres Vertrauens in unsere Produkte und Serviceleistungen werden wir in der kommenden Zeit intensiv arbeiten!