Jan
07

Erklärung zum Ausfall unserer Domänen

Filed Under (Consulting, PSAG) by on 07-01-2010 and tagged ,

Gestern mittag, das war der 6. Januar 2010 erreichten uns die ersten Anruf von Kunden, daß wohl unsere Webserver nicht mehr funktionieren, http://pohle.de wäre nicht erreichbar. Eine kurze Störungsanalyse unsererseits ergab, daß die beiden Nameserver unserer Domänen nicht mehr auf PING und NSLookup Anfragen reagierten.

Das wurde per Twitter Meldung kommuniziert:

Twitter Meldung über Ausfall von Schlund

An dieser Stelle ist wohl eine Erklärung fällig, warum uns dieser Ausfall betroffen hat:

Wir hosten alle unsere Services selbst in unserem eigenen Rechenzentrum in Dorfen. Dieses ist mit einer Standleitung der Deutschen Telekom an das Internet angebunden. Wir verfügen über eine Ersatzleitung ins Internet über das Vodafone UMTS Netzwerk, ich kann manuell das Routing unseres Datenverkehrs umschalten (eine automatische Umschaltung ist wenig sinnvoll, da die Telekom in den letzten Jahren die wenigen Fehler auf der Leitung schneller behoben hat, als ich hätte umschalten können).

Internet Domänen können wir hingegen nicht selbst registrieren, sondern müssen die Dienste eines sogenannten DNS Providers in Anspruch nehmen, das ist in unserem Fall aus historischen Gründen die ehemalige Schlund und Partner AG (ein Webhoster für Geschäftskunden) heute die Schlund Technologies GmbH mit Sitz in Regensburg, deren Geschäft von der InterNetX GmbH durchgeführt wird.

Da wir alle Domänen über Schlund Technologies beziehen und verwalten, ist es am einfachsten, die DNS Server dieses Unternehmens für die Domänen zu verwenden, Schlund bietet eine geclusterte DNS Infrastruktur an, das hat auch viele Jahre sehr zufriedenstellend funktioniert.

Die erste größere Störung gab es im November 2008, da wurde gegen die DNS Server von InternetX eine DDOS (Distributed Denial of Service) Attacke durchgeführt, welche die DNS Server in die Knie gezwungen hat und die Domänen waren nicht mehr erreichbar. DDOS funktioniert recht einfach, man ballert von vielen, damals waren es 40.000, Rechnern ständig Abfragen an die Server, die unter der Last dann nicht mehr verknünftig arbeiten bzw. so überlastet sind, daß sie die “regulären” Anfragen nicht mehr zeitgerecht beantworten können (siehe auch den Artikel in golem.dedazu).

Das hat zur Folge, daß Rechner, die nach der Adresse für http://pohle.de suchen, keine Antwort vom zuständigen Namens-Server erhalten und einfach zurückmelden, daß die Website http://pohle.de eben nicht erreichbar ist. Nun sieht das für den Endanwender so aus, als wären unsere Server down, dabei ist “nur” das Telefonbuch außer Betrieb, das die gängigen Namen in Netzwerkadressen übersetzt (und aus pohle.de die Adresse 87.139.89.37 macht).

Nach der Attacke im November 2008 hat Schlund Technologies / InternetX den Kunden versprochen, daß entsprechende Maßnahmen getroffen werden, so daß so etwas nicht wieder vorkommen wird. Das ist bei DDOS recht schwierig, denn es handelt sich ja um viele Rechner, die über die ganze Welt verteilt sind und mehr oder weniger reguläre Pakete und Anfragen absetzen. Jedenfalls hat das bis gestern funktioniert und dann, ausgerechnet am bayerischen Feiertag (die sitzen in Regensburg), kommt wieder so eine Attacke und es dauerte bis zum frühen Abend, bis man dies im Griff hatte. Nachdem unsere Server wieder errechbar waren, kommunizierten wir dies auch artig:

Wieder erreichbar

Wir haben nun unsererseits Maßnahmen ergriffen und heute den sogenannten “Secondary Nameserver” aller unserer Domänen zu uns umgezogen. Das hat nun zur Folge, daß wir zwar die leistungsfähige Infrastruktur von Schlund/InternetX und die einfache Verwaltung für unsere Domänen verwenden, bei einem Ausfall des Nameserver sollten die zugreifenden Rechner aber den Weg zum alternativen Namensserver finden, der bei uns im Rechenzentrum steht. Wir werden bei der nächsten DDOS Attacke auf Schlund/InternetX sehen, ob das so klappt, wie ich mir das vorstelle.

Warum drücke ich mich so vorsichtig aus? Nun eigentlich ist definiert, daß sich ein Rechner immer den Weg zum Secondary Nameserver sucht, wenn der Primary Nameserver nicht verfügbar ist. So richtig nicht verfügbar sind die Nameserver aber auch nicht, wenn ein Angriff stattfindet, sie reagieren nur furchtbar langsam auf die Anfragen, weil sie so viele haben. Das kann man überprüfen, indem man im Browser immer wieder F5 drückte während der Störung – irgendwann hat es dann auch mal geklappt mit der Namensabfrage. Dadurch, daß die Nameserver “ein wenig” funktioniert haben, ist nicht wirklich sichergestellt, daß die Clients sich in so einem Störungsfall wirklich den Weg zu unserm Secondary Nameserver suchen.

Natürlich läßt sich auch der Fall konstruieren, daß ein DDOS Angriff gegen InternetX/Schlund und gegen unseren Nameserver gleichzeitig stattfindet, dann nützt das natürlich alles nichts. Hoffen wir einfach mal das beste.

Die obigen Ausführungen sind übrigens der Grund, warum wir zwar eine Verfügbarkeitsgarantie für die von uns gehosteten Server anbieten, nicht jedoch eine Garantie für den Zugriff über das Internet.

Für die Techniker unter den Lesern: Wir haben auch die Möglichkeit in Erwägung gezogen, den Primary DNS bei uns zu hosten und den Schlund Server als Secondary zu benutzen – da ist uns der Umstellungsaufwand im Augenblick aber zu groß und der Nutzen nicht direkt erkennbar. Auch könnten wir beide Nameserver bei uns hosten – aber auch hier ist Aufwand und ehrlich gesagt: Der Ausfall gestern war “nur” 8 Stunden…




Artikel, die Sie auch interessieren könnten:

coded by nessus


Leave a Reply