Warum ist meine Webseite down? – Das Umgebungsfeature

Max Tarantik
Inside Enginsight
01.10.2018

Blogübersicht

Der Albtraum eines jeden Unternehmens: Plötzlich geht gar nichts mehr und niemand weiß warum. Telefon, Internet, Firmenwebseite sind down und vielleicht muss sogar die Produktion gestoppt werden. Für die Fehlersuche geht meistens sehr viel Zeit drauf. Das wollen wir mit unserem neuen Umgebungsfeature ändern!

Der Albtraum eines jeden Unternehmens: Plötzlich geht gar nichts mehr und niemand weiß warum. Telefon, Internet, Firmenwebseite sind down und vielleicht muss sogar die Produktion gestoppt werden. Für die Fehlersuche geht meistens sehr viel Zeit drauf. Das wollen wir mit unserem neuen Umgebungsfeature ändern!

Beispiele für gravierende Systemausfälle finden sich in den Medien zuhauf. Was dabei auffällt: Neben Ursachen wie z. B. Hackerangriffen oder Stromausfällen, liest man sehr häufig etwas von defekten Komponenten im Netzwerk.

„Die Systempanne, die zu einem bundesweiten Ausfall der zentralen Anwendungen der Bundesagentur für Arbeit geführt hat, ist wieder behoben. […] Ursache sei eine defekte Netzwerkkomponente gewesen.“

⮩heise online

„Die Website war down, E-Banking und Geldautomaten funktionierten während zwei Stunden nicht. […] Migros-Bank-Sprecher Urs Aeberli bestätigt den Systemausfall. «Eine falsche Konfiguration einer Netzwerkkomponente hat den Ausfall einiger Applikationen verursacht»“

⮩ 20 Minuten

„Ludwigshafen: IT-Störung bei BASF verursacht Verkehrschaos in der Region“

⮩ Die Rheinpfalz

„Ludwigshafen: Störung im BASF-Netzwerk ist behoben“ […] Ursache für die IT-Störung war nach Konzernangaben eine fehlerhafte Netzwerkkomponente.„

⮩ Die Rheinpfalz

„Die Kfz-Zulassungsstelle und die Fahrerlaubnisbehörde in Essen-Steele sind am Dienstagvormittag zwischenzeitlich geschlossen worden. Der Grund: Ein Ausfall der Technik durch eine defekte Netzwerkkomponente.“

⮩WAZ

Fast immer ist die Ursache für Systemausfälle also eigentlich relativ klein: eine Netzwerkkomponente ging plötzlich kaputt oder ein Server war zeitweise überlastet. Aber warum führt das Problem einer einzigen Komponente im Netz dann so häufig zu System-Totalausfällen, die sich teilweise über Tage hinziehen können?

Problem: Root-Cause Detection

Die Computersysteme in Unternehmen sind über die Zeit immer weiter gewachsen. Meist sind diese so komplex geworden, dass niemand, nicht einmal die IT-Abteilung, einen kompletten Überblick über die Hardware, Software und alle Verbindungen im Netzwerk behalten kann.

Kleinere und auch größere Fehler werden so schnell übersehen. Wenn dann ein winziges Teil ausfällt, kann sich dieser Fehler in unvorhergesehener Weise auf das ganze System auswirken und plötzlich sind tausende Kunden vom Service abgeschnitten. Das ist quasi der Schmetterlingseffekt, angewendet auf die IT.

Fehlersuche nimmt viel Zeit in Anspruch

Diesen winzigen Fehler dann in der Infrastruktur zu finden, ist wie die Suche nach der sprichwörtlichen Nadel im Heuhaufen. Da sich der Fehler oft eben auch so unvorhersehbar auf das Gesamtsystem auswirkt, gibt es häufig kein logisches, systematisches Vorgehen. Die Mitarbeiter in der IT-Abteilung müssen manuell das gesamte System Komponente für Komponente durchgehen und verlieren dabei sehr viel Zeit. Besser wäre es natürlich solche Schwachstellen schon vorher zu identifizieren und etwas dagegen zu unternehmen.

Single Point of Failure vermeiden

Als Single Point of Failure (SPOF) bezeichnet man eine Komponente in einem technischen System, deren Ausfall oder Fehlfunktion zu eine Störung des Gesamtsystems führt.

Kette mit einem rot markierten Kettenglied

Es gibt sehr viele Anleitungen dazu, wie man mit einem SPOF am besten umgeht, z. B. indem man wichtige Komponenten wie Server redundant auslegt. Allerdings muss man diese Schwachstellen dafür erst einmal identifizieren und das ist gar nicht so einfach:

Nehmen wir beispielsweise an, ein Server wird als SPOF ausgemacht und 2 weitere redundante Server aufgesetzt, die bei einem Ausfall einspringen könnten. In den meisten Unternehmen läuft bei diesem Szenario dann allerdings auf allen 3 Servern die gleiche Software, z. B. Apache 2.4. Hat diese Version nun zufällig eine Sicherheitslücke, befindet sich diese Schwachstelle natürlich auch auf allen drei Servern und das stellt dann wieder einen Single Point of Failure dar. Hier setzt nun unser Umgebungen-Feature ein.

Die Lösung: Abhängigkeiten in der IT abbilden

Mit unserem neuen Umgebungen-Feature können Sie alle Abhängigkeiten in Ihrer IT einfach abbilden und die Komponenten Ihrer Infrastruktur in einen logischen Zusammenhang bringen.

Dazu können Sie einfach die Webseiten und Server auswählen, die sowieso schon von der Enginsight Plattform überwacht werden und angeben, in welcher Beziehung diese zueinander stehen. Sie können aber auch Komponenten wie Hubs, Switches, Router, Internetzugang oder IOT Geräte wie z. B. Smartwatches frei erstellen und hinzufügen. So könnte das dann beispielsweise aussehen:

Einzigartige Kombination: Abhängigkeiten & Live-Überwachung

Mit dem Umgebungsfeature bekommen Sie einen praktischen Überblick über Ihre IT-Infrastruktur. Die einzelnen Komponenten werden nicht nur namentlich „auf dem Papier“ hinzugefügt. Sie entsprechen den echten Systemen, die von der Enginsight Plattform live überwacht werden. So sehen Sie z. B. auf einen Blick, wenn eine neue Sicherheitslücke auf einem Server gefunden wurde und ob dieser Server in ein kritisches System eingebunden ist.

Den obigen Fall der drei Server, die alle die gleiche unsichere Apache-Version verwenden, könnten Sie also mit dem Umgebungsfeature erfolgreich als Single Point of Failure identifizieren.

Webseite down? Enginsight weiß warum!

Das Ganze funktioniert aber nicht nur, um präventiv Single Points of Failure zu entdecken. Auch wenn mal tatsächlich ein Ausfall vorliegen sollte, also z. B. die Firmenwebseite plötzlich down ist, hilft Ihnen das Feature weiter. Sie können dann direkt auf den Server klicken, auf dem die Webseite gehostet wird und dort nach dem Rechten sehen. Vielleicht ist die CPU Last gerade zu groß? Oder Sie entdecken verdächtigen Netzwerkverkehr, der auf eine DDos Attacke hindeuten könnte.

Eventuell liegt das Problem aber auch woanders, z. B. bei einem zweiten Server, von dem der Webseitenserver abhängt. Das alles sehen Sie direkt auf der Plattform.

Enginsight Tipp:

Wussten Sie schon, dass Sie mit Hilfe von Plugins eigene Skripte ausführen können? So kann z. B. beim Ausfall der Firmenwebseite automatisch ein Neustart des Servers ausgelöst werden.

Mehr über Plugins erfahren

Automatische Ermittlung der Abhängigkeiten

Noch befindet sich das Umgebungsfeature in der Beta-Phase. Das bedeutet, Sie müssen die Abhängigkeiten zwischen den Servern, Webseiten, etc. noch manuell erstellen. Bald wird Ihnen dann aber angezeigt, welche Verbindungen ermittelt werden konnten, so dass Sie gegebenenfalls nur noch an wenigen Stellen Änderungen vornehmen müssen.

Wo liegt mein Single Point of Failure?

Mehr Informationen zur Webseitenüberwachung mit Enginsight