V6_Monitoring Flashcards
Nagios
Monitoring-Software zur Überwachung von IT-Infrastrukturen
Nagios überwacht
- Hosts
- Services
- Netzwerke
Parent Hosts
definieren eine “Hierarchie der Hosts im Netzwerk”, d.h. direkte bzw. indirekte Erreichbarkeit für Nagios.
Dadurch kann Nagios entscheiden, ob ein Host wirklich nicht funktinoiert oder ggfs. “nur” nicht erreichbar ist, weil ein dazwischenliegender Parent Host nicht funktioniert.
Parent Hosts (2)
Ein Host host1 ist parent von
host2, wenn der Weg im Netzwerk
von Nagios zu host2 über host1
führt, und host1 und host2 direkt
verbunden sind.
Auch Router und Switches werden
in diese Relation mit einbezogen,
wenn auch sie von Nagios
überwacht werden.
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Soft State / Error
treten auf ..
- wenn ein Host- oder Service-Prüfungsergebnis in einem nicht-OK oder nicht-UP-Status resultiert und die Service-Prüfung noch nicht so oft durchgeführt wurde, wie es in der max check attempts direktive der service- oder Host-Definition angegeben wurde.
Dies wird als Soft-Error bezeichnet.
- wenn sich ein Service oder Host von einem Soft-Error erholt. Dies nennt man Soft-Recovery.
Hard State / Error
treten auf..
- wenn ein Host- oder Service-Prüfungsergebnis in einem nicht-OK oder nicht-UP-Status resultiert und die Prüfung bereits so oft durchgeführt wurde, wie es in der max_check_attempts-Direktive der Service- oder Host-Definition angegeben wurde. Dies wird als Hard-Error bezeichnet.
- wenn ein Host oder Service von einem Hard-Error-Zustand in einen anderen Fehlerzustand wechselt. zb von warning zu critical.
- wenn ein Host oder Service sich von einem Hard-Error-Zustand erholt. Dies wird als Hard-Recovery angesehen.
die Kontakte werden über das Host- oder Service-Problem bzw. über die Erholung benachrichtigt.
Was bedeutet Flapping?
Flapping bedeutet, dass ein Host oder Service zu oft den Zustand wechselt und dadurch einen Sturm von Problem- und Erholungsbenachrichtigungen erzeugt.
Flapping kann..
- auf Konfigurationsprobleme hinweisen (Schwellwerte die zu niedrig gesetzt sind)
- oder auf sich gegenseitig störende Services
- oder auf wirkliche Netzwerkprobleme
- oder anderweitige technische Probleme
Flap Detection
- Die Ergebnisse der letzten 21 Checks für einen bestimmten Host oder Service werden gespeichert.
- Durch die Analyse dieser gespeicherten Prüfergebnisse können wir erkennen, wo Statuswechsel aufgetreten sind.
- Mithilfe dieser erkannten Statuswechsel legen wir eine Rate für den Statuswechsel des Hosts oder Services fest.
- Nun vergleichen wir diese ermittelte Statuswechselrate mit den vorher festgelegten Flatter-Schwellenwerten.
Sobald die Statuswechselrate den hohen Flatter-Schwellenwert übersteigt, klassifizieren wir den Host oder Service als beginnendes Flapping.
Dieser Prozess gilt auch umgekehrt.
Behandlung des Flapping-Starts
Event-Meldung protokollieren das Host flattert.
einen nicht-permanenten Kommentar zum Host oder Service hinzufügen dass er flattert.
eine flapping start benachrichtigung für den Host oder Service an die betreffenden Kontakte versenden.
Behandlung des Flapping-Endes
Das gegenteil von start.