V6_Monitoring Flashcards
Nagios
Monitoring-Software zur Überwachung von IT-Infrastrukturen
Nagios überwacht
- Hosts
- Services
- Netzwerke
Parent Hosts
definieren eine “Hierarchie der Hosts im Netzwerk”, d.h. direkte bzw. indirekte Erreichbarkeit für Nagios.
Dadurch kann Nagios entscheiden, ob ein Host wirklich nicht funktinoiert oder ggfs. “nur” nicht erreichbar ist, weil ein dazwischenliegender Parent Host nicht funktioniert.
Parent Hosts (2)
Ein Host host1 ist parent von
host2, wenn der Weg im Netzwerk
von Nagios zu host2 über host1
führt, und host1 und host2 direkt
verbunden sind.
Auch Router und Switches werden
in diese Relation mit einbezogen,
wenn auch sie von Nagios
überwacht werden.
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Services in Nagios
- ein SW-Dienst auf dem Host ( zB. HTTP, FTP, SSH,..)
- eine interne Eigenschaft eines Hosts zb. der noch verfügbare Festplattenplatz, Speicher und CPU Auslastung, Uptime, interne Fehlermeldungen..)
- eine über entsprechende Zusatzhardware messbare Umweltbedingung zb Temperatur.
- oder aber andere mit einem Host verbundene Information zb DNS Redords, Anzahl offener Tickets…
Soft State / Error
treten auf ..
- wenn ein Host- oder Service-Prüfungsergebnis in einem nicht-OK oder nicht-UP-Status resultiert und die Service-Prüfung noch nicht so oft durchgeführt wurde, wie es in der max check attempts direktive der service- oder Host-Definition angegeben wurde.
Dies wird als Soft-Error bezeichnet.
- wenn sich ein Service oder Host von einem Soft-Error erholt. Dies nennt man Soft-Recovery.
Hard State / Error
treten auf..
- wenn ein Host- oder Service-Prüfungsergebnis in einem nicht-OK oder nicht-UP-Status resultiert und die Prüfung bereits so oft durchgeführt wurde, wie es in der max_check_attempts-Direktive der Service- oder Host-Definition angegeben wurde. Dies wird als Hard-Error bezeichnet.
- wenn ein Host oder Service von einem Hard-Error-Zustand in einen anderen Fehlerzustand wechselt. zb von warning zu critical.
- wenn ein Host oder Service sich von einem Hard-Error-Zustand erholt. Dies wird als Hard-Recovery angesehen.
die Kontakte werden über das Host- oder Service-Problem bzw. über die Erholung benachrichtigt.
Was bedeutet Flapping?
Flapping bedeutet, dass ein Host oder Service zu oft den Zustand wechselt und dadurch einen Sturm von Problem- und Erholungsbenachrichtigungen erzeugt.
Flapping kann..
- auf Konfigurationsprobleme hinweisen (Schwellwerte die zu niedrig gesetzt sind)
- oder auf sich gegenseitig störende Services
- oder auf wirkliche Netzwerkprobleme
- oder anderweitige technische Probleme
Flap Detection
- Die Ergebnisse der letzten 21 Checks für einen bestimmten Host oder Service werden gespeichert.
- Durch die Analyse dieser gespeicherten Prüfergebnisse können wir erkennen, wo Statuswechsel aufgetreten sind.
- Mithilfe dieser erkannten Statuswechsel legen wir eine Rate für den Statuswechsel des Hosts oder Services fest.
- Nun vergleichen wir diese ermittelte Statuswechselrate mit den vorher festgelegten Flatter-Schwellenwerten.
Sobald die Statuswechselrate den hohen Flatter-Schwellenwert übersteigt, klassifizieren wir den Host oder Service als beginnendes Flapping.
Dieser Prozess gilt auch umgekehrt.
Behandlung des Flapping-Starts
Event-Meldung protokollieren das Host flattert.
einen nicht-permanenten Kommentar zum Host oder Service hinzufügen dass er flattert.
eine flapping start benachrichtigung für den Host oder Service an die betreffenden Kontakte versenden.
Behandlung des Flapping-Endes
Das gegenteil von start.
Aktives vs Passives Monitoring
Beim Aktiven monitoring fragt Nagios den zu überwachenden Host oder Service über ein Protokoll ab. Zb https , ping etc.
Beim passiven Monitoring hat der Host eine Software welche pro-aktiv die Überwachungsdaten an den Nagios Server schickt.
Publicly Available Services
von außen zugängliche Services eines Hosts.
Solche Services kann Nagios dann von außen prüfen durch Kontaktieren des Services über sein Protokoll.. tb web server über https..
Es ist also kein Addon zur überwachung notwendig
Private Services
Sind nicht von außen zugänglich und brauchen deshalb zusätzliche software (agent) auf dem Host um den Zustand des Services auszulesen.
Ausnahme SNMP
Ablauf passiver Checks
- Agent prüft Status des Hosts oder Services
- Externe Applikation schreibt die Ergebnisse der Prüfung in das external command file des Nagios Servers.
- Nagios verareitet das external command file.
Freshness Prüfung
Stellt sicher, dass Prüfungsresultate von passiven Prüfungen so regelmäßig wie erwartet empfanegn worden sind.
Commands in Nagios
…definiere, welche Programme, Skripte etc. Nagios ausführen soll für:
- Host- und Service-Prüfungen,
- Benachrichtigungen,
- Eventhandler,
- …
RRDtool
RRD, was für “Round-Robin-Database” steht, ist ein Programm, das Daten über Zeit sammelt, zusammenfasst und zeigt.
Wenn man eine RRD-Datei, also eine Art Datenbank, erstellt, reserviert man Speicherplatz für eine bestimmte Zeit. Nach dieser Zeit wird die Datenbank nicht größer, sondern die ältesten Daten werden komprimiert, indem Details immer weiter reduziert werden.
RRDTOOL Zusammengefasst
Data Collection: It collects and stores time-series data.
Data Handling: It uses a round-robin method to handle data, which helps to manage the size of the database. Data Visualization: It can generate graphs and visualizations based on the stored data, making it easy to understand trends and patterns. Efficiency: It's designed for high performance and efficient use of storage.
Round-Robin-Databases
Anforderungen:
- Organisation der Daten nach Zeit
- Hohe Anzahl von Schreibvorgängen
- Hohe Anzahl von parallelen Datenquellen
- Hohe Flexibilität bei Definition / Typisierung von Daten
Aktualisierung von Datensätzen sind selten.
Funktionen zum automatisierten Löschen und Komprimieren von Daten.
Datensammeln
Nagios schreibt die Daten in ein temporäre Datei. Nach Ablauf einer definierten Zeit wird die Datei an einem Stück abgearbeitet und gelöscht.
Business Process Add-Ons
- Wir überwachen “Geschäftsprozesse”, die aus vielen Computern und Diensten bestehen, auf eine zusammengefasste Weise.
- Dies ist besonders wichtig für Service Level Agreements (SLAs), da diese Vereinbarungen auf der Grundlage der Auswirkungen auf die Geschäftsprozesse festgelegt werden.
- Das Zusatztool “Business Process View” nutzt die Ergebnisse der einzelnen Überwachungen, die Nagios durchführt.
- Wir können Dienste / Computer verbinden und dann festlegen: “Die Anwendung ist für den Kunden nutzbar, wenn keines der Teile im kritischen Zustand ist.”