V5_Cluster Flashcards

1
Q

Cluster

A

Eine Anzahl von vernetzten Computern, die von außen in vielen Fällen als ein Computer gesehen werden können.

Die einzelnen Cluster-Knoten sind untereinander über ein schnelles Netzwerk verbunden.

Ziel: Erhöhung der Rechenkapazität oder Erhöhung der Verfügbarkeit gegenüber einem einzelnen Computer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hochverfügbarkeitscluster

A

HA-Cluster dienen der Steigerung der Verfügbarkeit.

Tritt auf einem KNoten ein Fehler auf, werden die Dienste und Ressourcen dieses Clusters auf andere Clusterknoten migriert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Clusterknoten

A

Eigenständiger Computer mit eigenem Betriebssystem und Applikationen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Heartbeat

A

Beim heartbeat benachrichtigen sich die Clusterknoten gegenseitig, dass sie immer noch betriebsbereit sind.

Ausbleiben mehrerer aufeinanderfolgender heartbeats eines Knotens: löst Fehlerbehandlungsmechanismen in den anderen Knoten aus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Gründe für das Ausbleiben des Heartbeats:

A
  • Verlorengegangene Nachrichten
  • Exzessive Verzögerung der Nachrichten
  • Ausfall des Netzwerkinterfaces.
  • Ausfall des Clusterknotens

Netzwerkeinflüsse kann man minimieren indem man Netzwerkinterfaces und Switches redundant macht (mehrere)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cluster Interconnect

A

Optionale Separierung des cluster-internen Netzwerks vom “öffentlichen” Netzwerk des Clusters.

  • Verhindert störende externe Einflüsse auf cluster-interne Kommunikation.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Cluster Membership

A

Der Cluster braucht zu jeder Zeit unbedingt ein genaues und korrektes Bild der Membership.

Relevante Situationen:
- Ausfälle von Clusterknoten und Cluster-Ressourcen
- Initialer Start des Clusters.
- Hinzufügen oder Entfernen von Clusterknoten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quorum

A

Das Quorum des Clusters setzt sich zusammen aus den Knoten, die den operativen und einzig gültigen Teild es Clusters darstellen.

Ein Quorum in einem Cluster ist die Mindestzahl von Knoten (Mitgliedern), die funktionieren müssen, damit der Cluster arbeitet. Es hilft, Konsistenz zu bewahren und verhindert, dass isolierte Teile des Clusters falsche oder widersprüchliche Daten erzeugen. Bei einem Ausfall oder Netzwerkproblem stoppt der Cluster, wenn nicht genügend aktive Knoten für ein Quorum vorhanden sind, um Dateninkonsistenzen zu vermeiden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cluster Manager

A

ist die Steuer-Software des Clusters.

Überwachung der Knoten: Der Cluster-Manager überprüft regelmäßig den Status der Knoten im Cluster, um sicherzustellen, dass sie korrekt funktionieren.

Steuerung der Arbeitslastverteilung: Der Cluster-Manager verteilt die Aufgaben und Ressourcen auf die Knoten im Cluster basierend auf verschiedenen Faktoren wie Kapazität, Auslastung und Prioritäten.

Fehlerbehandlung: Wenn ein Knoten ausfällt, ist es die Aufgabe des Cluster-Managers, diesen Ausfall zu erkennen und die Aufgaben auf andere Knoten zu verlagern.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cluster Information Base (CIB)

A

Zentrale Cluster Datenbank.

  • Enthält alle Informationen über die aktuelle Konfiguration des Clusters.
  • CIB ist auf jedem Knoten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cluster Resource Manager (CRM)

A

Verwaltet die CIB, behandelt alle ÄNderungen von clusterrelevanten Konfigurationsdaten.

Reagiert auf Events im Cluster..

Z.B. auf einen Ausfall eines Knotens -> versucht optimale Lösung zu finden um Cluster nicht zu belasten.

CRM ist Teil des Cluster Managers.

Überwachung der Ressourcen: Er hält den Überblick über die verfügbaren Ressourcen in einem Cluster und ihren Status.
Ressourcenverwaltung: Er stellt sicher, dass Ressourcen (wie Speicher, CPU-Zeit, Netzwerkbandbreite etc.) den verschiedenen Aufgaben und Diensten im Cluster zugewiesen werden.
Wiederherstellung nach Fehlern: Wenn ein Knoten oder eine Ressource ausfällt, ist der Cluster Resource Manager dafür verantwortlich, die Ressourcen neu zuzuweisen und den Cluster wieder in einen funktionierenden Zustand zu bringen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Designated Coordinator

A

Der DC ist ein zugewiesene Rolle, die jeweils immer genau ein Clusterknoten innehat. Der DC ist der, Chef unter GLeichen”, hält die “Master-CIB”

  • Entscheidet über Beitritts-Requests neuer Knoten.
  • Cluster-Konfigurationsänderungen: zuerst im DC, welcher die Änderung dann in alle anderen Knoten propagiert (über das Messaging).
  • Erste Aktion: Informiert alle Knoten über seine DC Ernennung.
  • Propagiert ggf. seine CIB Änderungen rund um die Fehlersituation, um die Konsistenz der CIB sicherzustellen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cluster-Ressourcen

A

Auf Clusterebene verwaltete Dienste, Objekte wie (Cluster) IP Adressen, Partitionen.

Im Gegensatz zu den lokalen Resourcen der Clusterknoten.
Diese werden nicht auf Clusterebene verwaltet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Local Resource Manager (LRM)

A

Der Local Resource Manager (LRM) ist eine Komponente eines Clusters, die auf jedem Knoten läuft. Seine Hauptaufgabe besteht darin, die lokalen Ressourcen zu verwalten, die auf diesem speziellen Knoten laufen. Wenn es Änderungen an den Ressourcen gibt, die durch den Cluster Resource Manager (CRM) angefordert werden, ist der LRM dafür verantwortlich, diese Änderungen durchzuführen. Der LRM fungiert also als eine Art Vermittler zwischen dem CRM und den lokalen Ressourcen auf jedem Knoten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Resource Agents

A

Abstrahiert von den konkreten Details der Ressourcen.

Starten der Ressource oder des Dienstes: Der Resource Agent initialisiert und startet die Ressource oder den Dienst auf einem Knoten.
Stoppen der Ressource oder des Dienstes: Der Resource Agent kann die Ressource oder den Dienst sicher stoppen, wenn sie nicht mehr benötigt wird oder wenn sie auf einen anderen Knoten verschoben werden soll.
Überwachen der Ressource oder des Dienstes: Der Resource Agent prüft regelmäßig den Status der Ressource oder des Dienstes und meldet diesen an den Cluster Resource Manager.
Wiederherstellen der Ressource oder des Dienstes: Wenn die Ressource oder der Dienst ausfällt oder ein Problem auftritt, ist der Resource Agent dafür verantwortlich, den Fehler zu beheben und die Ressource oder den Dienst wiederherzustellen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Platzierung der Ressourcen auf Clusterknoten

A

Soll eine Ressource im Cluster gestartet oder verschoben werden, so wird der score jedes Clusterknotens bezüglich dieser Ressource berechnet.

Score: eine Kennzahl, welche die Eignung des Knotens zur Aufnahme dieser Ressource festlegt.

Platzierung der Ressource dann auf dem Knoten mit dem höchsten score.

17
Q

Resource Stickiness

A

Die Resource Stickiness ist das “Beharrungsvermögen” einr Ressource auf einem Knoten.

Score auf dem die Ressource läuft wird um Resource Stickiness Wert erhöht.
-> soll zu häufiges Wechseln einer Ressource zwischen verschiedenen Knoten erschweren.

18
Q

Constraints

A

Regeln welche die scores der Clusterknoten bezüglich der Ressourcen beeinflussen.

Standort-Beschränkungen (Location Constraints): Diese legen fest, auf welchem Knoten eine bestimmte Ressource bevorzugt laufen sollte. Sie können verwendet werden, um sicherzustellen, dass bestimmte Ressourcen auf bestimmten Knoten ausgeführt werden, basierend auf Faktoren wie Hardware-Kompatibilität, Netzwerkanforderungen oder einfach, um die Last gleichmäßig auf die Knoten zu verteilen.

Bestellungsbeschränkungen (Ordering Constraints): Diese bestimmen die Reihenfolge, in der bestimmte Operationen ausgeführt werden sollen. Zum Beispiel könnte eine Bestellungsbeschränkung festlegen, dass eine bestimmte Ressource gestartet werden muss, bevor eine andere Ressource gestartet wird.

Kollokations-Beschränkungen (Colocation Constraints): Diese legen fest, dass bestimmte Ressourcen zusammen auf demselben Knoten laufen sollen. Dies kann nützlich sein, wenn zwei Ressourcen eng miteinander verbunden sind und eine hohe Kommunikationsrate zwischen ihnen benötigt wird.
19
Q

Location Constraints

A

beeinflussen direkt den score eines bestimmten Clusterknotens bezüglich einer Ressource.

20
Q

Co-Location Constraints

A

legen fest, dass mehrere Ressourcen auf demselben Clusterknoten laufen sollen.

Bsp: Cluster-IP und aktiver Web Server soll immer auf gleichen Clusterknoten laufen.

21
Q

Ordering Constraints

A

Legt fest, in welcher Reihenfolge Ressourcen auf einem Knoten gestartet und gestoppt werden müssen.

22
Q

Resource Groups

A

Zusammenfassung von Ressourcen zu Gruppen-
-> gemeinsame Administration.

Vorteilhaft insbesondere bei vielen Ressourcen im Vergleich zu vielen wechselseitigen Co-Locatino Contraints.

23
Q

Migration von Ressourcen im Fehlerfall

A

Übersteigt der fail-count einer Ressource ihren migration-threshhold Parameter, so wird die Ressource auf einen anderen Knoten migriert.

Zum Beispiel, wenn der “migration-threshold” einer Ressource auf 3 gesetzt ist und es drei aufeinanderfolgende Fehler mit dieser Ressource gibt (d.h., der “fail-count” erreicht 3), dann wird die Ressource auf einen anderen Knoten migriert.

24
Q

Fehlerszenario: Ressource startet nicht

A

Erfolgloser initialer Start der Ressource, oder erfolgloser Neustart nach einem Fehler.

  • fail-count wird vom Cluster sofort auf + INFINITY gesetzt.
  • sofotige Migration der Ressource auf einen anderen Clusterknoten, da der migration-threshhold damit auf jeden Fall erreicht wird.
25
Q

Fehlerszenario: Ressource down

A

Parameter on-fail bei der Ressourcendefinition.

Cluster versucht automatischen Neustart der Ressource, falls Ressource down, d.h. falls das Monitoring der Ressource nicht erfolgreich ist.

26
Q

Komplexe Cluster-Fehlersituationen: Split Brain

A

“Split-Brain” tritt in einem Cluster auf, wenn die Kommunikation zwischen den Knoten unterbrochen wird. Dadurch wird das Cluster in “Teilcluster” aufgeteilt, wobei jedes davon glaubt, das einzige funktionierende Cluster zu sein. Jedes Teilcluster versucht dann, die gleichen Ressourcen zu kontrollieren, was zu Konflikten, Dateninkonsistenzen und unvorhersehbarem Verhalten führen kann.

Um solche Probleme zu vermeiden oder zu beheben, nutzen Cluster-Systeme oft ein “Quorum” oder spezielle Split-Brain-Erkennungs- und Lösungsmechanismen. Sie bestimmen, welcher Teil des gespaltenen Clusters als “echtes” Cluster gilt und somit die Kontrolle über die Ressourcen übernehmen darf.

27
Q

Maßnahmen gegen Split Brain

A

Quorum Mechanismus im Cluster Manager:
Auswahlmechanismus zur Bestimmung des “einzig gültigen” Teilclusters.

Quorum muss größer sein als die halbe Knotenzahl im Cluster.

Oder über Zusatzinformation, die zuletzt auf shared storage geschrieben wurde.

28
Q

Fencing

A

Bezeichnet Mechanismen im Cluster zum Ausschluss von einzelnen Ressourcen oder ganzen Clusterknoten, deren Zustand unbestimmt ist.

Mögliche Auslöser: Fehler im Cluster Interconnect, nicht stoppbare Ressourcen, ausbleibende Rückmeldung, Software-Absturz

29
Q

STONITH

A

Extremste und sicherste Art des Fencing: sofortiges Stoppen des anderen Knotens zb durch unterbrechen der Stromversorgung oder durch sofortiges Anhalten des Betriebssystems.

Shoot the Other Node in the Head