Fault Tolerance Flashcards
Welche zwei Möglichkeiten hat man die Zuverlässigkeit eines Systems zu erhöhen über die intrinsische Zuverlässigkeit der Technologie?
- Verwendung von ultra-high-quality Komponenten: Kostenanstieg exponentiell
- Implementierung von fault tolerance
Was sind Fault, Errors und Failures?
- Faults und Errors sind Zustände
- Failures sind Events
Was ist ein Fault?
- Ein Fault ist ein Zustand, der dazu führt, dass die Software ihre erforderliche Funktion nicht erfüllt
- Ein Fault ist eine Ursache für einen Error
Was ist ein Failure?
Ein Failure ist eine Abweichung des tatsächlichen Services von dem geplanten Service
Wie sieht die Fehlerkette aus?
Fault -> Error -> Failure
Welche Node Failures gibt es?
- Crash Failure
- Omission Failure
- Consistent Failure
- Byzantine Failure
Was ist ein Crash Failure?
- Nachdem ein Fehler festgestellt wurde, stoppt der Node stillschweigend
- Wird erst nach der Ausführung eines Join-Protokolls wieder gestartet
Was ist ein Omission Failure?
- Manchmal fehlt ein Ergebnis
- Wenn jedoch ein Ergebnis vorhanden ist, ist es immer wie vorgesehen
- Einer der häufigsten Fehler
Was ist ein Consistent Failure?
Wenn es mehrere Empfänger gibt, sehen alle Empfänger das gleiche fehlerhafte Ergebnis
Was ist ein Byzantine Failure?
In einem Szenario mit mehreren Empfängern sehen die verschiedenen Empfänger unterschiedliche, möglicherweise falsche Ergebnisse
Was ist ein Slightly-off-Specification (SOS) Failure?
- Spezielle Art des Byzantine Failure
- Ein Node erzeugt ein Ausgabesignal, das etwas außerhalb des spezifizierten operating Intervalls liegt
- Einige Empfänger interpretieren den Wert richtig, einige andere können den Wert nicht interpretieren
Wann ist ein Node fail-silent?
- Wenn er korrekt arbeitet, indem er korrekte Nachrichten sendet
- Nachweislich falsche Nachrichten zum richtigen Zeitpunkt sendet
- Überhaupt keine Nachrichten sendet
Was ist ein Babbling Idiot Failure?
Die Übertragung von Nachrichten zu willkürlichen Zeitpunkten, ist der schwerwiegendste Node Failure in einem Bussystem
Was ist ein Error?
- Ein Error ist ein unbeabsichtigter Zustand
- Wenn ein Error aktiviert wird, führt er zu einem Failure, andernfalls bleibt er inaktiv und möglicherweise unerkannt
- Error ist die Konsequenz eines Faults
Was ist error detection coverage?
- Die Wahrscheinlichkeit, dass ein Error erkannt wird, sofern er auftritt
- Wird als Fehlererkennungsrate bezeichnet
Was ist error detection latency?
Die Zeitspanne zwischen dem Beginn eines Fehlers und der Erkennung eines Fehlers
Welche Universe Modelle gibt es?
- Level 1: Physical Universe
- Level 2: Logical Universe
- Level 3: Informational Universe
- Level 4: External Universe
Was ist das Level 1: Physical Universe?
- System aus Sicht eines Analogtechnikers
- False signal Levels
- Error detection -> Überwachung des Spannungslevels