Fault Tolerance Flashcards

1
Q

Welche zwei Möglichkeiten hat man die Zuverlässigkeit eines Systems zu erhöhen über die intrinsische Zuverlässigkeit der Technologie?

A
  • Verwendung von ultra-high-quality Komponenten: Kostenanstieg exponentiell
  • Implementierung von fault tolerance
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind Fault, Errors und Failures?

A
  • Faults und Errors sind Zustände
  • Failures sind Events
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist ein Fault?

A
  • Ein Fault ist ein Zustand, der dazu führt, dass die Software ihre erforderliche Funktion nicht erfüllt
  • Ein Fault ist eine Ursache für einen Error
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Failure?

A

Ein Failure ist eine Abweichung des tatsächlichen Services von dem geplanten Service

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie sieht die Fehlerkette aus?

A

Fault -> Error -> Failure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Node Failures gibt es?

A
  • Crash Failure
  • Omission Failure
  • Consistent Failure
  • Byzantine Failure
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist ein Crash Failure?

A
  • Nachdem ein Fehler festgestellt wurde, stoppt der Node stillschweigend
  • Wird erst nach der Ausführung eines Join-Protokolls wieder gestartet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist ein Omission Failure?

A
  • Manchmal fehlt ein Ergebnis
  • Wenn jedoch ein Ergebnis vorhanden ist, ist es immer wie vorgesehen
  • Einer der häufigsten Fehler
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist ein Consistent Failure?

A

Wenn es mehrere Empfänger gibt, sehen alle Empfänger das gleiche fehlerhafte Ergebnis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein Byzantine Failure?

A

In einem Szenario mit mehreren Empfängern sehen die verschiedenen Empfänger unterschiedliche, möglicherweise falsche Ergebnisse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist ein Slightly-off-Specification (SOS) Failure?

A
  • Spezielle Art des Byzantine Failure
  • Ein Node erzeugt ein Ausgabesignal, das etwas außerhalb des spezifizierten operating Intervalls liegt
  • Einige Empfänger interpretieren den Wert richtig, einige andere können den Wert nicht interpretieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wann ist ein Node fail-silent?

A
  • Wenn er korrekt arbeitet, indem er korrekte Nachrichten sendet
  • Nachweislich falsche Nachrichten zum richtigen Zeitpunkt sendet
  • Überhaupt keine Nachrichten sendet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist ein Babbling Idiot Failure?

A

Die Übertragung von Nachrichten zu willkürlichen Zeitpunkten, ist der schwerwiegendste Node Failure in einem Bussystem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist ein Error?

A
  • Ein Error ist ein unbeabsichtigter Zustand
  • Wenn ein Error aktiviert wird, führt er zu einem Failure, andernfalls bleibt er inaktiv und möglicherweise unerkannt
  • Error ist die Konsequenz eines Faults
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist error detection coverage?

A
  • Die Wahrscheinlichkeit, dass ein Error erkannt wird, sofern er auftritt
  • Wird als Fehlererkennungsrate bezeichnet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist error detection latency?

A

Die Zeitspanne zwischen dem Beginn eines Fehlers und der Erkennung eines Fehlers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Welche Universe Modelle gibt es?

A
  • Level 1: Physical Universe
  • Level 2: Logical Universe
  • Level 3: Informational Universe
  • Level 4: External Universe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist das Level 1: Physical Universe?

A
  • System aus Sicht eines Analogtechnikers
  • False signal Levels
  • Error detection -> Überwachung des Spannungslevels
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist das Level 2: Logical Universe?

A
  • System aus Sicht eines Logikdesigners
  • Stuck at logic fault
  • Error detection -> Error detecting codes
20
Q

Was ist das Level 3: Informational Universe?

A
  • System aus Sicht eines Programmierers
  • Incorrect data structures
  • Error detection -> Runtime assertions
21
Q

Was ist das Level 4: External Universe?

A
  • System aus Sicht eines Nutzers
  • Service failure at the user/system interface
  • Error detection -> End-to-end
22
Q

Was ist eine Fault Hypothesis?

A

In einer Fault Hypothesis werden alle Fehlerarten und die Anzahl der Fehler aufgeführt die ein fehlertolerantes System tolerieren muss

23
Q

In welche zwei Kategorien werden Fehler in der Fault Hypothesis eingeordnet?

A
  • Level 1 Fehler: Fehler, die toleriert werden müssen
  • Level 2 Fehler, Fehler, die außerhalb der Mechanismen zur Fehlertoleranz liegen (diese müssen rare events sein)
24
Q

Was ist Assumption Coverage?

A
  • Assumption Coverage gibt an, inwieweit die Annahmen durch die Realität bestätigt werden
  • Limitiert die dependability eines perfekten fault-tolerant Systems
25
Q

Was ist ohne präzise Spezifikation der Fault Hypothesis nicht möglich?

A
  • Herauszufinden, ob die Assumption Coverage realistisch ist
  • Die Korrektheit der fault-tolerance Mechanismen zu testen
26
Q

Wie wird die Fault Hypothesis spezifiziert?

A
  • Unit of Failure: Was ist die FCR
  • Failure Modes
  • Frequency of Failures
  • Detection
  • State Recovery
27
Q

Was ist eine Fault Containment Region (FCR)?

A

Eine FCR ist eine Gruppe von Teilsystemen, die eine oder mehrere gemeinsame Ressourcen nutzen, die von einem einzigen Fehler betroffen sein können und von denen angenommen wird, dass sie unabhängig von anderen FCRs ausfallen

28
Q

Welche Basis-Mechanismen gefährden die Unabhängigkeit von Fault Containment Regions?

A
  • Missing fault isolation
  • Error propagation
29
Q

Was sind kritische Failure Modes?

A
  • Crash Omission Failures
  • Massive Transient Disturbances
  • Babbling Idiot Failure
  • Masquerading Failure
  • SOS Failure
30
Q

Was ist eine Massive Transient Disturbance?

A

Massive Transient Disturbance liegt vor, wenn die Signale auf einem Kommunikationskanal durch eine externe Energiequelle so gestört werden, dass für eine bestimmte Zeitspanne keine Kommunikation möglich ist (blackout interval)

31
Q

Wozu dienen Guardians?

A
  • Dienen der Fehlereingrenzung auf der Grundlage des Vorwissens über das zulässige Verhalten der Nodes
  • Central Guardians bieten einen höheren Level an Unabhängigkeit als local Guardians
  • Bei central Guardians kann ein Masquerading Failure nicht auftreten
32
Q

Was sind Masquerading Failures?

A
  • Ein fehlerhafter Node nimmt die Identität eines anderen Node an und sendet falsche Nachrichten
  • Die gesendete Nachricht enthält dann die falsche ID
33
Q

Welche drei Arten der Slightly-Off-Specification (SOS) Failures gibt es in einem TT-System?

A
  • SOS Value Failure
  • SOS Frequency Failure
  • SOS Start Instant Failure
34
Q

Worin wird bei der Error detection unterschieden?

A
  • Detection of Errors in der value domain
  • Detection of Errors in der time domain
35
Q

Was wird zur Error detection benötigt?

A

Es werden redundante Informationen benötigt

36
Q

Was ist eine Error Containment Region (ECR)?

A

In einem verteilten Computersystem können sich die Folgen eines Faults, die Folgefehler, durch eine Fehlermeldung des fehlerhaften Nodes an die Umgebung außerhalb der verursachenden FCR ausbreiten

37
Q

Was wird für eine Error Containment Region mindestens benötigt?

A

Es werden mindestens zwei unabhängige Fault Containment Regions benötigt

38
Q

Was sind Ursachen für Transient Faults?

A
  • External Disturbances
  • Internal Degradation of the chip hardware
  • Heisenbug
39
Q

Wie funktioniert Error detection in der value domain?

A
  • Plausibility checks
  • Structural checks
  • Comparison of diverse computations
40
Q

Was ist eine Fault-Tolerant Unit (FTU)?

A

FTU ist eine Gruppe von aktiv redundanten Nodes, die einen fehlertoleranten Dienst für ihre Umgebung bereitstellen

41
Q

Welche Arten von Redundanz gibt es?

A
  • Cold Standby Redundancy
  • Hot Standby Redundancy
  • Active Redundancy
42
Q

Was ist Cold Standby Redundancy?

A
  • Zu jedem Zeitpunkt bietet nur ein Node den Dienst an
  • Fällt der Dienstanbieter aus, muss der Ausfall von einem Fehlerdetektor erkannt werden und ein Ersatzknoten wird gestartet
43
Q

Was ist Hot Standby Redundancy?

A
  • Zu jedem Zeitpunkt bietet nur ein Node den Dienst an
  • Wird ein Ausfall festgestellt, ersetzt ein aktiver Ersatzknoten den ausgefallenen Node
44
Q

Was ist Active Redundancy?

A

Zwei oder mehr Nodes bieten denselben Dienst gleichzeitig an

45
Q

Was sind Bohrbugs?

A

Bohrbugs sind Designfehler in der Software, die reproduzierbare Failures verursachen (z.B. Logikfehler in einem Programm)

46
Q

Was sind Heisenbugs?

A

Heisenbugs sind Designfehler in der Software, die quasi zufällige Failures verursachen (z.B. Synchronisationsfehler)

47
Q

Was sind Fail-Safe Anwendungen und was machen sie aus?

A
  • In einer ausfallsicheren Anwendung kann ein unabhängiger Watchdog den Betrieb des Computers überwachen
  • Fällt der Computer stillschweigend aus oder verspätet sich, kann der Watchdog einen Übergang in den sicheren Zustand einleiten