06 - Fault Tolerance Flashcards

1
Q

Was ist sind Faults bzw. Errors und Failures?

A

Faults und Errors sind Zustände, Failures sind Events.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist ein Fault?

A

Ein Zustand, der dazu führt, dass die Software ihre erforderliche Funktion nicht erfüllt.
Ist die Ursache für einen Error.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche Node Failures gibt es? (4)

A
  • Crash Failure: nachdem ein Fehler festgestellt wurde, stoppt die Node stillschweigend. Wird erst nach der Ausführung eines Join-Protokolls wieder gestartet.
  • Omission Failure: Manchmal fehlt ein Ergebnis. Wenn jedoch ein Ergebnis vorhanden ist, ist es immer wie vorgesehen. (häufigster Fehler)
  • Consistent Failure: wenn es mehrere Empfänger gibt, sehen alle Empfänger das gleiche fehlerhafte Ergebnis
  • Byzantine (inconsistent, malicious, asymmetric) Failure: in einem Szenario mit mehreren Empfängern sehen die verschiedenen Empfänger unterschiedliche, möglicherweise falsche, Ergebnisse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Sligthly-off Specification (SOS) Failure?

A
  • Spezielle Art des Byzantine Failure
  • eine Node erzeugt einen Output Signal (in value domain oder temporal domain) der etwas außerhalb des spezifizierten operating Intervalls liegt
  • eingie Empfänger interpretieren den Wert richtig, einige andere können den Wert nicht interpretieren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wann ist eine Node Fail-Silent?

A
  • korrekt arbeitet, indem er korrekte (sowohl wert- als auch zeitmäßig) Nachrichten sendet
  • nachweislich falsche Nachrichten zum richtigen Zeitpunkt sendet
  • überhaupt keine Nachrichten sendet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Babbling Idiot Failure?

A

Zum Beispiel: die Übertragung von Nachrichten zu willkürlichen Zeitpunkten, ist der schwerwiegendste Node Failure in einem Bussystem. (Ist in einem ET System schwer zu erkennen, da Wissen übers Senden zuvor nicht bekannt ist)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist ein Error?

A
  • ist ein unbeabsichtigter Zustand, z. B. beschädigte h-state Daten im Speicher
  • wenn ein Error aktiviert wird führt er zu einem Failure andernfalls bleibt er inaktiv (und damit möglicherweise unerkannt)
  • Error ist die Konsequenz eines Faults
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist error detection coverage?

A

Die Wahrscheinlichkeit, dass ein Error erkannt wird, sofern er auftritt, wird als Fehlererkennungsrate bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist error detection latency?

A

Die Zeitspanne zwischen dem Beginn eines Fehlers und der Erkennung eines Fehlers ist die Fehlererkennungslatenz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Universe Model gibt es? (4)

A
  • Level I - Physical Universe: System aus der Sicht eines Analogtechnikers
  • Level II - Logical Universe: System aus der Sicht des Logikdesigners
  • Level III - Informational Universe: System aus der Sicht eines Programmierers
  • Level IV - External Universe: System aus Sicht des Nutzers
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist eine Fault Hypothesis?

A

In einer Fault Hypothesis werden alle Fehlerarten und die Anzahl der Fehler aufgeführt, die ein fehlertolerantes System tolerieren muss. Dabei werden die Fehler zwei Kategorien zugeordnet: Fehler, die toleriert werden müssen und Fehler, die außerhalb der Mechanismen zur Fehlertoleranz liegen (müssen rare Events sein).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Assumption Coverage?

A

Gibt an, inwieweit die Annahmen durch die Realität bestätigt werden. Assumption Coverage limitiert die dependability eines perfekten fault-tolerant Systems.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist ohne präzise Spezifikation der Fault-Hypothesis nicht möglich?

A
  • herauszufinden ob die Assumption Coverage realistisch ist

* die Richtigkeit der fault-tolerance Mechanismen zu testen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie wird die Fault Hypothesis spezifiziert? (5)

A
  • Unit of Failures: Was ist die Fault-Containment Region (FCR)?
  • Failure Modes: Was sind Failure Modes der FCR?
  • Frequency of Failures: Was ist die angenommene MTTF zwischen Failures für verschiedene Failure Modes?
  • Detection: Wie werden Failures erkannt? Wie lang ist die Erkennungslatenz?
  • State Recovery: Wie lange dauert es einen korrupten State (im Falle eines transient Faults) zu korrigieren?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist die Fault Containment Region (FCR)?

A

FCR ist eine Gruppe von Teilsystemen, die eine oder mehrere gemeinsame Ressourcen nutzen, die von einem einzigen Fehler betroffen sein können und von denen angenommen wird, dass sie unabhängig von anderen FCRs ausfallen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welche Basis-Mechanismen gefährden die Unabhängigkeit von Fault Containment Regions?

A
  • Missing fault isolation

* Error propagation

17
Q

Was sind kritische Failure Modes? (5)

A
  • Crash Omission (CO) Failures
  • Massive Transient Disturbances
  • Babbling Idiot Failures
  • Masquerading Failures
  • SOS Failure
18
Q

Was ist ein Crash/Omission Failure?

A
  • Crash Failure tritt auf, wenn eine Node einen korrekten Dienst liefert, bis sie aufhört, Nachrichten zu liefern (crash)
  • Omission (Versäumnis/Auslassung) Failure tritt auf, wenn eine Node eine Nachricht nicht zustellen kann. Alle zugestellten Nachrichten sind korrekt.
  • sind wahrscheinlichste und einfachste Fehlerarten einer FCR
  • die meisten Protokolle haben Mechanismen, um die Fehler zu erkennen und zu handeln
19
Q

Was ist eine Massive Transient Distrubance?

A

Massive Transient Disturbance liegt vor, wenn die Signale auf einem Kommunikationskanal durch eine externe Energiequelle so gestört werden, dass für eine bestimmte Zeitspanne keine Kommunikation möglich ist (blackout Intervall).

20
Q

Was sind Babbling Idiot Failures?

A

Durch einen Hardware oder Software Fault sendet eine Node eine Message auf einem geteilten Kommunikationsmedium ohne Beachtung des Medienzugangs. (Guardians reduzieren diesen Fehler)

21
Q

Wozu dienen Guardians?

A

Dienen der Fehlereingrenzung auf der Grundlage des Vorwissens über das zulässige Verhalten der Nodes. Central Guardians bieten einen höheren Level an Unabhängigkeit als local Guardians. Bei Central Guardians kann ein Masquerading Failure nicht auftreten.

22
Q

Was sind Masquerading Failures?

A

Eine fehlerhafte Node nimmt die Identität einer anderen Node an und sendet falsche Nachrichten. Die gesendete Nachricht enthält dann die falsche ID.

23
Q

Welche drei Arten der Sligthly-out-of-Specification (SOS) Failures gibt es in einem TTSystem?

A
  • SOS Value Failure: kann durch Wiederherstellung des Signals im Guardian maskiert werden
  • SOS Frequency Failure: kann durch Wiederherstellung des Signals im Guardian maskiert werden
  • SOS Start Instant Failure: erfordert eine Logik, die den Zeitpunkt des Beginns der Nachrichtenübermittlung genau überwacht
24
Q

Worin wird bei der Error-Detection unterschieden? (2)

A
  • Detection of Errors in the value domain

* Detection of Errors in the time domain

25
Q

Was wird zur Error Detection benötigt?

A

Es werden redundante Informationen benötigt.

26
Q

Was ist eine Error Containment Region (ECR)?

A

In einem verteilten Computersystem können sich die Folgen eines Faults, die Folgefehler, durch eine Fehlermeldung der fehlerhaften Node an die Umgebung außerhalb der verursachenden FCR ausbreiten.

27
Q

Was wird für eine Error Containment Region (ECR) mindestens benötigt?

A

Es werden zwei unabhängige Fault Contrainment Regions benötigt.

28
Q

Was sind Ursachen für Transient Faults? (3)

A
  • External Disturbances (Hardware): bsp. hochenergetische Strahlung
  • Internal Degradation of the Chip Hardware (Hardware): bsp. corrosion of a PN junction
  • Heisenbug (Software): bsp. Design Error in der Synchronisation von Prozessen
29
Q

Wie funktioniert Error Detection in der Value Domain?

A
  • Plausibility Checks: application specific invariants (sehr effektiv), trend analysis (erfordert h-state)
  • Structural Checks: run time assertions, robust data structures
  • Comparison of diverse Computations: time redundancy, resource redundancy, verschiedene Software-Versionen
30
Q

Was ist eine Fault-Tolerant Unit (FTU)?

A
  • Ist eine Gruppe von aktiv redundanten Nodes, die einen fehlertoleranten Dienst für ihre Umgebung bereitstellen.
  • müssen die Input Messages in identischer Reihenfolge empfangen
  • have to operate in replica determinism
  • Output Messages der FTUs sollten idempotetn sein (als idempotent bezeichnet man Arbeitsgänge, die immer zu den gleichen Ergebnissen führen, unabhängig davon, wie oft sie mit den gleichen Daten wiederholt werden.)
  • FTUs bieten den kontinuierlichen Dienst durch Fault Masking (Fehlermaskierung)
31
Q

Welche Arten von Redundanz gibt es? (3)

A
  • Cold Standby Redundancy: Zu jedem Zeitpunkt bietet nur eine einzige Node den Dienst an. Fällt der Dienstanbieter aus, muss der Ausfall von einem Fehlerdetektor erkannt werden und ein Ersatzknoten wird gestartet.
  • Hot Standby Redundancy: zu jedem Zeitpunkt bietet nur eine einzige Node den Dienst an. Wird ein Ausfall festgestellt, ersetzt ein aktiver Ersatzknoten die ausgefallene Node
  • Active Redundancy: zwei oder mehr Nodes bieten denselben Service gleichzeitig
32
Q

Was sind Bohrbugs?

A

Sind Design Errors in der Software, die reporduzierbare Failures verursachen.(Bsp. Logikfehler in einem Programm.

33
Q

Was sind Heisenbugs?

A

Sind Designfehler in der Software, die quasi zufällige Failures verursachen. (Bsp. Synchronisationsfehler, der gelegentlich zur Verletzung einer Integritätsbedingung führt.)

34
Q

Was sind Fail-Safe Anwendungen und was macht sie aus?

A
  • in einer ausfallsicheren Anwendung kann ein unabhängiger Watchdog den Betrieb des Computers überwachen
  • fällt der Computer stillschweigend aus oder verspätet er sich, kann der Watchdog einen Übergang in den sicheren Zustand einleiten (z. B. in einem Zugsteuerungsszenario: alle Signale auf Rot, alle Züge halten an).
  • das Computersystem muss eine hohe Fehlererkennungsrate aufweisen.
  • für die Sicherheit ist die Pünktlichkeit nicht das wichtigste Kriterium