Machine Learning Validity Flashcards

1
Q

Nenne 5 Probleme, welche die Validierung deiner ML Experiment bedrohen.

Experimental Setup

A
  • Simpson Paradox
  • p-hacking
  • Measurement Errors
  • Missing Data
  • Table 2 Fallacy (Überinterpretation von zusätzlichen Kovariaten)
  • Generalisierbarkeit
  • Type I & II Errors
  • Overfitting
  • Selection Bias
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was versteht man unter “Table 2 Fallacy”

Experimental Setup

A

Wenn eine Untersuchung angestelllt wird zwischen zwei Variablen (zB Medikament und Überlebensrate) und die zusätzlichen Kovarianzen (wie Alter, Gewicht, Geschlecht, ..) auf der 2. Tabelle überinterpretiert werden, weil das Medikament im Vordergrund sein sollte und die Kausalität von solchen Faktoren überinterpretieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Beschreibe Typ I und Typ II Fehler in der induktiven Statistik

Experimental Setup

A

Typ I
Null-Hypothese wird abgelehnt, aber ist wahr.
-> False Positive

Type II
Null-Hypothese wird nicht abgelehnt, aber ist falsch.
-> False Negative

Ablehnung -> I; Nicht Ablehnung -> II

Positive comes before Negative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Überlegungen solltest du bei der Auswahl der Algorithmen machen?

Experimental Setup

A
  • Easy over Hard
  • Ist Erklärbarkeit wichtig?
  • ist super schnelle Inference wichtig
  • Muss jedes promille der Accuracy ausgereizt werden?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sagt das No-Free-Lunch Theorem aus?

Experimental Setup

A

Das No Free Lunch Theorem im maschinellen Lernen besagt, dass alle Optimierungsalgorithmen gleich gut funktionieren, wenn ihre Leistung über alle möglichen Zielfunktionen gemittelt wird.

Oder: Es gibt keinen universell besten Algorithmus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Nenne das Ziel einer Formulierung von Hypothesen und 5 Vorteile bei korrekter Ausführung

Experimental Setup

A

Goal: Artikuliere deutlich, was das Experiment testen soll und welche Variablen gemessen werden

+ Enables collecting relevant data
+ Helps verifying experimentation contributions to the project goal
+ Hypothesen vereinfach Reproduktion, dank klarer Formulierung
+ Das Testen von mehreren Hypothesen verhindert Data-Dredging ( P-Hacking )
+ Kommuniziert klar die Erwartung auf das Ergebnis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definiere abhängige und unabhängige Variablen in Experimenten

(Experimentelle Variablen)

Experimental Setup

A

Unabhängige Variablen:
- Variablen, die durch die Forschung manipuliert werden
- unabhängig, weil ihre Werte nicht von anderen Variablen im Experiment abhängig sind
- es wird angenommen, dass sie einen kausalen Effekt auf die abhängige Variable haben
-> selected features, algorithms, preprocessing steps, …

Abhängige Variablen:
- Variablen, die vom Forscher gemessen oder beobachtet werden
- von Änderungen der unabhängigen Variablen wird erwartet, dass sie die abhängige Variable ändern (oder nicht)
- Erwartungen werden in den Hypothesen formuliert
-> Metriken wie Accuracy sind abhängig von unabhängigen Variablen wie Algorithmus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Definiere abhängige und unabhängige Variablen in Experimenten

Experimental Setup

A

Unabhängige Variablen:
- verwendete Funktionen (z. B. Codemetriken)
- verwendete Trainingsalgorithmen
- verwendete Vorverarbeitung
- usw.

Abhängige Variablen:
- Genauigkeit der Vorhersagen
- verschiedene auf Grundlage der Vorhersageergebnisse berechnete Metriken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welche Formen der Validity / Gültigkeit gibt es in ML Experimenten? Beschreibe sie.

Experimental Setup

A

Intere Validity / Gültigkeit

Interne Validität bezieht sich auf das Ausmaß, in dem eine Studie frei von Bias ist und den Effekt der unabhängigen Variable auf die abhängige Variable genau misst.

In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells die Beziehung zwischen unabhängigen und abhängigen Variablen in der zugrundeliegenden Population korrekt widerspiegeln.

Externe Validity / Gültigkeit

Externe Validität bezieht sich auf die Generalisierbarkeit der Ergebnisse einer Studie auf andere Populationen, Umgebungen und Bedingungen.

In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells auf neue, unbekannte Daten übertragbar sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Welche Gefahren hat externe Validity / Gültigkeit ? Erkläre die Gefahren.

sehr offensichtlich, wenn man nicht auswendig lernt, sondern nachdenkt.

Experimental Setup

A

Sampling-Bias (Stichprobenverzerrung): Wenn die Daten, auf denen das Modell trainiert wurde, nicht repräsentativ für die Zielpopulation sind, können die Ergebnisse des Modells nicht auf neue, unbekannte Daten übertragen werden. Beispielsweise kann ein Modell, das nur auf Daten einer bestimmten Region trainiert wurde, auf globaler Ebene ungenaue Vorhersagen machen.

Zu einfache Modelle (Bias-Varianz-Tradeoff): Modelle, die zu stark vereinfacht sind, fangen möglicherweise nicht alle relevanten Zusammenhänge in den Daten ein. Dadurch kann das Modell in neuen, komplexeren Szenarien scheitern und seine Generalisierbarkeit verringern.

1x Datenproblem, 1x Modellproblem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welche Gefahren hat interne Validity / Gültigkeit? Erkläre die Gefahren.

Experimental Setup

A

Selektionsbias: Wenn die Auswahl der Daten oder der Teilnehmer für das Training nicht zufällig oder verzerrt ist, kann dies zu falschen Schlussfolgerungen führen. Das Modell könnte dann nicht die tatsächliche Beziehung zwischen den Variablen abbilden.

Datenleckage: Wenn Informationen aus dem Testdatensatz unbeabsichtigt im Trainingsdatensatz verwendet werden, führt dies zu überoptimistischen Modellergebnissen. Das Modell erscheint dann besser als es tatsächlich ist, da es auf nicht-realistischen Informationen basiert.

2x Datenproblem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sollte beim Aufstellen des Experiments beachtet werden?

Experimental Setup

A
  • Sei explizit
  • Formuliere eine klare Research-Question
  • Ziehe Folgerungen daraus für Abhängigkeiten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist der File-Draw Effect?

Experiment Analysis

A

File-Draw-Effekt

nur positive Ergebnisse von Studien werden veröffentlicht.
Daher werden diese Experimente immer wieder probiert

-> Große Ressourcen Verschwendung
-> Potenzial, dass der Zufall es positives Ergebnis ermöglicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist eine Metrik?

Experiment Analysis

A

Eine Metrik ist ein Indikator für eine bestimme interessante quantitative Eigenschaft eines Subjektes.

Normalerweise misst eine Metrik nicht 1zu1 ein Objective wie zB Usefulness

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine Baseline?

Experiment Analysis

A

Ein Basiswert ist der erreichte Wert einer Metrik aus einem bekannten Prozess.

Er dient als minimal erreichbares Ziel und als Referenzpunkt für einen neuen Prozess oder ein Modell.

Er gibt einen ersten Anhaltspunkt für den unvermeidbaren Fehler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Warum sind Metriken und Baselines so wichtig für ML Experimentation?

Experiment Analysis

A

Metriken können zu non-functional Anforderungen zeigen. (Inferenz)

Es ist oft nicht möglich bzw. nicht umsetzbar, alle Metriken simultan zu verbessern. -> Fokussiere dich auf 1-2 Metriken.

Baselines sind unumgänglich, da Metriken sonst keinen Wert haben. Was ist ein guter Wert für eine Metrik? 0.95, 0.99, 0.7? -> Baseline entscheidet

17
Q

Nenne 4 von 7 Möglichkeiten eine Baseline zu kreieren

Experiment Analysis

A
  • Human Level Performance
  • Literatur Recherche
  • Open Source Systeme
  • Einfache & Dreckige Implementierung
  • Performance von früheren Systemen
  • Einfache Statistische Modelle
  • Majority Vote
18
Q

Definiere die Metrik:
- Recall

Experiment Analysis

A

Recall:
out of all Trues, how many are recalled?

TP / (TP + FN)

19
Q

Definiere die Metrik:
- False Negative Rate (FNR)

Experiment Analysis

A

FNR:
1 - Recall = 1 - FN / (TP + FN)

20
Q

Definiere die Metrik:
- Precision

Experiment Analysis

A

Precision:
Measures how precise we classify Trues
TP / (TP + FP)

21
Q

Definiere die Metrik:
- False Positive Rate (FPR)

Experiment Analysis

A

FPR:
FP / (FP + TN)

22
Q

Definiere F1 Score

Experiment Analysis

A

F1 = 2 / (1/Precision + 1/recall)
or
F1 = 2 * recall * precision / (recall + precision)

23
Q

Definiere und beschreibe die ROC-Kurve, gehe auf Random, Usual und Best Case

Experiment Analysis

A

Die Receiver-Operater-Characteristic Curve hat auf der
Y-Achse: TPR
X-Achse: FPR

und ermittelt, inwiefern das Setzen des Thresholds eines binären Klassifikators die FPR vs TPR verändert
Je größer die Fläche unter der Kurve, desto besser das Ergebnis.

Basic Facts:
- Random ist Linie in der Diagonalen
- Usual TPR verbessert sich, wenn FPR auch steigt
- Best Case ist ein Dreieck bzw. maximale Fläche.

24
Q

Definiere den Daten-Split in ML Verfahren

Experiment Analysis

A

Train: Training
Validation: Testen von Configs und Trainingsstop gegen Overfitting
Test: Testen von Generalisierbarkeit

T V T

25
Q

Wann ist der Punkt erreicht, ab dem Overfitting startet? Andersgesagt, wann ist der beste Zeitpunkt das Trainieren zu stoppen?

Experiment Analysis

A

Wenn der Validation-Fehler anfängt monoton zu steigen.

T V T

26
Q

Erkläre das Bias-Variance Tradeoff Problem

Experiment Analysis

A

Oftmal trifft das Szenario zu, dass Bias und Varianz nicht am gleichen Punkt den Minimum erreichen.

Viel eher noch, um den Bias (avg. Trainingsfehler) weiter zu senken, muss die Varianz ab einem gewissen Punkt steigen.

Am Ende wird sowohl die Varianz als auch der Bias einen Teil des absoluten Fehler ausmachen. Finde den Wert des geringsten Fehlers und nicht der geringsten Bias.

27
Q

Welche Techniken kann man für das Verringern der Varianz nutzen?

Experiment Analysis

A

Bagging ist eine Methode, bei der mehrere Modelle trainiert werden, die jeweils auf verschiedenen zufälligen Teilmengen der Trainingsdaten basieren.

Resampling umfasst Methoden, bei denen die Trainingsdaten in verschiedene Teilmengen aufgeteilt oder mehrfach verwendet werden, um die Modellleistung zu bewerten und zu verbessern. Ein bekanntes Beispiel ist die k-fache Kreuzvalidierung

28
Q

Beschreibe K-Fold Crossvalidation

Experiment Analysis

A

Separiere den Testdatensatz von Train/Val Datensatz und nutze dann jeden Trainingsdatenpunkt:

k-1 mal für Training
1 mal für Validierung

29
Q

Beschreibe den Unterschied zwischen Korrelation und Kausalität

Experiment Analysis

A

Kausalität sind reale Zusammenhänge. A beeinflusst B in der realen Welt, während Korrelation nur Zusammenhänge misst, wobei daraus nicht im Allgemeinen geschlussfolgert werden kann, das dieser Zusammenhang auch in Realität besteht oder nur eine Scheinkorrelation ist. Also tatsächlich noch ein Ereignis C beide Ereignisse A & B beeinflusst.

Unsere Modelle können nur Korrelationen messen