Machine Learning Validity Flashcards by Jan Albrecht

Nenne 5 Probleme, welche die Validierung deiner ML Experiment bedrohen.

Experimental Setup

Simpson Paradox
p-hacking
Measurement Errors
Missing Data
Table 2 Fallacy (Überinterpretation von zusätzlichen Kovariaten)
Generalisierbarkeit
Type I & II Errors
Overfitting
Selection Bias
…

How well did you know this?

Not at all

Perfectly

Was versteht man unter “Table 2 Fallacy”

Experimental Setup

Wenn eine Untersuchung angestelllt wird zwischen zwei Variablen (zB Medikament und Überlebensrate) und die zusätzlichen Kovarianzen (wie Alter, Gewicht, Geschlecht, ..) auf der 2. Tabelle überinterpretiert werden, weil das Medikament im Vordergrund sein sollte und die Kausalität von solchen Faktoren überinterpretieren.

How well did you know this?

Not at all

Perfectly

Beschreibe Typ I und Typ II Fehler in der induktiven Statistik

Experimental Setup

Typ I
Null-Hypothese wird abgelehnt, aber ist wahr.
-> False Positive

Type II
Null-Hypothese wird nicht abgelehnt, aber ist falsch.
-> False Negative

Ablehnung -> I; Nicht Ablehnung -> II

Positive comes before Negative

How well did you know this?

Not at all

Perfectly

Welche Überlegungen solltest du bei der Auswahl der Algorithmen machen?

Experimental Setup

Easy over Hard
Ist Erklärbarkeit wichtig?
ist super schnelle Inference wichtig
Muss jedes promille der Accuracy ausgereizt werden?

How well did you know this?

Not at all

Perfectly

Was sagt das No-Free-Lunch Theorem aus?

Experimental Setup

Das No Free Lunch Theorem im maschinellen Lernen besagt, dass alle Optimierungsalgorithmen gleich gut funktionieren, wenn ihre Leistung über alle möglichen Zielfunktionen gemittelt wird.

Oder: Es gibt keinen universell besten Algorithmus

How well did you know this?

Not at all

Perfectly

Nenne das Ziel einer Formulierung von Hypothesen und 5 Vorteile bei korrekter Ausführung

Experimental Setup

Goal: Artikuliere deutlich, was das Experiment testen soll und welche Variablen gemessen werden

+ Enables collecting relevant data
+ Helps verifying experimentation contributions to the project goal
+ Hypothesen vereinfach Reproduktion, dank klarer Formulierung
+ Das Testen von mehreren Hypothesen verhindert Data-Dredging ( P-Hacking )
+ Kommuniziert klar die Erwartung auf das Ergebnis

How well did you know this?

Not at all

Perfectly

Definiere abhängige und unabhängige Variablen in Experimenten

(Experimentelle Variablen)

Experimental Setup

Unabhängige Variablen:
- Variablen, die durch die Forschung manipuliert werden
- unabhängig, weil ihre Werte nicht von anderen Variablen im Experiment abhängig sind
- es wird angenommen, dass sie einen kausalen Effekt auf die abhängige Variable haben
-> selected features, algorithms, preprocessing steps, …

Abhängige Variablen:
- Variablen, die vom Forscher gemessen oder beobachtet werden
- von Änderungen der unabhängigen Variablen wird erwartet, dass sie die abhängige Variable ändern (oder nicht)
- Erwartungen werden in den Hypothesen formuliert
-> Metriken wie Accuracy sind abhängig von unabhängigen Variablen wie Algorithmus

How well did you know this?

Not at all

Perfectly

Definiere abhängige und unabhängige Variablen in Experimenten

Experimental Setup

Unabhängige Variablen:
- verwendete Funktionen (z. B. Codemetriken)
- verwendete Trainingsalgorithmen
- verwendete Vorverarbeitung
- usw.

Abhängige Variablen:
- Genauigkeit der Vorhersagen
- verschiedene auf Grundlage der Vorhersageergebnisse berechnete Metriken

How well did you know this?

Not at all

Perfectly

Welche Formen der Validity / Gültigkeit gibt es in ML Experimenten? Beschreibe sie.

Experimental Setup

Intere Validity / Gültigkeit

Interne Validität bezieht sich auf das Ausmaß, in dem eine Studie frei von Bias ist und den Effekt der unabhängigen Variable auf die abhängige Variable genau misst.

In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells die Beziehung zwischen unabhängigen und abhängigen Variablen in der zugrundeliegenden Population korrekt widerspiegeln.

Externe Validity / Gültigkeit

Externe Validität bezieht sich auf die Generalisierbarkeit der Ergebnisse einer Studie auf andere Populationen, Umgebungen und Bedingungen.

In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells auf neue, unbekannte Daten übertragbar sind.

How well did you know this?

Not at all

Perfectly

Welche Gefahren hat externe Validity / Gültigkeit ? Erkläre die Gefahren.

sehr offensichtlich, wenn man nicht auswendig lernt, sondern nachdenkt.

Experimental Setup

Sampling-Bias (Stichprobenverzerrung): Wenn die Daten, auf denen das Modell trainiert wurde, nicht repräsentativ für die Zielpopulation sind, können die Ergebnisse des Modells nicht auf neue, unbekannte Daten übertragen werden. Beispielsweise kann ein Modell, das nur auf Daten einer bestimmten Region trainiert wurde, auf globaler Ebene ungenaue Vorhersagen machen.

Zu einfache Modelle (Bias-Varianz-Tradeoff): Modelle, die zu stark vereinfacht sind, fangen möglicherweise nicht alle relevanten Zusammenhänge in den Daten ein. Dadurch kann das Modell in neuen, komplexeren Szenarien scheitern und seine Generalisierbarkeit verringern.

1x Datenproblem, 1x Modellproblem

How well did you know this?

Not at all

Perfectly

Welche Gefahren hat interne Validity / Gültigkeit? Erkläre die Gefahren.

Experimental Setup

Selektionsbias: Wenn die Auswahl der Daten oder der Teilnehmer für das Training nicht zufällig oder verzerrt ist, kann dies zu falschen Schlussfolgerungen führen. Das Modell könnte dann nicht die tatsächliche Beziehung zwischen den Variablen abbilden.

Datenleckage: Wenn Informationen aus dem Testdatensatz unbeabsichtigt im Trainingsdatensatz verwendet werden, führt dies zu überoptimistischen Modellergebnissen. Das Modell erscheint dann besser als es tatsächlich ist, da es auf nicht-realistischen Informationen basiert.

2x Datenproblem

How well did you know this?

Not at all

Perfectly

Was sollte beim Aufstellen des Experiments beachtet werden?

Experimental Setup

Sei explizit
Formuliere eine klare Research-Question
Ziehe Folgerungen daraus für Abhängigkeiten

How well did you know this?

Not at all

Perfectly

Was ist der File-Draw Effect?

Experiment Analysis

File-Draw-Effekt

nur positive Ergebnisse von Studien werden veröffentlicht.
Daher werden diese Experimente immer wieder probiert

-> Große Ressourcen Verschwendung
-> Potenzial, dass der Zufall es positives Ergebnis ermöglicht

How well did you know this?

Not at all

Perfectly

Was ist eine Metrik?

Experiment Analysis

Eine Metrik ist ein Indikator für eine bestimme interessante quantitative Eigenschaft eines Subjektes.

Normalerweise misst eine Metrik nicht 1zu1 ein Objective wie zB Usefulness

How well did you know this?

Not at all

Perfectly

Was ist eine Baseline?

Experiment Analysis

Ein Basiswert ist der erreichte Wert einer Metrik aus einem bekannten Prozess.

Er dient als minimal erreichbares Ziel und als Referenzpunkt für einen neuen Prozess oder ein Modell.

Er gibt einen ersten Anhaltspunkt für den unvermeidbaren Fehler.

How well did you know this?

Not at all

Perfectly

Warum sind Metriken und Baselines so wichtig für ML Experimentation?

Experiment Analysis

Study These Flashcards

Metriken können zu non-functional Anforderungen zeigen. (Inferenz)

Es ist oft nicht möglich bzw. nicht umsetzbar, alle Metriken simultan zu verbessern. -> Fokussiere dich auf 1-2 Metriken.

Baselines sind unumgänglich, da Metriken sonst keinen Wert haben. Was ist ein guter Wert für eine Metrik? 0.95, 0.99, 0.7? -> Baseline entscheidet

Nenne 4 von 7 Möglichkeiten eine Baseline zu kreieren

Experiment Analysis

Study These Flashcards

Human Level Performance
Literatur Recherche
Open Source Systeme
Einfache & Dreckige Implementierung
Performance von früheren Systemen
Einfache Statistische Modelle
Majority Vote

Definiere die Metrik:
- Recall

Experiment Analysis

Study These Flashcards

Recall:
out of all Trues, how many are recalled?

TP / (TP + FN)

Definiere die Metrik:
- False Negative Rate (FNR)

Experiment Analysis

Study These Flashcards

FNR:
1 - Recall = 1 - FN / (TP + FN)

Definiere die Metrik:
- Precision

Experiment Analysis

Study These Flashcards

Precision:
Measures how precise we classify Trues
TP / (TP + FP)

Definiere die Metrik:
- False Positive Rate (FPR)

Experiment Analysis

Study These Flashcards

FPR:
FP / (FP + TN)

Definiere F1 Score

Experiment Analysis

Study These Flashcards

F1 = 2 / (1/Precision + 1/recall)
or
F1 = 2 * recall * precision / (recall + precision)

Definiere und beschreibe die ROC-Kurve, gehe auf Random, Usual und Best Case

Experiment Analysis

Study These Flashcards

Die Receiver-Operater-Characteristic Curve hat auf der
Y-Achse: TPR
X-Achse: FPR

und ermittelt, inwiefern das Setzen des Thresholds eines binären Klassifikators die FPR vs TPR verändert
Je größer die Fläche unter der Kurve, desto besser das Ergebnis.

Basic Facts:
- Random ist Linie in der Diagonalen
- Usual TPR verbessert sich, wenn FPR auch steigt
- Best Case ist ein Dreieck bzw. maximale Fläche.

Definiere den Daten-Split in ML Verfahren

Experiment Analysis

Study These Flashcards

Train: Training
Validation: Testen von Configs und Trainingsstop gegen Overfitting
Test: Testen von Generalisierbarkeit

T V T

Wann ist der Punkt erreicht, ab dem Overfitting startet? Andersgesagt, wann ist der beste Zeitpunkt das Trainieren zu stoppen? ## Footnote Experiment Analysis

Wenn der Validation-Fehler anfängt monoton zu steigen. | **T V T**

Erkläre das Bias-Variance Tradeoff Problem ## Footnote Experiment Analysis

Oftmal trifft das Szenario zu, dass Bias und Varianz nicht am gleichen Punkt den Minimum erreichen. Viel eher noch, um den Bias (avg. Trainingsfehler) weiter zu senken, muss die Varianz ab einem gewissen Punkt steigen. **Am Ende wird sowohl die Varianz als auch der Bias einen Teil des absoluten Fehler ausmachen. Finde den Wert des geringsten Fehlers und nicht der geringsten Bias.**

Welche Techniken kann man für das Verringern der Varianz nutzen? ## Footnote Experiment Analysis

**Bagging** ist eine Methode, bei der mehrere Modelle trainiert werden, die jeweils auf verschiedenen zufälligen Teilmengen der Trainingsdaten basieren. **Resampling** umfasst Methoden, bei denen die Trainingsdaten in verschiedene Teilmengen aufgeteilt oder mehrfach verwendet werden, um die Modellleistung zu bewerten und zu verbessern. Ein bekanntes Beispiel ist die k-fache Kreuzvalidierung

Beschreibe K-Fold Crossvalidation ## Footnote Experiment Analysis

Separiere den Testdatensatz von Train/Val Datensatz und nutze dann jeden Trainingsdatenpunkt: k-1 mal für Training 1 mal für Validierung

Beschreibe den Unterschied zwischen Korrelation und Kausalität ## Footnote Experiment Analysis

Kausalität sind reale Zusammenhänge. A beeinflusst B in der realen Welt, während Korrelation nur Zusammenhänge misst, wobei daraus nicht im Allgemeinen geschlussfolgert werden kann, das dieser Zusammenhang auch in Realität besteht oder nur eine Scheinkorrelation ist. Also tatsächlich noch ein Ereignis C beide Ereignisse A & B beeinflusst. **Unsere Modelle können nur Korrelationen messen**

Machine Learning Validity Flashcards

(29 cards)