Machine Learning Validity Flashcards
Nenne 5 Probleme, welche die Validierung deiner ML Experiment bedrohen.
Experimental Setup
- Simpson Paradox
- p-hacking
- Measurement Errors
- Missing Data
- Table 2 Fallacy (Überinterpretation von zusätzlichen Kovariaten)
- Generalisierbarkeit
- Type I & II Errors
- Overfitting
- Selection Bias
…
Was versteht man unter “Table 2 Fallacy”
Experimental Setup
Wenn eine Untersuchung angestelllt wird zwischen zwei Variablen (zB Medikament und Überlebensrate) und die zusätzlichen Kovarianzen (wie Alter, Gewicht, Geschlecht, ..) auf der 2. Tabelle überinterpretiert werden, weil das Medikament im Vordergrund sein sollte und die Kausalität von solchen Faktoren überinterpretieren.
Beschreibe Typ I und Typ II Fehler in der induktiven Statistik
Experimental Setup
Typ I
Null-Hypothese wird abgelehnt, aber ist wahr.
-> False Positive
Type II
Null-Hypothese wird nicht abgelehnt, aber ist falsch.
-> False Negative
Ablehnung -> I; Nicht Ablehnung -> II
Positive comes before Negative
Welche Überlegungen solltest du bei der Auswahl der Algorithmen machen?
Experimental Setup
- Easy over Hard
- Ist Erklärbarkeit wichtig?
- ist super schnelle Inference wichtig
- Muss jedes promille der Accuracy ausgereizt werden?
Was sagt das No-Free-Lunch Theorem aus?
Experimental Setup
Das No Free Lunch Theorem im maschinellen Lernen besagt, dass alle Optimierungsalgorithmen gleich gut funktionieren, wenn ihre Leistung über alle möglichen Zielfunktionen gemittelt wird.
Oder: Es gibt keinen universell besten Algorithmus
Nenne das Ziel einer Formulierung von Hypothesen und 5 Vorteile bei korrekter Ausführung
Experimental Setup
Goal: Artikuliere deutlich, was das Experiment testen soll und welche Variablen gemessen werden
+ Enables collecting relevant data
+ Helps verifying experimentation contributions to the project goal
+ Hypothesen vereinfach Reproduktion, dank klarer Formulierung
+ Das Testen von mehreren Hypothesen verhindert Data-Dredging ( P-Hacking )
+ Kommuniziert klar die Erwartung auf das Ergebnis
Definiere abhängige und unabhängige Variablen in Experimenten
(Experimentelle Variablen)
Experimental Setup
Unabhängige Variablen:
- Variablen, die durch die Forschung manipuliert werden
- unabhängig, weil ihre Werte nicht von anderen Variablen im Experiment abhängig sind
- es wird angenommen, dass sie einen kausalen Effekt auf die abhängige Variable haben
-> selected features, algorithms, preprocessing steps, …
Abhängige Variablen:
- Variablen, die vom Forscher gemessen oder beobachtet werden
- von Änderungen der unabhängigen Variablen wird erwartet, dass sie die abhängige Variable ändern (oder nicht)
- Erwartungen werden in den Hypothesen formuliert
-> Metriken wie Accuracy sind abhängig von unabhängigen Variablen wie Algorithmus
Definiere abhängige und unabhängige Variablen in Experimenten
Experimental Setup
Unabhängige Variablen:
- verwendete Funktionen (z. B. Codemetriken)
- verwendete Trainingsalgorithmen
- verwendete Vorverarbeitung
- usw.
Abhängige Variablen:
- Genauigkeit der Vorhersagen
- verschiedene auf Grundlage der Vorhersageergebnisse berechnete Metriken
Welche Formen der Validity / Gültigkeit gibt es in ML Experimenten? Beschreibe sie.
Experimental Setup
Intere Validity / Gültigkeit
Interne Validität bezieht sich auf das Ausmaß, in dem eine Studie frei von Bias ist und den Effekt der unabhängigen Variable auf die abhängige Variable genau misst.
In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells die Beziehung zwischen unabhängigen und abhängigen Variablen in der zugrundeliegenden Population korrekt widerspiegeln.
Externe Validity / Gültigkeit
Externe Validität bezieht sich auf die Generalisierbarkeit der Ergebnisse einer Studie auf andere Populationen, Umgebungen und Bedingungen.
In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells auf neue, unbekannte Daten übertragbar sind.
Welche Gefahren hat externe Validity / Gültigkeit ? Erkläre die Gefahren.
sehr offensichtlich, wenn man nicht auswendig lernt, sondern nachdenkt.
Experimental Setup
Sampling-Bias (Stichprobenverzerrung): Wenn die Daten, auf denen das Modell trainiert wurde, nicht repräsentativ für die Zielpopulation sind, können die Ergebnisse des Modells nicht auf neue, unbekannte Daten übertragen werden. Beispielsweise kann ein Modell, das nur auf Daten einer bestimmten Region trainiert wurde, auf globaler Ebene ungenaue Vorhersagen machen.
Zu einfache Modelle (Bias-Varianz-Tradeoff): Modelle, die zu stark vereinfacht sind, fangen möglicherweise nicht alle relevanten Zusammenhänge in den Daten ein. Dadurch kann das Modell in neuen, komplexeren Szenarien scheitern und seine Generalisierbarkeit verringern.
1x Datenproblem, 1x Modellproblem
Welche Gefahren hat interne Validity / Gültigkeit? Erkläre die Gefahren.
Experimental Setup
Selektionsbias: Wenn die Auswahl der Daten oder der Teilnehmer für das Training nicht zufällig oder verzerrt ist, kann dies zu falschen Schlussfolgerungen führen. Das Modell könnte dann nicht die tatsächliche Beziehung zwischen den Variablen abbilden.
Datenleckage: Wenn Informationen aus dem Testdatensatz unbeabsichtigt im Trainingsdatensatz verwendet werden, führt dies zu überoptimistischen Modellergebnissen. Das Modell erscheint dann besser als es tatsächlich ist, da es auf nicht-realistischen Informationen basiert.
2x Datenproblem
Was sollte beim Aufstellen des Experiments beachtet werden?
Experimental Setup
- Sei explizit
- Formuliere eine klare Research-Question
- Ziehe Folgerungen daraus für Abhängigkeiten
Was ist der File-Draw Effect?
Experiment Analysis
File-Draw-Effekt
nur positive Ergebnisse von Studien werden veröffentlicht.
Daher werden diese Experimente immer wieder probiert
-> Große Ressourcen Verschwendung
-> Potenzial, dass der Zufall es positives Ergebnis ermöglicht
Was ist eine Metrik?
Experiment Analysis
Eine Metrik ist ein Indikator für eine bestimme interessante quantitative Eigenschaft eines Subjektes.
Normalerweise misst eine Metrik nicht 1zu1 ein Objective wie zB Usefulness
Was ist eine Baseline?
Experiment Analysis
Ein Basiswert ist der erreichte Wert einer Metrik aus einem bekannten Prozess.
Er dient als minimal erreichbares Ziel und als Referenzpunkt für einen neuen Prozess oder ein Modell.
Er gibt einen ersten Anhaltspunkt für den unvermeidbaren Fehler.
Warum sind Metriken und Baselines so wichtig für ML Experimentation?
Experiment Analysis
Metriken können zu non-functional Anforderungen zeigen. (Inferenz)
Es ist oft nicht möglich bzw. nicht umsetzbar, alle Metriken simultan zu verbessern. -> Fokussiere dich auf 1-2 Metriken.
Baselines sind unumgänglich, da Metriken sonst keinen Wert haben. Was ist ein guter Wert für eine Metrik? 0.95, 0.99, 0.7? -> Baseline entscheidet
Nenne 4 von 7 Möglichkeiten eine Baseline zu kreieren
Experiment Analysis
- Human Level Performance
- Literatur Recherche
- Open Source Systeme
- Einfache & Dreckige Implementierung
- Performance von früheren Systemen
- Einfache Statistische Modelle
- Majority Vote
Definiere die Metrik:
- Recall
Experiment Analysis
Recall:
out of all Trues, how many are recalled?
TP / (TP + FN)
Definiere die Metrik:
- False Negative Rate (FNR)
Experiment Analysis
FNR:
1 - Recall = 1 - FN / (TP + FN)
Definiere die Metrik:
- Precision
Experiment Analysis
Precision:
Measures how precise we classify Trues
TP / (TP + FP)
Definiere die Metrik:
- False Positive Rate (FPR)
Experiment Analysis
FPR:
FP / (FP + TN)
Definiere F1 Score
Experiment Analysis
F1 = 2 / (1/Precision + 1/recall)
or
F1 = 2 * recall * precision / (recall + precision)
Definiere und beschreibe die ROC-Kurve, gehe auf Random, Usual und Best Case
Experiment Analysis
Die Receiver-Operater-Characteristic Curve hat auf der
Y-Achse: TPR
X-Achse: FPR
und ermittelt, inwiefern das Setzen des Thresholds eines binären Klassifikators die FPR vs TPR verändert
Je größer die Fläche unter der Kurve, desto besser das Ergebnis.
Basic Facts:
- Random ist Linie in der Diagonalen
- Usual TPR verbessert sich, wenn FPR auch steigt
- Best Case ist ein Dreieck bzw. maximale Fläche.
Definiere den Daten-Split in ML Verfahren
Experiment Analysis
Train: Training
Validation: Testen von Configs und Trainingsstop gegen Overfitting
Test: Testen von Generalisierbarkeit
T V T
Wann ist der Punkt erreicht, ab dem Overfitting startet? Andersgesagt, wann ist der beste Zeitpunkt das Trainieren zu stoppen?
Experiment Analysis
Wenn der Validation-Fehler anfängt monoton zu steigen.
T V T
Erkläre das Bias-Variance Tradeoff Problem
Experiment Analysis
Oftmal trifft das Szenario zu, dass Bias und Varianz nicht am gleichen Punkt den Minimum erreichen.
Viel eher noch, um den Bias (avg. Trainingsfehler) weiter zu senken, muss die Varianz ab einem gewissen Punkt steigen.
Am Ende wird sowohl die Varianz als auch der Bias einen Teil des absoluten Fehler ausmachen. Finde den Wert des geringsten Fehlers und nicht der geringsten Bias.
Welche Techniken kann man für das Verringern der Varianz nutzen?
Experiment Analysis
Bagging ist eine Methode, bei der mehrere Modelle trainiert werden, die jeweils auf verschiedenen zufälligen Teilmengen der Trainingsdaten basieren.
Resampling umfasst Methoden, bei denen die Trainingsdaten in verschiedene Teilmengen aufgeteilt oder mehrfach verwendet werden, um die Modellleistung zu bewerten und zu verbessern. Ein bekanntes Beispiel ist die k-fache Kreuzvalidierung
Beschreibe K-Fold Crossvalidation
Experiment Analysis
Separiere den Testdatensatz von Train/Val Datensatz und nutze dann jeden Trainingsdatenpunkt:
k-1 mal für Training
1 mal für Validierung
Beschreibe den Unterschied zwischen Korrelation und Kausalität
Experiment Analysis
Kausalität sind reale Zusammenhänge. A beeinflusst B in der realen Welt, während Korrelation nur Zusammenhänge misst, wobei daraus nicht im Allgemeinen geschlussfolgert werden kann, das dieser Zusammenhang auch in Realität besteht oder nur eine Scheinkorrelation ist. Also tatsächlich noch ein Ereignis C beide Ereignisse A & B beeinflusst.
Unsere Modelle können nur Korrelationen messen