Machine Learning Validity Flashcards
Nenne 5 Probleme, welche die Validierung deiner ML Experiment bedrohen.
Experimental Setup
- Simpson Paradox
- p-hacking
- Measurement Errors
- Missing Data
- Table 2 Fallacy (Überinterpretation von zusätzlichen Kovariaten)
- Generalisierbarkeit
- Type I & II Errors
- Overfitting
- Selection Bias
…
Was versteht man unter “Table 2 Fallacy”
Experimental Setup
Wenn eine Untersuchung angestelllt wird zwischen zwei Variablen (zB Medikament und Überlebensrate) und die zusätzlichen Kovarianzen (wie Alter, Gewicht, Geschlecht, ..) auf der 2. Tabelle überinterpretiert werden, weil das Medikament im Vordergrund sein sollte und die Kausalität von solchen Faktoren überinterpretieren.
Beschreibe Typ I und Typ II Fehler in der induktiven Statistik
Experimental Setup
Typ I
Null-Hypothese wird abgelehnt, aber ist wahr.
-> False Positive
Type II
Null-Hypothese wird nicht abgelehnt, aber ist falsch.
-> False Negative
Ablehnung -> I; Nicht Ablehnung -> II
Positive comes before Negative
Welche Überlegungen solltest du bei der Auswahl der Algorithmen machen?
Experimental Setup
- Easy over Hard
- Ist Erklärbarkeit wichtig?
- ist super schnelle Inference wichtig
- Muss jedes promille der Accuracy ausgereizt werden?
Was sagt das No-Free-Lunch Theorem aus?
Experimental Setup
Das No Free Lunch Theorem im maschinellen Lernen besagt, dass alle Optimierungsalgorithmen gleich gut funktionieren, wenn ihre Leistung über alle möglichen Zielfunktionen gemittelt wird.
Oder: Es gibt keinen universell besten Algorithmus
Nenne das Ziel einer Formulierung von Hypothesen und 5 Vorteile bei korrekter Ausführung
Experimental Setup
Goal: Artikuliere deutlich, was das Experiment testen soll und welche Variablen gemessen werden
+ Enables collecting relevant data
+ Helps verifying experimentation contributions to the project goal
+ Hypothesen vereinfach Reproduktion, dank klarer Formulierung
+ Das Testen von mehreren Hypothesen verhindert Data-Dredging ( P-Hacking )
+ Kommuniziert klar die Erwartung auf das Ergebnis
Definiere abhängige und unabhängige Variablen in Experimenten
(Experimentelle Variablen)
Experimental Setup
Unabhängige Variablen:
- Variablen, die durch die Forschung manipuliert werden
- unabhängig, weil ihre Werte nicht von anderen Variablen im Experiment abhängig sind
- es wird angenommen, dass sie einen kausalen Effekt auf die abhängige Variable haben
-> selected features, algorithms, preprocessing steps, …
Abhängige Variablen:
- Variablen, die vom Forscher gemessen oder beobachtet werden
- von Änderungen der unabhängigen Variablen wird erwartet, dass sie die abhängige Variable ändern (oder nicht)
- Erwartungen werden in den Hypothesen formuliert
-> Metriken wie Accuracy sind abhängig von unabhängigen Variablen wie Algorithmus
Definiere abhängige und unabhängige Variablen in Experimenten
Experimental Setup
Unabhängige Variablen:
- verwendete Funktionen (z. B. Codemetriken)
- verwendete Trainingsalgorithmen
- verwendete Vorverarbeitung
- usw.
Abhängige Variablen:
- Genauigkeit der Vorhersagen
- verschiedene auf Grundlage der Vorhersageergebnisse berechnete Metriken
Welche Formen der Validity / Gültigkeit gibt es in ML Experimenten? Beschreibe sie.
Experimental Setup
Intere Validity / Gültigkeit
Interne Validität bezieht sich auf das Ausmaß, in dem eine Studie frei von Bias ist und den Effekt der unabhängigen Variable auf die abhängige Variable genau misst.
In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells die Beziehung zwischen unabhängigen und abhängigen Variablen in der zugrundeliegenden Population korrekt widerspiegeln.
Externe Validity / Gültigkeit
Externe Validität bezieht sich auf die Generalisierbarkeit der Ergebnisse einer Studie auf andere Populationen, Umgebungen und Bedingungen.
In Data-Science-Experimenten bedeutet dies, dass die Ergebnisse eines Modells auf neue, unbekannte Daten übertragbar sind.
Welche Gefahren hat externe Validity / Gültigkeit ? Erkläre die Gefahren.
sehr offensichtlich, wenn man nicht auswendig lernt, sondern nachdenkt.
Experimental Setup
Sampling-Bias (Stichprobenverzerrung): Wenn die Daten, auf denen das Modell trainiert wurde, nicht repräsentativ für die Zielpopulation sind, können die Ergebnisse des Modells nicht auf neue, unbekannte Daten übertragen werden. Beispielsweise kann ein Modell, das nur auf Daten einer bestimmten Region trainiert wurde, auf globaler Ebene ungenaue Vorhersagen machen.
Zu einfache Modelle (Bias-Varianz-Tradeoff): Modelle, die zu stark vereinfacht sind, fangen möglicherweise nicht alle relevanten Zusammenhänge in den Daten ein. Dadurch kann das Modell in neuen, komplexeren Szenarien scheitern und seine Generalisierbarkeit verringern.
1x Datenproblem, 1x Modellproblem
Welche Gefahren hat interne Validity / Gültigkeit? Erkläre die Gefahren.
Experimental Setup
Selektionsbias: Wenn die Auswahl der Daten oder der Teilnehmer für das Training nicht zufällig oder verzerrt ist, kann dies zu falschen Schlussfolgerungen führen. Das Modell könnte dann nicht die tatsächliche Beziehung zwischen den Variablen abbilden.
Datenleckage: Wenn Informationen aus dem Testdatensatz unbeabsichtigt im Trainingsdatensatz verwendet werden, führt dies zu überoptimistischen Modellergebnissen. Das Modell erscheint dann besser als es tatsächlich ist, da es auf nicht-realistischen Informationen basiert.
2x Datenproblem
Was sollte beim Aufstellen des Experiments beachtet werden?
Experimental Setup
- Sei explizit
- Formuliere eine klare Research-Question
- Ziehe Folgerungen daraus für Abhängigkeiten
Was ist der File-Draw Effect?
Experiment Analysis
File-Draw-Effekt
nur positive Ergebnisse von Studien werden veröffentlicht.
Daher werden diese Experimente immer wieder probiert
-> Große Ressourcen Verschwendung
-> Potenzial, dass der Zufall es positives Ergebnis ermöglicht
Was ist eine Metrik?
Experiment Analysis
Eine Metrik ist ein Indikator für eine bestimme interessante quantitative Eigenschaft eines Subjektes.
Normalerweise misst eine Metrik nicht 1zu1 ein Objective wie zB Usefulness
Was ist eine Baseline?
Experiment Analysis
Ein Basiswert ist der erreichte Wert einer Metrik aus einem bekannten Prozess.
Er dient als minimal erreichbares Ziel und als Referenzpunkt für einen neuen Prozess oder ein Modell.
Er gibt einen ersten Anhaltspunkt für den unvermeidbaren Fehler.