Kapitel 4: Multivariate Datenanalyse Flashcards
Multivariate Analyseverfahren
- Einfluss verschiedener erklärender Faktoren oder Variablen auf ein erklärungsbedürftiges Phänomen zu untersuchen
- Häufigstes Verfahren: Regressionsanalyse
Regressionsanalyse
- Erklärung von abhängigen Variablen
- Prognosen
- Untersucht Kausalbeziehungen
- Bestimmt Richtung, Ursprung, Stärke eines Einflusses
Abhängige Variable
- Erklärte Variable
- Kriteriumsvariable
- Endogene Variable
- Regressand
Unabhängige Variable
- Erklärende Variable
- Prädikatorvariable
- Exogene Variable
- Regressor
Linear Regression
- Untersuchung des Zusammenhangs zwischen mindestens einer uV und einer aV
Ziel der linearen Regression
- Ermitteln einer Schätzgleichung, die möglichst genaue Beschreibung der durchschnittlichen linearen Abhängigkeit von aV zu mindestens einer anderen Variable uV darstellt
- Erklärung der beobachteten Varianz einer aV durch andere Variablen
Voraussetzung der linearen Regression
- aV liegt mindest intervallskaliert vor
Störgrößen
- Systematische Fehler: Bestimmte Variablen sind noch nicht im Regressionsmodell integriert
- Beobachtung- und Messfehler: Können während der Datenerhebung auftreten
- Unbekannte Störgrößen
Ordinary-Least-Square-Verfahren
- Kleinste-Quadrat-Schätzung
- Bestimmung der Regressionsgeraden mit den geringsten Abständen zu beobachteten Werten
Regressionskoeffizient (Betta)
- Auskunft über Stärke und Richtung eines Einflusses
- Vorzeichen bestimmt, oben es sich um einen positiven oder negativen Zusammenhang handelt
Determinationskoeffizient R^2
- Bestimmtheitsmaß
- Gibt an, wie groß der Anteil der durch die Regressionsanalyse erklärten Varianz der beobachteten Datenpunkte ist
- Wie viel Varianz kann durch das aufgestellte Regressionsmodell erklärt werden kann
- Gütemaß der Regression
Multiple Regressionsanalyse
- Modell zur Erklärung bzw. Vorhersage von y
- Ermittlung der Richtung und Stärke einzelner Einflussfaktoren
Dummy-Kodierung
- Transformierung der kategorialen Variablen in Dichotomie Variablen
Standardisierte Koeffizienten
- z-Transformierung der uV
- Gibt an um wie viele Standardabweichungen sich die abhängige Variable ändert, wenn das unabhängige Merkmal um eine Standardabweichung ansteigt
- Nachteil: Können nur innerhalb einer Stichprobe miteinander verglichen werden
Inferenzstatistische Verfahren
- Prüfen statistische Signifikanz des Gesamtmodells und der einzelnen Regressionskoeffizienten
- Aussagen über Übertragbarkeit des Modells auf Grundgesamtheit
Prüfgröße F
- Berücksichtigt die erklärte und nicht-erklärte Streuung des Modells, Stichprobenumfang und Anzahl der Einflussfaktoren
F-Test
- Prüft den statistisch signifikanten Beitrag der uVs zur Erklärung der aV
t-Werte
- Prüfung der statistischen Relevanz der einzelnen Regressionskoeffizienten
- Berechnung: umstandardisierter Regressionskoeffizient/Standardfehler des Regressionskoeffizienten
Voraussetzungen für die Durchführung Regressionsanalyse (BLUE-Annahmen)
- Zwischen uV und aV sollte ein linearer Zusammenhang bestehen
- Stichprobe muss Zufallsstichprobe sein
- Vermeidung von Multikollinearität
- Zufälliges Auftreten der Residuen
- Konstanz der Varianz der Residuen
- Alle theoretisch relevanten Faktoren sollten im Modell erhalten sein
Logistische Regression
- Analyseinstrument zur Untersuchung von dichotomen abhängigen Variablen
- Ermitteln der Wahrscheinlichkeit für den Eintritt eines Ereignisses
- Vorhersage für Y wenn X bestimmte Werte annimmt
- Maximum-Likelihood-Verfahren
Maximum-Likelihood-Schätzverfahren
- Iterative Vorgehensweise um die zu Daten passende Regressionskurve zu finden
- Logarithmierte Likelihood-Funktion (LL)
Logistische Regressionsfuntktion
- Hat s-förmigen Verlauf
- Verläuft innerhalb der Grenzen 0 und 1
- Symmetrisch um den Wendepunkt 0,5
- Nähert sich asymptotisch den Werten 0 und 1 an, überschreitet diese aber nicht
Logit-Koeffizient (Steigungsparameter Betta)
- Gibt die logarithmierte Chance an, dass ein Ereignis eintritt
- Wertebereich lieht zwischen -unendlich und +unendlich
Effektkoeffizienten (Exp(B)) oder Odds-Ratios
- Chancenverhältnis, welches die vorhergesagte Veränderung in der abhängigen Variable angibt, wenn sich die unabhängige Variable um eine Einheit ändert
- Wertebereich zwischen 0 und +unendlich
- Exp(B)-Koeffizient < 1: Geringere Chance
- Exp(B)-Koeffizient > 1: Höhere Chance
p-Werte
- Informiert ob ein in Stichprobe gefundener Zusammenhang auf Grundgesamtheit übertragen werden kann
- Gibt die Wahrscheinlichkeit für ein Ereignis unter der Bedingung an, dass die Nullhypothese zutrifft
- p-Wert < 0,05: Nullhypothese wird vorläufig verworfen und Alternativhypothese angenommen
Pseudo-R2
- Aussage über die globale Güte des Modells
- Cox, Snell, Nagelkerke
- Höherer Wert deutet auf passenderes Modell hin -> Indiz für globale Güte des Modells
Voraussetzung für Durchführung der binären logistischen Regression
- Größere Fallzahl (mind. 50 Fälle)
- Für jede Ausprägung der Variable mindestens 50 Fälle vorliegen
- aV muss binär kodiert sein
- uV aufweisen eines binären kategorialen Skalenniveaus