Kapitel 4: Multivariate Datenanalyse Flashcards

1
Q

Multivariate Analyseverfahren

A
  • Einfluss verschiedener erklärender Faktoren oder Variablen auf ein erklärungsbedürftiges Phänomen zu untersuchen
  • Häufigstes Verfahren: Regressionsanalyse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Regressionsanalyse

A
  • Erklärung von abhängigen Variablen
  • Prognosen
  • Untersucht Kausalbeziehungen
  • Bestimmt Richtung, Ursprung, Stärke eines Einflusses
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Abhängige Variable

A
  • Erklärte Variable
  • Kriteriumsvariable
  • Endogene Variable
  • Regressand
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Unabhängige Variable

A
  • Erklärende Variable
  • Prädikatorvariable
  • Exogene Variable
  • Regressor
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Linear Regression

A
  • Untersuchung des Zusammenhangs zwischen mindestens einer uV und einer aV
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ziel der linearen Regression

A
  • Ermitteln einer Schätzgleichung, die möglichst genaue Beschreibung der durchschnittlichen linearen Abhängigkeit von aV zu mindestens einer anderen Variable uV darstellt
  • Erklärung der beobachteten Varianz einer aV durch andere Variablen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Voraussetzung der linearen Regression

A
  • aV liegt mindest intervallskaliert vor
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Störgrößen

A
  • Systematische Fehler: Bestimmte Variablen sind noch nicht im Regressionsmodell integriert
  • Beobachtung- und Messfehler: Können während der Datenerhebung auftreten
  • Unbekannte Störgrößen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ordinary-Least-Square-Verfahren

A
  • Kleinste-Quadrat-Schätzung
  • Bestimmung der Regressionsgeraden mit den geringsten Abständen zu beobachteten Werten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Regressionskoeffizient (Betta)

A
  • Auskunft über Stärke und Richtung eines Einflusses
  • Vorzeichen bestimmt, oben es sich um einen positiven oder negativen Zusammenhang handelt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Determinationskoeffizient R^2

A
  • Bestimmtheitsmaß
  • Gibt an, wie groß der Anteil der durch die Regressionsanalyse erklärten Varianz der beobachteten Datenpunkte ist
  • Wie viel Varianz kann durch das aufgestellte Regressionsmodell erklärt werden kann
  • Gütemaß der Regression
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Multiple Regressionsanalyse

A
  • Modell zur Erklärung bzw. Vorhersage von y
  • Ermittlung der Richtung und Stärke einzelner Einflussfaktoren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Dummy-Kodierung

A
  • Transformierung der kategorialen Variablen in Dichotomie Variablen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Standardisierte Koeffizienten

A
  • z-Transformierung der uV
  • Gibt an um wie viele Standardabweichungen sich die abhängige Variable ändert, wenn das unabhängige Merkmal um eine Standardabweichung ansteigt
  • Nachteil: Können nur innerhalb einer Stichprobe miteinander verglichen werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Inferenzstatistische Verfahren

A
  • Prüfen statistische Signifikanz des Gesamtmodells und der einzelnen Regressionskoeffizienten
  • Aussagen über Übertragbarkeit des Modells auf Grundgesamtheit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Prüfgröße F

A
  • Berücksichtigt die erklärte und nicht-erklärte Streuung des Modells, Stichprobenumfang und Anzahl der Einflussfaktoren
17
Q

F-Test

A
  • Prüft den statistisch signifikanten Beitrag der uVs zur Erklärung der aV
18
Q

t-Werte

A
  • Prüfung der statistischen Relevanz der einzelnen Regressionskoeffizienten
  • Berechnung: umstandardisierter Regressionskoeffizient/Standardfehler des Regressionskoeffizienten
19
Q

Voraussetzungen für die Durchführung Regressionsanalyse (BLUE-Annahmen)

A
  • Zwischen uV und aV sollte ein linearer Zusammenhang bestehen
  • Stichprobe muss Zufallsstichprobe sein
  • Vermeidung von Multikollinearität
  • Zufälliges Auftreten der Residuen
  • Konstanz der Varianz der Residuen
  • Alle theoretisch relevanten Faktoren sollten im Modell erhalten sein
20
Q

Logistische Regression

A
  • Analyseinstrument zur Untersuchung von dichotomen abhängigen Variablen
  • Ermitteln der Wahrscheinlichkeit für den Eintritt eines Ereignisses
  • Vorhersage für Y wenn X bestimmte Werte annimmt
  • Maximum-Likelihood-Verfahren
21
Q

Maximum-Likelihood-Schätzverfahren

A
  • Iterative Vorgehensweise um die zu Daten passende Regressionskurve zu finden
  • Logarithmierte Likelihood-Funktion (LL)
22
Q

Logistische Regressionsfuntktion

A
  • Hat s-förmigen Verlauf
  • Verläuft innerhalb der Grenzen 0 und 1
  • Symmetrisch um den Wendepunkt 0,5
  • Nähert sich asymptotisch den Werten 0 und 1 an, überschreitet diese aber nicht
23
Q

Logit-Koeffizient (Steigungsparameter Betta)

A
  • Gibt die logarithmierte Chance an, dass ein Ereignis eintritt
  • Wertebereich lieht zwischen -unendlich und +unendlich
24
Q

Effektkoeffizienten (Exp(B)) oder Odds-Ratios

A
  • Chancenverhältnis, welches die vorhergesagte Veränderung in der abhängigen Variable angibt, wenn sich die unabhängige Variable um eine Einheit ändert
  • Wertebereich zwischen 0 und +unendlich
  • Exp(B)-Koeffizient < 1: Geringere Chance
  • Exp(B)-Koeffizient > 1: Höhere Chance
25
Q

p-Werte

A
  • Informiert ob ein in Stichprobe gefundener Zusammenhang auf Grundgesamtheit übertragen werden kann
  • Gibt die Wahrscheinlichkeit für ein Ereignis unter der Bedingung an, dass die Nullhypothese zutrifft
  • p-Wert < 0,05: Nullhypothese wird vorläufig verworfen und Alternativhypothese angenommen
26
Q

Pseudo-R2

A
  • Aussage über die globale Güte des Modells
  • Cox, Snell, Nagelkerke
  • Höherer Wert deutet auf passenderes Modell hin -> Indiz für globale Güte des Modells
27
Q

Voraussetzung für Durchführung der binären logistischen Regression

A
  • Größere Fallzahl (mind. 50 Fälle)
  • Für jede Ausprägung der Variable mindestens 50 Fälle vorliegen
  • aV muss binär kodiert sein
  • uV aufweisen eines binären kategorialen Skalenniveaus