Klausurfragen Flashcards
Wie lassen sich Variablen mit nicht-linearen Effekten in eine lineare Regression aufnehmen?
Durch Transformation der UV, bspw. statt Alter die quadrierten Abweichungen vom Durchschnittalter als UV.
Was ist Heteroskedastizität und weshalb kann sie für die Regression problematisch sein?
Heteroskedastizität ist ein Verstoß gegen die Modellannahme der linearen Regression, die Homoskedastizität der Residuen (homogene Verteilung der Residuen)
- Liegt vor, wenn die Residuen in einer Reihe von Werten der prognostizierten abhängigen Variablen nicht konstant sind, sondern systematisch streuen.
- Probleme: Heteroskedastizität führt zu ineffizienter Schätzung, da es den Standardfehler des Regressionskoeffizienten verfälscht. Damit wird die Schätzung des Konfidenzintervalls und der Testverfahren ungenau und unzuverlässig.
- Möglicher Grund: Residualwerte sind abhängig von einem oder mehreren Regressoren.
In anderen Worten, es bedeutet, dass die Varianz der Residuen in Abhängigkeit von den vorhergesagten Werten der abhängigen Variablen variiert, anstatt konstant zu bleiben, wie es in den Annahmen der klassischen linearen Regression erwartet wird.
Nennen Sie eine mögliche Strategie, Heteroskedastizität zu beheben. Ein Satz ist als Antwort ausreichend
Transformation der AV oder UV; Ausschließen der Ausreißerwerte
Bei Regressionsanalyse und Varianzanalyse handelt es sich um verwandte Verfahren. Sie unterscheiden sich allerdings unter anderem in der zugrundeliegenden Streuungszerlegung. Erläutern Sie in Worten, in welche Teile die Gesamtvarianz in den beiden Verfahren jeweils zerlegt wird
Varianzanalyse: Zerlegung der Gesamtvarianz der AV in den Teil, der durch die Gruppenzugehörigkeit erklärt werden kann, und den Teil, der nicht durch die Gruppenzugehörigkeit erklärt werden kann;
Regressionsanalyse differenziert in den Anteil, der durch eine Linearkombination UVs erklärt, wird und in den Teil, der nicht erklärt wird.
Nennen Sie zwei Unterschiede zwischen Faktoren- und Hauptkomponentenanalyse
Bei PCA: Gesamte Varianz der manifesten Variablen kann durch PCA erklärt werden
Bei FA nicht. Dort gibt es einen Anteil nicht erklärter Varianz.
Bei PCA: Manifeste Variablen erklären die Komponenten,
Bei FA: Latente Faktoren erklären manifeste Variablen.
PCA/FA: Begründung für Bestimmung der Komponentenanzahl durch Screeplot
Laut Screeplot, sollte man x Komponenten betrachten, weil an der Stelle die Varianzaufklärung am stärksten abfällt.
Nennen Sie die wichtigsten Schritte bei der Durchführung einer Faktoren- bzw. Hauptkomponentenanalyse und erläutern Sie jeden Schritt
- Prüfung auf Eignung der Daten
* Hohe Korrelation unter den Variablen (Korrelationsmatrix),
* KMO-Kriterium über 0,5
* Bartlett’s Test signifikant - Bestimmung der Komponenten-/Faktorenanzahl
* Screeplots (stärkster Varianzabfall),
* Eigenwertkriterium (größer 1)
* inhaltliche Interpretation - Inhaltliche Interpretation der unrotierten Lösung,
* Faktorladungen (hohe Ladungen ab 0,5 im Betrag, die einen signifikanten Er-klärungsbeitrag für die Komponente leisten)
* Kommunalitäten erklären Varianzanteil der Variable, der durch die Komponente erklärt wird. - Ggf. rotierte Lösung betrachten zur besseren inhaltlichen Interpretierbarkeit.
- Ggf. Extraktion der Faktorlösung für weitere Analysen (Latente Variablen werden zur weiteren Berechnung verwendet)
In die Korrespondenzanalyse können auch sogenannte „passive“ Variablen aufgenommen werden. Erläutern Sie kurz, was das bedeutet und nennen Sie zwei Argumente, weshalb dies von Vorteil sein kann
Passive Variablen werden nachträglich in den dimensionalen Raum aufgenommen und beeinflussen diesen nicht. Man kann so Variablen aufnehmen, die nicht direkt Gegenstand der Untersuchung sind, aber deren Zusammenhang mit den aktiven Variablen interessant sein könnte. Außerdem können so Variablen(ausprägungen) illustriert werden, die bspw. aufgrund zu geringer Zellenbesetzung den Raum verzerrt hätten.
Für eine Variable liegt der Anteil der 1. Dimension an der Trägheit des Punktes bei 0,709. Was bedeutet das? Und wie groß ist der Anteil der übrigen Dimensionen an der Trägheit des Punktes?
Das bedeutet, dass die Variable durch die Dimension zu 70,9% gut dargestellt wird. Der restliche Anteil beträgt 29,1%
Scheinkorrelation
+ Beispiel
- Die Scheinkorrelation, ist ein statistisches Phänomen, bei dem scheinbar signifikante Korrelationen zwischen zwei Variablen auftreten, obwohl in Wirklichkeit keine kausale Beziehung zwischen ihnen besteht. Diese vermeintlichen Korrelationen können auf verschiedene Arten zustande kommen und sind oft das Ergebnis von Störfaktoren oder Zufälligkeiten. Die Scheinkorrelation ist ein gutes Beispiel für das Prinzip “Korrelation bedeutet nicht Kausalität”.
- Beispiel: Korrelation zwischen der Geburtenrate und der Zahl der Storchenpaare in verschiedenen europäischen Regionen. Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt (d. h. mehr Geburten und gleichzeitig mehr Storchenpaare), gibt es keinen kausalen Zusammenhang (die falsche Schlussfolgerung, dass die Kinder vom Storch gebracht werden). Die Korrelation zwischen Geburten und Storchpaaren ergibt sich daraus, dass in ländlichen Regionen mehr Störche nisten und tendenziell auch mehr Kinder pro Paar geboren werden.
PCA, catPCA und Korrespondenzanalyse
* Gemeinsamkeiten
- Gemeinsamkeiten:
Die PCA, catPCA und CA sind alle statistische Methoden, die zur - Dimensionsreduktion (Daten möglichst weitreichend in weniger Dimensionen wiedergeben) und
- Erkennung von Mustern in Daten
- Lineare Transformation: PCA, CatPCA und CA basieren auf linearen Transformationen der ursprünglichen Variablen, um neue Variablen (Hauptkomponenten oder Dimensionen) zu erstellen.
- Varianzerklärung: Alle drei Methoden bieten Informationen darüber, wie viel Variation in den Daten von den extrahierten Hauptkomponenten oder Dimensionen erklärt wird.
- Visualisierung: Können zur Visualisierung von Daten verwendet werden, um Beziehungen zwischen Kategorien oder Gruppen aufzudecken und in Diagrammen oder Grafiken darzustellen.
Nenne 3 Milieus
- Konservativ-Gehobenes Milieu: Der Oberschicht/Mittleren Oberschicht bis Mittleren Mittelschicht zugehörig, zwischen Tradition und Modernisierung mit Werten der Pflichterfüllung und Ordnung (Tradition) sowie Individualisierung, Selbstverwirklichung und Genuss (Modernisierung)
- Prekäres Milieu: Der Unteren Mittelschicht/ Unterschicht zugehörig, Grundorientierung: Modernisierung (also: Individualisierung, Selbstverwirklichung und Genuss)
- Milieu der Performer: Oberschicht/Mittleren Oberschicht bis Mittleren Mittelschicht zugehörig. Grundorientierung: Überwiegend Neuorientierung (Multi-Optionalität, neue Synthesen
In der multiplen Regressionsanalyse wird meistens der adjustierte multiple Korrelations-koeffizient angegeben. Bitte erläutern Sie in Worten wie dieser Koeffizient adjustiert wird und unter welchen zwei Bedingungen diese Adjustierung zu z.T. deutlich anderen Werten führt?
R² beschreibt die erklärte Varianz.
* Von R² wird substrahiert: [das Produkt aus der nicht erklärten Varianz (1-R²) und der Differenz aus der Anzahl der UVs und den Freiheitsgraden des Modells].
(also nicht-erklärte Varianz * (Anzahl der UVs geteilt dfs)
Besonders starke Veränderungen durch Adjustierung bei:
* Sehr vielen UVs
* und/oder besonders wenige Fälle
…da bei diesen Bedingungen die Differenz aus p und den Freiheitsgraden relativ groß wird und R² deutlich verringert wird.
Kovarianz in grafischer Lösung
Die Kovarianz zeigt den Zusammenhang zwischen zwei metrischen Variablen. Eingezeichnet wurde einmal die Differenz zwischen 𝑥𝑖 − (xi) ̅ mit einer waagerechten roten Linie und die Differenz zwischen 𝑦𝑖 − (yi) ̅ mit einer senkrechten roten Linie. Die Kovarianz ist die Fläche innerhalb des entstandenen Quadrates
Was ist der Vorteil der Mittelwertzentrierung? Welche(r) Wert(e) ändern sich und welche(r) nicht?
Durch die Mittelwertzentrierung ändert sich die Konstante des Modells, sie wird verschoben und kann nun als der y-Wert interpretiert werden, der für einen durchschnittlichen Fall x prog-nostiziert wird. (Eventuell lässt sich das auch als Mittelwert der y-Variable beschreiben, aber nur, wenn ALLE unabhängigen Variablen mittelwertzentriert wurden.)
Unverändert bleiben die Koeffizienten, die erklärte Varianz, die Kovarianz und die Ein-heit/Skalierung der Variablen
Beachte: Konstante (y-Achsenabschnitt) /= Nullpunkt (Schnittpunkt der Regressionsgerade mit de x-Achse)
Beachte: In bestimmten Fällen (bspw. wenn Alter und Alter² als Variablen verwendet werden) lassen sich hierdurch Multikollinearitätsprobleme lösen, das ist aber eher selten!