Klausurfragen Flashcards

1
Q

Wie lassen sich Variablen mit nicht-linearen Effekten in eine lineare Regression aufnehmen?

A

Durch Transformation der UV, bspw. statt Alter die quadrierten Abweichungen vom Durchschnittalter als UV.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist Heteroskedastizität und weshalb kann sie für die Regression problematisch sein?

A

Heteroskedastizität ist ein Verstoß gegen die Modellannahme der linearen Regression, die Homoskedastizität der Residuen (homogene Verteilung der Residuen)

  • Liegt vor, wenn die Residuen in einer Reihe von Werten der prognostizierten abhängigen Variablen nicht konstant sind, sondern systematisch streuen.
  • Probleme: Heteroskedastizität führt zu ineffizienter Schätzung, da es den Standardfehler des Regressionskoeffizienten verfälscht. Damit wird die Schätzung des Konfidenzintervalls und der Testverfahren ungenau und unzuverlässig.
  • Möglicher Grund: Residualwerte sind abhängig von einem oder mehreren Regressoren.

In anderen Worten, es bedeutet, dass die Varianz der Residuen in Abhängigkeit von den vorhergesagten Werten der abhängigen Variablen variiert, anstatt konstant zu bleiben, wie es in den Annahmen der klassischen linearen Regression erwartet wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Nennen Sie eine mögliche Strategie, Heteroskedastizität zu beheben. Ein Satz ist als Antwort ausreichend

A

Transformation der AV oder UV; Ausschließen der Ausreißerwerte

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Bei Regressionsanalyse und Varianzanalyse handelt es sich um verwandte Verfahren. Sie unterscheiden sich allerdings unter anderem in der zugrundeliegenden Streuungszerlegung. Erläutern Sie in Worten, in welche Teile die Gesamtvarianz in den beiden Verfahren jeweils zerlegt wird

A

Varianzanalyse: Zerlegung der Gesamtvarianz der AV in den Teil, der durch die Gruppenzugehörigkeit erklärt werden kann, und den Teil, der nicht durch die Gruppenzugehörigkeit erklärt werden kann;

Regressionsanalyse differenziert in den Anteil, der durch eine Linearkombination UVs erklärt, wird und in den Teil, der nicht erklärt wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nennen Sie zwei Unterschiede zwischen Faktoren- und Hauptkomponentenanalyse

A

Bei PCA: Gesamte Varianz der manifesten Variablen kann durch PCA erklärt werden
Bei FA nicht. Dort gibt es einen Anteil nicht erklärter Varianz.

Bei PCA: Manifeste Variablen erklären die Komponenten,
Bei FA: Latente Faktoren erklären manifeste Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

PCA/FA: Begründung für Bestimmung der Komponentenanzahl durch Screeplot

A

Laut Screeplot, sollte man x Komponenten betrachten, weil an der Stelle die Varianzaufklärung am stärksten abfällt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nennen Sie die wichtigsten Schritte bei der Durchführung einer Faktoren- bzw. Hauptkomponentenanalyse und erläutern Sie jeden Schritt

A
  1. Prüfung auf Eignung der Daten
    * Hohe Korrelation unter den Variablen (Korrelationsmatrix),
    * KMO-Kriterium über 0,5
    * Bartlett’s Test signifikant
  2. Bestimmung der Komponenten-/Faktorenanzahl
    * Screeplots (stärkster Varianzabfall),
    * Eigenwertkriterium (größer 1)
    * inhaltliche Interpretation
  3. Inhaltliche Interpretation der unrotierten Lösung,
    * Faktorladungen (hohe Ladungen ab 0,5 im Betrag, die einen signifikanten Er-klärungsbeitrag für die Komponente leisten)
    * Kommunalitäten erklären Varianzanteil der Variable, der durch die Komponente erklärt wird.
  4. Ggf. rotierte Lösung betrachten zur besseren inhaltlichen Interpretierbarkeit.
  5. Ggf. Extraktion der Faktorlösung für weitere Analysen (Latente Variablen werden zur weiteren Berechnung verwendet)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

In die Korrespondenzanalyse können auch sogenannte „passive“ Variablen aufgenommen werden. Erläutern Sie kurz, was das bedeutet und nennen Sie zwei Argumente, weshalb dies von Vorteil sein kann

A

Passive Variablen werden nachträglich in den dimensionalen Raum aufgenommen und beeinflussen diesen nicht. Man kann so Variablen aufnehmen, die nicht direkt Gegenstand der Untersuchung sind, aber deren Zusammenhang mit den aktiven Variablen interessant sein könnte. Außerdem können so Variablen(ausprägungen) illustriert werden, die bspw. aufgrund zu geringer Zellenbesetzung den Raum verzerrt hätten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Für eine Variable liegt der Anteil der 1. Dimension an der Trägheit des Punktes bei 0,709. Was bedeutet das? Und wie groß ist der Anteil der übrigen Dimensionen an der Trägheit des Punktes?

A

Das bedeutet, dass die Variable durch die Dimension zu 70,9% gut dargestellt wird. Der restliche Anteil beträgt 29,1%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Scheinkorrelation
+ Beispiel

A
  • Die Scheinkorrelation, ist ein statistisches Phänomen, bei dem scheinbar signifikante Korrelationen zwischen zwei Variablen auftreten, obwohl in Wirklichkeit keine kausale Beziehung zwischen ihnen besteht. Diese vermeintlichen Korrelationen können auf verschiedene Arten zustande kommen und sind oft das Ergebnis von Störfaktoren oder Zufälligkeiten. Die Scheinkorrelation ist ein gutes Beispiel für das Prinzip “Korrelation bedeutet nicht Kausalität”.
  • Beispiel: Korrelation zwischen der Geburtenrate und der Zahl der Storchenpaare in verschiedenen europäischen Regionen. Obwohl es eine Korrelation zwischen der Zahl der Geburten und der Zahl der Storchenpaare gibt (d. h. mehr Geburten und gleichzeitig mehr Storchenpaare), gibt es keinen kausalen Zusammenhang (die falsche Schlussfolgerung, dass die Kinder vom Storch gebracht werden). Die Korrelation zwischen Geburten und Storchpaaren ergibt sich daraus, dass in ländlichen Regionen mehr Störche nisten und tendenziell auch mehr Kinder pro Paar geboren werden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

PCA, catPCA und Korrespondenzanalyse
* Gemeinsamkeiten

A
  • Gemeinsamkeiten:
    Die PCA, catPCA und CA sind alle statistische Methoden, die zur
  • Dimensionsreduktion (Daten möglichst weitreichend in weniger Dimensionen wiedergeben) und
  • Erkennung von Mustern in Daten
  • Lineare Transformation: PCA, CatPCA und CA basieren auf linearen Transformationen der ursprünglichen Variablen, um neue Variablen (Hauptkomponenten oder Dimensionen) zu erstellen.
  • Varianzerklärung: Alle drei Methoden bieten Informationen darüber, wie viel Variation in den Daten von den extrahierten Hauptkomponenten oder Dimensionen erklärt wird.
  • Visualisierung: Können zur Visualisierung von Daten verwendet werden, um Beziehungen zwischen Kategorien oder Gruppen aufzudecken und in Diagrammen oder Grafiken darzustellen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nenne 3 Milieus

A
  • Konservativ-Gehobenes Milieu: Der Oberschicht/Mittleren Oberschicht bis Mittleren Mittelschicht zugehörig, zwischen Tradition und Modernisierung mit Werten der Pflichterfüllung und Ordnung (Tradition) sowie Individualisierung, Selbstverwirklichung und Genuss (Modernisierung)
  • Prekäres Milieu: Der Unteren Mittelschicht/ Unterschicht zugehörig, Grundorientierung: Modernisierung (also: Individualisierung, Selbstverwirklichung und Genuss)
  • Milieu der Performer: Oberschicht/Mittleren Oberschicht bis Mittleren Mittelschicht zugehörig. Grundorientierung: Überwiegend Neuorientierung (Multi-Optionalität, neue Synthesen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

In der multiplen Regressionsanalyse wird meistens der adjustierte multiple Korrelations-koeffizient angegeben. Bitte erläutern Sie in Worten wie dieser Koeffizient adjustiert wird und unter welchen zwei Bedingungen diese Adjustierung zu z.T. deutlich anderen Werten führt?

A

R² beschreibt die erklärte Varianz.
* Von R² wird substrahiert: [das Produkt aus der nicht erklärten Varianz (1-R²) und der Differenz aus der Anzahl der UVs und den Freiheitsgraden des Modells].
(also nicht-erklärte Varianz * (Anzahl der UVs geteilt dfs)

Besonders starke Veränderungen durch Adjustierung bei:
* Sehr vielen UVs
* und/oder besonders wenige Fälle
…da bei diesen Bedingungen die Differenz aus p und den Freiheitsgraden relativ groß wird und R² deutlich verringert wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kovarianz in grafischer Lösung

A

Die Kovarianz zeigt den Zusammenhang zwischen zwei metrischen Variablen. Eingezeichnet wurde einmal die Differenz zwischen 𝑥𝑖 − (xi) ̅ mit einer waagerechten roten Linie und die Differenz zwischen 𝑦𝑖 − (yi) ̅ mit einer senkrechten roten Linie. Die Kovarianz ist die Fläche innerhalb des entstandenen Quadrates

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist der Vorteil der Mittelwertzentrierung? Welche(r) Wert(e) ändern sich und welche(r) nicht?

A

Durch die Mittelwertzentrierung ändert sich die Konstante des Modells, sie wird verschoben und kann nun als der y-Wert interpretiert werden, der für einen durchschnittlichen Fall x prog-nostiziert wird. (Eventuell lässt sich das auch als Mittelwert der y-Variable beschreiben, aber nur, wenn ALLE unabhängigen Variablen mittelwertzentriert wurden.)
Unverändert bleiben die Koeffizienten, die erklärte Varianz, die Kovarianz und die Ein-heit/Skalierung der Variablen

Beachte: Konstante (y-Achsenabschnitt) /= Nullpunkt (Schnittpunkt der Regressionsgerade mit de x-Achse)
Beachte: In bestimmten Fällen (bspw. wenn Alter und Alter² als Variablen verwendet werden) lassen sich hierdurch Multikollinearitätsprobleme lösen, das ist aber eher selten!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Erläutern Sie bitte mit Hilfe des Venn-Diagramms warum die erklärte Varianz der multiplen Regression nicht die Summe der beiden einzelnen bivariaten Regressionen ergibt

A

Das Venn-Diagramm visualisiert die Überlappung der Effekte der drei Variablen x1, x2 und AV.

Entsprechend der Modellannahme haben x1 und x2 jeweils eine Effekt-überschneidung, sprich eine Korrelation mit der AV.
* Sie entsprechen im Fall der einfachen Regressionen z.B. 21% und 34% Varianzaufklärung (R²).
* In der multiplen Regression besteht al-lerdings die Möglichkeit, dass sich die Effekte der beiden UVs auf die AV ebenfalls überschneiden.
* Diese geteilte Varianzaufklärung entspricht hier der Differenz aus aufaddiertem R² von x1 und x2 (bivariat) und dem R² beider (multivariat)
* ( 21%+34%=)55%
* 55% - 47%= 8%.

17
Q

Was unterscheidet die logistische Regression von der einfachen Regression? Bitte geben Sie ein sozialwissenschaftliches Beispiel für die Anwendung der logistischen Regression: Was ist Ihre abhängige Variable und wie ist diese skaliert, welches sind Ihre unabhängigen Variablen, bitte geben Sie mindestens drei an, die inhaltlich sinnvoll sind

A

In der logistischen Regression ist die abhängige Variable nominal skaliert, meist dichotom, seltener auch trichotom, anstatt metrisch, wie in der einfachen Regression. Die y-Werte werden dementsprechend nicht als Prognosewerte, sondern als Wahrscheinlichkeiten für das Eintreten eines bestimmten Ereignisses interpretiert. Statt eines linearen Verlaufs ist die Kurve der logis-tischen Regression s-förmig.
Beispiel:
- Abhängige Variable: Fernseher haben (ja/nein, dichotom)
- Unabhängige Variablen: Alter in Jahren, Einkommen in Euro, Nutzungszeit anderer digitaler Medien in Minuten pro Tag

18
Q

Wann wird die logistische Regression verwendet?

A

Die abhängige Variable ist dichotom (bivariat) oder trichotom (multinominales Modell) skaliert.

19
Q

c) Sie wollen zusätzlich die Variable „Familienstand“ mit den vier Ausprägungen „ledig“, „verheiratet/zusammenlebend“, „verwitwet“ und „geschieden“ in die Gleichung aufnehmen. Was müssen Sie machen?

A

Da die Variable nominalskaliert ist, benötigen wir Dummy-Variablen, um sie ins Modell aufnehmen zu können. Bei vier Ausprägungen braucht es drei Dummy-Variablen, die jeweils für eine der Ausprägungen den Wert 1 annehmen und für alle anderen den Wert 0. Die vierte Aus-prägung stellt die Referenzkategorie dar (hier bspw. „ledig“) und wird dann abgebildet, wenn alle Dummy-Variablen den Wert 0 annehmen und dementsprechend wegfallen.

20
Q

In der Statistik wird zwischen Effektstärke und Signifikanz unterschieden. Bitte erläutern Sie die beiden Begriffe

A

Signifikanz: Beschreibt, ob ein Zusammenhang überzufällig zustande gekommen ist, also ob der beobachtete Zusammenhang in unserer Stichprobe auf die Grundgesamtheit übertragen werden kann. Das lässt sich jedoch immer nur mit einer bestimmten Wahrscheinlichkeit sagen, deshalb sind die verschiedenen Signifikanzniveaus über die Minimierung der Irrtumswahr-scheinlichkeit definiert.

Effektstärke: Beschreibt, wie stark der beobachtete Zusammenhang ist, also wie sehr die AV von der UV beeinflusst wird. Sie ist unabhängig von der Signifikanz und kann entsprechend auch hoch sein, ohne das statistische Signifikanz vorliegt, sodass hier Vorsicht geboten ist.

21
Q

Lineare Regression
* Bedeutung, wenn Standardfehler kleiner als b?

A

Ist der Standardfehler deutlich geringer als der b-Wert, spricht das für eine hohe Schätzgenauigkeit und damit für gute Signifikanzwerte

22
Q

WIe interpretiert man ein Beta-Wert von 0,170?

A

Mit Zunahme der jeweiligen X-Variable um eine Standardabweichung steigt die AV um 0,170 Standardabweichungen.

23
Q

Erläutern Sie den T-Wert (Lin Reg)

A

Der t-Wert ist ein statistisches Maß, mit dem überprüft wird, ob ein beobachteter Effekt in einer Stichprobe auf dem Zufall beruht (Prüfen der Nullhypothese, kein ZH in der GG).

Wenn der t-Wert einen höheren Betrag aufweist, bedeutet dies, dass der Effekt wahrscheinlich nicht zufällig ist und statistisch signifikant sein könnte.

Der empirische t-Wert sollte >± 1,96 sein, damit H0 abgelehnt wird.

Je höher der Betrag, desto eher ist der Effekt in der GG signifikant.
–> Nullhypothese wird verworfen

Der T-Test prüft, …
… die Nullhypothese, dass die unbekannten, wahren Regressionskoeffizienten β0 bzw. a und β 1 sich nicht signifikant von Null unterscheiden.

24
Q

Bedeutung Ober- und Untergrenze im Output (Regression)

A

Untergrenze- und Obergrenze: Innerhalb des Konfidenzintervalls liegt mit einer Wahrscheinlichkeit von 95% der wahre Wert für b_j in der Grundgesamtheit. Hier liegt die Untergrenze dieses Intervalls bei 0,091 und die Obergrenze bei 0,238.

25
Q

PCA, catPCA und Korrespondenzanalyse
* Unterschiede

A

Datenart:
* CatPCA + CA für kategoriale Daten
* PCA für metrische Daten

Ziel:
* PCA und catPCA: Strukturen in großen Variablensets entdecken, Informationen verdichten/ Komplexität reduzieren
* CA: Strukturen in kategorial skalierten Variablen entdecken, komplexe Zusammenhänge in einem gemeinsamen Raum visualisieren

26
Q

Was ist der Unterschied zwischen CA und MCA?

A
  • Nur Zusammenhänge zwischen den Variablen vs. auch Zusammenhänge innerhalb der Variablen
  • Entsprechend unterschiedliche Eingabematrix