Klausur Flashcards

1
Q

Welches Problem tritt auf, wenn mehrere Tests (in Bezug auf die gleiche Nullhypothese) im gleichen Datensatz durchgeführt werden?

A

α-Fehler-Kumulierung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was passiert, wenn bei einer ANOVA mit Messwiederholung die Annahme der
Sphärizität verletzt ist?

A

Der Test wird zu liberal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie heißt die Interaktionsart, bei der beide Haupteffekte global interpretiert werden können?

A

Ordinale Interaktion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche der folgenden ist KEINE Voraussetzungen für den X² Test?

(a) Die beobachtete Häufigkeit in jeder Zelle muss mindestens 1 sein
(b) In mind. 80% der Zellen muss die erwartete Häufigkeit mindestens 5 sein
(c) Jede Untersuchungseinheit (i.d.R. Person) muss eindeutig einer Kategorie zugeordnet
sein
(d) Die erwartete Häufigkeit in jeder Zelle muss mindestens 1 sein

A

a)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

In einem Forschungsprojekt wird untersucht, ob Studierende nach Besuch der
Statistik-II-Vorlesung mehr Lust auf Kaffee haben als vor der Vorlesung. Lust auf Kaffee
ist dabei in einem Kurs je vor und direkt nach der Vorlesung dichotom erhoben worden
(also mögliche Anworten: ja/nein). Welcher Test ist zur Beantwortung der Frage am besten
geeignet?

A

McNemar-Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Es soll untersucht werden, wie sich die Bewertung der therapeutischen Beziehung über den Verlauf einer Therapie verändert. Dazu wurden die Patienten vor, während
und am Ende der Therapie jeweils auf einer metrischen Skala nach der Qualität der Beziehung befragt. Die Patienten nahmen entweder an einer kognitiven Verhaltenstherapie
oder an einer Psychotherapie teil. Welcher Test ist in dieser Datensituation zur Auswertung
geeignet und am informativsten?

A

Zweifaktorielle Varianzanalyse mit Messwiederholung auf einem Faktor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

In einer Folgestudie soll erneut untersucht werden, wie sich die Bewertung der
therapeutischen Beziehung über den Verlauf einer Therapie verändert. Untersucht wurde
nur eine Therapieform, nämlich die Psychotherapie. Allerdings wurden diesmal nicht nur die
Patient:innen, sondern auch ihre Therapeut:innen vor, während und am Ende der Therapie
jeweils auf einer metrischen Skala nach der Qualität der Beziehung befragt. Welcher Test
ist in dieser Datensituation zur Auswertung geeignet und am informativsten?

A

Zweifaktorielle Varianzanalyse mit Messwiederholung auf beiden Faktoren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

In einer multiplen Regressionsanalyse wurde der globale F-Test signifikant (empirischer F-Wert=6.9) auf einem Signifikanzniveau von 5%. Der berichtete p-Wert ist 0.00001.
Welche Aussage über die Effektstärke (R²) ist korrekt?

A

Die Effektstärke kann nur durch zusätzliche Informationen ermittelt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

In einer einfaktoriellen ANOVA mit Messwiederholung und drei Messzeitpunkten
ergibt sich ein signifikantes Ergebnis (F = 3.21; df1 = 2; df2 = 554; p = 0.041). Welche
der folgenden Antworten ist korrekt? Hier kann „nicht korrekt“ auch bedeuten, dass diese
Aussage aus den gegebenen Informationen nicht geschlossen werden kann.

A

An der Studie haben 278 Personen teilgenommen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

In einer Studie wurde untersucht, wie hoch die körperlich messbare Erregung
von Kinobesuchern nach einem Kinofilm ist. Dazu wurde der Hautleitwiderstand auf einer
metrischen Skala erhoben. Die Forschenden interessierten sich dafür, ob es Unterschiede in der Erregung gab, abhängig davon, ob der Schauspieler Chris Hemsworth mitspielte
(Stufen: Ja/Nein) und abhängig von der Geschlechtsidentität der Versuchspersonen (Stufen: männlich/weiblich/divers). Jede Person sah genau einen Film. Untersucht wurde dies
mit einer zweifaktoriellen Varianzanalyse. Welche Aussage ist falsch?

(a) In dieser Form der Varianzanalyse untersuchen wir üblicherweise drei Nullhypothesen
(b) Es gibt 3 Faktorstufen des Faktors „Geschlecht“
(c) Es ist möglich, in der gewählten Form der ANOVA die Interaktion der beiden Faktoren
zu testen
(d) Einer der beiden Faktoren ist messwiederholt

A

d)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Welcher der folgenden Ansätze ist keine Form der Teststärke?

A

Kontrastanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche der folgenden Aussagen ist wahr

A

Der p-Wert ist die Wahrscheinlichkeit die Daten (oder extremere) zu beobachten, wenn
die H0 wahr ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

In einer Studie wurde erhoben, in welchem Teil Berlins Studierende wohnen (3
Antwortmöglichkeiten: Innerhalb des S-Bahn Rings, Außerhalb des S-Bahn Rings, Außerhalb
Berlins) und ob sie öffentliche Verkehrsmittel nutzen, um zur Uni zu fahren
(Antwortmöglichkeiten Ja/Nein) Um die Frage zu überprüfen, ob die Nutzung der
Öffentlichen mit dem Wohnen zusammenhängt, ist welcher Text geeignet?

A

Chi-Quadrat-Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche der folgenden Verfahren gehört NICHT zu den theorieprüfenden Verfahren?

A

Hauptkomponentenanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie verhalten sich der globale F-Test in der multiplen Regression und der Modellvergleich
im ALM?

A

Der globale F-Test ist lediglich ein Sonderfalls des Modellvergleichs im ALM

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Im folgenden finden Sie Aussagen zur linearen Regression. Welche Aussage ist falsch? (3p)
A) Die Regressionskonstante kann den Wert 0 annehmen
B) Die Regressionskonstante kann negative Werte annehmen
C) Das (geschätzte) Regressionsgewicht einer einfachen linearen Regression von zwei
Variablen ist eine Funktion der bivariaten Korrelation der beiden Variablen
D) Die Regressionskonstante ist der vorhergesagte Wert des Modells, wenn alle
Prädiktoren den Wert 1 annehmen

A

D) Die Regressionskonstante ist der vorhergesagte Wert des Modells, wenn alle
Prädiktoren den Wert 1 annehmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Auf welcher Größe basieren die gängigen Tests für Multikollinearität (Tolerance und
Variance Inflation Faktor) für einen ausgewählten Prädiktor X?

A

Auf dem R² einer Regression des Prädiktors X auf alle Prädiktoren außer X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Welche Art Fehler beschränkt das Alpha-Niveau

A

Die Wahrscheinlichkeit die Nullhypothese abzulehnen, wenn Sie wahr ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Welches der folgenden Kriterien ist ein Kriterium zur Auswahl der Anzahl der
Hauptkomponenten in der Hauptkomponentenanalyse

A

Parallelanalyse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Welche Frage beantwortet der Modellvergleich (F-Test) zweier Regressionsmodelle
inhaltlich?

A

Erklärt das uneingeschränkte Modell mehr Varianz als das eingeschränkte Modell?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

In welche Quadratsummen zerlegt man die totale Quadratsumme in der einfaktoriellen
Varianzanalyse?

A

Quadratsumme zwischen Gruppen und Quadratsumme innerhalb der Gruppe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Nennen Sie die vier Größen, die man im Rahmen einer Teststärkeanalyse zueinander in
Beziehung setzt.

A

Signifikanzniveau
Stichprobengröße
Effektstärke
Teststärke

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Die statistische Teststärke in einer einfaktoriellen Varianzanalyse (für α = 5%, 6 Personen
pro Gruppe und einem angenommenen mittelgroßen Effekt) beträgt 50%. Nennen Sie eine
konkrete Maßnahme um die Teststärke zu erhöhen

A

Erhöhung der Stichprobengröße

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Beschreiben Sie ein Beispiel für eine Forschungsfrage, die man mit einem McNemar-Test
untersuchen würde. Beschreiben Sie dabei, welche Merkmale Sie dazu erheben würden und wie
Sie diese messen (insbesondere auf welchem Skalenniveau)

A

-Dichotome, kategoriale Variablen
-Forschungsfrage:Gibt es einen Unterschied zwischen Therapieinterventionen?
-Messen: Fragebogen zu mehreren Messzeitpunkten bei einer Person (Messwiederholung)
(vor der Intervention und nach der Intervention)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Welchen Vorteil hat das ALM gegenüber der multiplen linearen Regression?
Nur das ALM erlaubt die Schätzung einer Regressionskonstante (sogar wenn keine Prädiktoren im Modell sind)
26
Die Unterscheidung a priori/post-hoc Tests in der Varianzanalyse bezieht sich auf die Frage, ob
die zu testenden Mittelwertsunterschiede schon vor der Varianzanalyse geplant waren oder nicht
27
Wie heißt die Interaktionsart in der Varianzanalyse, bei der beide Haupteffekte nicht global interpretiert werden können?
Disordinale Interaktion
28
Wenn bei einer ANOVA mit Messwiederholung die Annahme der Sphärizität verletzt ist, ist der Test zu liberal. Was bedeutet das?
Die Wahrscheinlichkeit eines Typ-I-Fehlers ist höher als das festgelegte alpha.
29
Auf welcher Größe basieren die gängigen Tests für Multikollinearität (Tolerance and Variance Inflation Faktor) für einen ausgewählten Prädiktor X?
Auf dem R² einer Regression des Prädiktors X auf alle Prädiktoren außer X
30
Der p-Wert ist die Wahrscheinlichkeit, dass eine Test-Statistik
mindestens den in der Stichprobe berechneten Wert (sprich diesen Wert oder einen extremeren Wert) annimmt, unter der Annahme, dass die Nullhypothese wahr ist
31
Welches der folgenden Maße ist NICHT geeignet, um die Güte eine multiplen Regressionsmodells anzugeben? a) Der multiple Determinationskoeffizient b) Die Kriteriumsvarianz c) Die Residualvarianz d) Das Bestimmtheitsmaß
b) die Kriteriumsvarianz
32
Welche der folgenden ist keine Voraussetzung für inferenzstatistische Tests in der linearen Regression? a) Homoskedastizität b) Normalverteilung der Residuen c) Sphärizität d) Unabhängigkeit der Residuen
c) Sphärizität
33
Welche Aussage zum ist falsch? Die Chi-Quadrat Verteilung a) ist abhängig von den Freiheitsgeraden b) ist eine symmetrische Verteilung c) kann nur positive werte annehmen
b)
34
welche aussage ist falsch? a) die korrelation impliziert keine wirkungsrichtung zwischen zwei variablen b) diekorrelation ist symmetrisch c) korrelation und kovarianz haben immer dasselbe vorzeichen d) der korrelationskoeffizient liegt immer zwischen 0 und 1
d)
35
Lineare Regression: Welcher Logik folgt die Konstruktion der t-Prüfgröße für das Testen des Regressionsgewichts gegen 0?
Die Prüfgröße ist das Verhältnis des geschätzten Regressionsgewichts und des Standardfehlers des Regressionsgewichts.
36
"Die Produkt-Moment-Korrelation rxy der Variablen X und Y ist die standardisierte Kovarianz beider Variablen."
richtig
37
"Korrelation beschreibt den Zusammenhang zweier ordinaler Variablen."
Falsch Die Produkt-Moment-Korrelation (Pearson-Korrelation) ist für metrische Variablen gedacht. Für ordinale Variablen wird stattdessen die Spearman-Rangkorrelation oder Kendall-Tau-Korrelation verwendet.
38
"Ein Test auf Unkorreliertheit überprüft, ob die Korrelation ungleich 0 ist."
Richtig Falls der Test signifikant ist, kann man schließen, dass die Korrelation signifikant ungleich 0 ist.
39
"Lineare Regression bestimmt ungerichtete Effekte."
Falsch Die Regression ist gerichtet, da sie eine abhängige Variable (AV) durch unabhängige Variablen (UV) vorhersagt. Im Gegensatz dazu ist die Korrelation ungerichtet, weil sie nur den Zusammenhang beschreibt, ohne eine Kausalrichtung anzunehmen.
40
"Es geht um den Zusammenhang eines Prädiktors (AV) und eines Kriteriums (UV)."
Falsch In der Regression ist die Unabhängige Variable (UV) der Prädiktor und die Abhängige Variable (AV) das Kriterium. Die Aussage verwechselt die Bezeichnungen.
41
"Der Determinationskoeffizient ist dimensionslos und stellt die aufgeklärte Varianz dar."
Richtig Der Determinationskoeffizient R² gibt den Anteil der erklärten Varianz an und ist dimensionslos (weil es ein Verhältnis von Varianzen ist).
42
Wenn 2 oder mehr Prädiktoren in einem multiplen Regressionsmodell stark miteinander zusammenhängen bezeichnet man das als
Multikollinearität
43
Was test der F-Test im multiplen Regressionsmodell?
"Der F-Test testet, ob alle Prädiktoren gemeinsam einen signifikanten Beitrag zur Prädiktion leisten."
44
Welchen Vorteil hat das allgemeine lineare Modell gegenüber der multiplen linearen Regression?
Nur das ALM erlaubt die Schätzung einer Regressionskonstante (sogar wenn keine Prädiktoren im Modell sind)
45
Wenn wir eine Nullhypothese verwerfen, die wahr ist, dann nenn wir das
Fehler 1.Art
46
Wie heißt die Interaktionsart in der zweifaktoriellen Varianzanalyse bei der sich Linien in beiden Diagrammen schneiden und daher beide Haupteffekte nicht global interpretiert werden können?
Disordinale Interaktion
47
Welche Voraussetzung muss bei der zweifaktoriellen Varianzanalyse zusätzlich zu den Voraussetzungen der einfaktoriellen Varianzanalyse beachtet werden?
Keine. Die Voraussetzungen beider ANOVA Arten sind gleich
48
Schritte der Berechnung einer Hauptkomponentenanalyse
Reduktion, Extraktion, Rotation
49
Wann X²-Test?
Allgemein: Weicht eine beobachtete Häufigkeitsverteilung von einer erwarteten Häufigkeitsverteilung ab? Sind die Häufigkeiten in einer Stichprobe so verteilt, wie erwartet (Einstichproben--c²-Test)? Sind zwei kategoriale Variablen unabhängig?
50
Was sind die Voraussetzungen für die Durchführung des c²-Tests?
Jedes Untersuchungsobjekt (jede Person) muss eindeutig einer Kategorie zugeordnet werden. Die erwartete Häufigkeit jeder Zelle ist 1 oder größer. Für 80% der Zellen ist die erwartete Häufigkeit 5 oder größer.
51
Determinanten der Teststärke
Signifikanzniveau Stichprobengröße (Standardisierte) Effektstärke Teststärke (1-ß)
52
Arten der Teststärkenanalyse
A-priori Poweranalyse Post-hoc Poweranalyse Sensitivitätsanalyse Kriteriumsanalyse (unüblich)
53
p-Wert
Der p-Wert ist die Wahrscheinlichkeit, einen mindestens so großen Effekt zu beobachten, wenn man annimmt, dass die Nullhypothese wahr ist
54
Chi-Test Voraussetzungen
Jedes Untersuchungsobjekt muss eindeutig einer Kategorie zugeordnet werden können Die erwartete Häufigkeit in jeder Zelle muss min. 1 sein In min. 80% der Zellen muss die erwartetet Häufigkeit min. 5 sein
55
Kriterium
abhängige Variable -->Das Phänomen, dessen Ausprägung man vorhersagen möchte
56
Prädiktor
unabhängige Variable -->beeinflusst das vorherzusagende Phänomen
57
Regressionskonstante
Wert der Kriteriumsvariable, wenn der Prädiktor den Wert 0 annimmt
58
Regressionskoeffizien/gewicht
Erwartete Veränderung der Kriteriumsvariable wenn man den Prädiktor um eine Einheit erhöht
59
3 Maße für Modellpassungsgüte
Summe der Abweichungsquadrate Residualvarianz Standardschätzfehler je kleiner, desto besser die Passung des Modells zu den Daten Alle 3 abhängig von der Einheit der Kriteriumsvariable
60
Determinationskoeffizient/Bestimmtheitsmaß
Dimensionslos Normiert zwischen 0 und 1 Je höher, desto besser (mehr erklärte Varianz, welchen Anteil der individuellen Unterschiede können wir durch den Prädiktor erklären?) die bivariate quadrierte Korrelation ist gleich dem Determinationskoeffizienten in der einfachen linearen Regression
61
Modell mit deterministischem Regressor
Prädiktor wird messfehlerfrei gemessen (klassisches Modell der Regressionsanalyse) z.B. Experiment
62
Modell mit stochastischem Regressor
unabhängige Variable als Zufallsvariable
63
Voraussetzungen der Regressionsanalyse
Für Modell mit deterministischem: Homoskedastizität --> Die Varianz der y-Werte muss für jeden Wert von x gleich sein Bedingte Normalverteilung: Die Werte von y müssen für jeden Wert von x normalverteilt sein Unabhängigkeit der Fehler: Die Abweichungen der einzelnen Personen vom vorhergesagten Wert müssen unabhängig sein Für Modell mit stochastischem zusätzlich: Bivariate Normalverteilung von X und Y
64
Zsfassung: wann brauche ich was
Korrelation: (linearer) Zusammenhang zwischen 2 Merkmalen -->Forschungsfrage: Gehen eher größere Werte in einem Merkmal auch mit eher größeren/kleineren Werten in einem anderen Merkmal einher Partialkorrelation: (linearer) Zusammenhang zwischen 2 Merkmalen, berücksichtigt um den (linearen) Einfluss einer dritten Variable (z.B. für gemeinsame Ursache kontrollieren) Semipartialkorrelation: (linearer) Zusammenhang zwischen 2 Merkmalen, wobei der Einfluss einer Variable aus einer der beiden beteiligten Variablen herausgerechnet wurde-->Forschungsfrage: Wie groß ist der von Merkmal Y alleinig erklärte Anteil in X, also ohne den Teil, den auch Z schon erklärt hatte
65
Multikollinearität
Wenn mehrere Prädiktoren hoch miteinander korreliert sind führ zu vergrößerten Standardfehlern der Regressionsgewichte und somit zu unpräzisen Schätzungen liegt dann vor wenn ein Prädiktor xj sehr gut durch die anderen Prädiktoren im Rahmen eines linearen Modells vorhergesagt werden kann wird angezeigt durch einen hohen Wert des Determinationskoeffizienten Rj² in der Regression von xj auf alle anderen Prädiktoren einen niedrigen Wert der Toleranz des Prädiktors einen hohen Wert des Varianzinflationsfaktors Multikollinearität ist eine Eigenschaft der Prädiktoren Ab VIF>10 problematisch
66
Perfekte Multikollinearität
auch Singularität genannt liegt vor, wenn mind. ein Prädiktor xj exakt durch die anderen Prädiktoren im Rahmen eines linearen Modells vorhergesagt werden kann liegt vor: wenn ein prädiktor das vielfache eines anderen prädiktors ist ein prädiktor durch linearkombination der anderen erzeugt werden kann wenn mehr Prädiktoren als Beobachtungen vorliegen
67
Alpha-Fehler-Kumulierung
ist die Erhöhung der globalen Wahrscheinlichkeit, einen Alpha-Fehler durch multiples Testen
68
Gesamtvarianz=systematische Varianz + Fehlervarianz
systematische Varianz: Unterschiede, die auf den Faktor zurückzuführen sind. Unterschiede zwischen den Gruppen Fehlervarianz: Unterschiede, die durch unsystematische Einflüsse verursacht sind. Unterschiede innerhalb der Gruppen
69
Mehrere Kontraste zur gleichen Zeit
2 Kontraste sind orthogonal zueinander, wenn sie nicht redundant sind. Das Ergebnis ist unabhängig vom anderen. ->2 Kontraste sind orthogonal zueinander, wenn die Summe der Multiplikation der jeweiligen Kontrastkoeffizienten 0 ergibt Wenn 2 Kontraste nicht orthogonal zueinander sind, beinhalten sie redundante Informationen.
70
Sätze von Kontrasthypothesen
Einfacher Kontrast: Test auf Abweichung mehrerer Experimentalgruppen von einer Kontrollgruppe Abweichungskontrast: Test auf Abweichung einer Gruppe vom Durchschnitt der jeweils anderen 3 Gruppen Helmert-Kontraste: eine Art einen vollständigen Satz orthogonaler Kontraste zu erstellen. Dabei vergleicht der erste Kontrast die erste Gruppe mit allen anderen, der zweite ignoriert die erste Gruppe und vergleicht die zweite mit allen anderen usw.
71
Zweifaktorielle Varianzanalyse
es gibt 2 unabhängige Variablen (2 Faktoren) und eine abhängige metrische Variable. Die zwei Faktoren müssen jeweils mindestens zwei Faktorstufen haben.
72
Quadratsummenzerlegung zweifaktorielle ANOVA
QStot=QSa+QSb+QSab+QSinn
73
Interaktionen
Ordinale Interaktion: Keine Kreuzung --> können interpretiert werden Disordinale Interaktion: eine Kreuzung in beiden Grafiken --> können nicht interpretiert werden Hybride (semidisordinale) Interaktion: Nur in einer Grafik eine Kreuzung der Linien --> Nur ein Haupteffekt kann interpretiert werden
74
Sphärizitäts Annahme
besagt, dass die Varianzen aller mgölichen Differenzen der messwiederholten Variablen homogen sein sollen Ist Sphärizität nicht gegeben, wird der F-Test zu liberal, die Wahrscheinlichkeit eines alpha Fehlers wird größer als das festgesetzte Signifikanzniveau Mauchly-Test, wenn verletzt Korrekturen nötig
75
Das allgemeine lineare Modell
ist ein mathematisches Modell zur Beschreibung von Zusammenhängen von Prädiktor und Kriteriumsvariablen Die multiple lineare Regression ist eigentlich nur ein Sonderfall des ALMs Dabei ist die Kriteriumsvariable immer metrisch (mind. Intervall) Die Prädiktorvariablen dürfen verschiedene, gemischte Skalenniveaus haben -->Codierung
76
geschachtelt
Zwei lineare Regressionsmodelle heißen geschachtelt wenn das größere Modell sämtliche Prädiktoren des kleineren Modells und noch mindestens einen weiteren enthält und die AV dieselbe ist
77
Geschachtelte Modell
Zwei geschachtelte Modelle werden auch als uneingeschränktes und eingeschränktes Modell bezeichnet, da das kleinere Modell aus dem großen erstellt werden kann, indem man Regressionskoeffizienten auf Null fixiert
78
Parsimonitätsprinzip oder Ockhams Rasiermesser
Von mehreren hinreichenden möglichen Erklärungen für ein und denselben Sachverhalt ist die einfachste Theorie allen anderen vorzuziehen
79
Overfitting
Wenn man durch automatisierte Modellsuche das Modell an die vorhandenen Daten anpasst, läuft man Gefahr, das Rauschen mitzumodellieren. Das Modell sieht dann nützlich aus, generalisiert aber möglichwerweise nicht mehr auf neue Daten
80
Underfitting
kann auch problematisch sein, weil das bedeuten kann, dass man nicht alle verfügbaren informationen nutzt, um ein kriterium vorherzusagen
81
Regressionskonstante ALM
In einer Regressionsgleichung mit dummy-codierten Indikatorvariablen entspricht die Regressionskonstante b0 der durchschnittlichen Merkmalsausprägung in der Referenzgruppe Regressionsgewichte: In einer Regressionsgleichung mit dummy-codierten Indikatorvariablen entspricht das jeweilige Regressionsgewicht dem Unterschied in der Vorhersage zwischen der jeweiligen Gruppe und der Referenzgruppe
82
Hauptkomponentenanalyse
dient zur Datenreduktion. Das Ziel ist die Zusammenhänge zwischen vielen Variablen durch wenige Hauptkomponenten darzustellen. Ist ein hypothesengenerierendes Verfahren! 3 Schritte: Extraktion Reduktion Rotation
83
Uniqueness
Kommunalität beschreibt, wie viel varianz einer variable Zi durch die ersten k Hauptkomponenten gemeinsam aufgeklärt wird Uniqueness ist das Gegenstück zur Kommunalität =1-Kommunalität
84
Reduktion nach Scree-Test
alle Hauptkomponenten oberhalb des Knicks beibehalten
85
Reduktion nach Kaiser Guttmann Kriterium
Alle Hauptkomponent werden beibehalten, deren Eigenwert größer als 1 ist
86
Reduktion durch Parallelanalyse nach Horn
Bei der Parallelanalyse werden zfällige Daten mit der gleichen Stichprobengröße und Anzahl an Variablen erzeugt. Die Variablen sind in der Grundgesamtheit unkorreliert. Über die zufälligen Daten wird ebenfalls eine PCA gerechnet und der Eigenwertverlauf wird verglichen. Nur die Hauptkomponenten mit Eigenwerten, die höher sind als bei den zufälligen Daten werden beibehalten.
87
Rotation
erhöht interpretierbarkeit--> dabei sollen die Ladungen auf einzelnen Hauptkomponenten maximiert werden Es gibt 2 Arten: Orthogonale Reduktion: Die neuen Hauptkomponenten sind ebenfalls unkorreliert --> häufig verwendetes Verfahren: Varimaxrotation, bei der die Varianz der quadrierten Ladungen auf jeder Hauptkomponente maximiert werden soll Oblique Rotation: Die neuen Hauptkomponenten dürfen nach der Rotation korrelieren
88
Voraussetzungen der Hauptkomponentenanalyse
Die Zusammenhänge zwischen den Variablen sollten linear sein Es sollten nicht zu viele Ausreißer vorliegen Variablen sollten metrisches Skalenniveau haben (min. intervall)
89
Auf welcher Größe basieren die gängigen Tests für Moltikollinearität für einen ausgewählten Prädiktor X?
Auf dem R² einer Regression des Prädiktors X auf alle Prädiktoren außer X
90
Welche Frage beantwortet der Modellvergleich (F-Test) zweier Regressionsmodelle inhaltlich?
Erklärt das uneingeschränkte Modell mehr Varianz als das eingeschränkte?
91
✅ (d) Die Wahrscheinlichkeit, einen Unterschied von mindestens 2 Skalenpunkten zu beobachten, wenn die Gruppen sich nicht unterscheiden, ist 2%.
Erklärung: Der p-Wert gibt an, wie wahrscheinlich die beobachteten oder extremeren Daten sind, wenn die Nullhypothese wahr ist. In diesem Fall bedeutet der p-Wert von 0,02, dass die Wahrscheinlichkeit, in einer Welt, in der die Gruppenmittelwerte tatsächlich gleich sind (H₀), einen Unterschied von mindestens 2 Skalenpunkten zufällig zu beobachten, nur 2% beträgt.
92