Skript Teil 2 Flashcards

1
Q

Stellen Sie eine Blaupause von Mosaic dar.

A

analysiere (y ~ # g g f s . abhängige Variable
x # unabhängige Variable(n)
Optionen,
data = daten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie lautet ein R-Befehl um Häufigkeiten auszugeben?

A
  • favstats()

- tally()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Je größer die Stichprobe ist, umso wahrscheinlicher ist es, dass sich der Mittelwert der Stichprobe dem Mittelwert der Population annähert.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Der Standardfehler ist die Standardabweichung der Verteilung des untersuchten Stichprobenkennwerts (z.B. Mittelwert).

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Als H1 bezeichnet man die Hypothese, die der statistische Test prüft.

A

Falsch. Es ist H0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Der p-Wert bemisst die Wahrscheinlichkeit der H0.

A
  • Falsch.
  • Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark noch stärker für die Nullhypothese spricht.
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Der Standardfehler ist ein Maß für die Streuung in der Stichprobe.

A
  • Falsch

- Streuung ist der Standardfehler im Histogramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .03.

A
  • Falsch
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .97.

A
  • Falsch
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Clusteranalyse und Hauptkomponentenanalyse sind statistische Verfahren mit zwei Merkmalen: Sie dienen der Datenreduktion und sind primär explorative (strukturgenerierende) Verfahren.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Links von z = 1.65 (also kleiner als 1.65) liegen ca. 95% der Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Das Quadrat der euklidischen Distanz in zwei Dimensionen ist identisch zum Satz des Pythagoras.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cronbachs Alpha ist ein Maß für die Anzahl der Hauptkomponenten.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Der Standardfehler (SE) ist kein Maß der Variabilität (Streuung) in der Stichprobe.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Im Bereich -1 < z < 1 liegen ca. 68% der Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Die Verteilung der Stichproben-Mittelwerten tendiert bei zunehmender Größe gegen eine Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Testet man bei einem Alpha von 5% (einseitig) und der p-Wert ist kleiner als 5%, so verwirft man die H0.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Der Bootstrap ist eine Möglichkeit, die Genauigkeit einer Schätzung in Form eines Konfidenzintervalls zu quantifizieren.

A

Richtig.

Die Bootverteilung ist eine Möglichkeit die Konfidenzintervalle einer Schätzung zu bestimmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Die Streuung der Population ist für die Berechnung des Standardfehlers ohne Bedeutung.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Angenommen man zieht 10000 Stichproben von 14 Münzwürfen einer gezinkten Münze (p(Kopf)=1/3). Dann liegt der beste Tipp für das häufigste Stichprobenergebnis bei 11/14 Treffer.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Angenommen man zieht viele (z.B: 10000) Stichproben eines Münzwurfs (mit Zurücklegen) wobei n=14 und die Wahrscheinlichkeit von p(Kopf)=1/3. Angenommen weiter, 95% der Stichproben haben einen Kopfanteil zwischen 0% und 43%. Dann kann man sagen, dass 95%-Bootstrap-Konfidenzintervall liegt zwischen 0 und .43.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Unter „statistischer Signifikanz“ versteht man die Tatsache, dass ein Stichprobenergebnis unwahrscheinlich unter einer getesteten Hypothese (H0) ist.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Ist ein Ergebnis statistisch signifikant, so ist davon auszugehen, dass die getestete Hypothese unwahrscheinlich ist.

A

Falsch.
Ein signifikantes Ergebnis zeigt nur an, dass die Daten nicht zur H0 passen. Anders gesagt: Die H0 ist unplausibel für die Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Ist die Stichprobe groß genug, so wird jedes Stichprobenergebnis signifikant (sofern das Stichprobenergebnis nicht exakt dem Populationswert laut Hypothese entspricht).

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Der Chi-Quadrat-Test testet auf Unabhängigkeit bei metrischen Daten.
Falsch
26
Liefert eine einfache logistische Regression b1=1 (Einflussgewicht des Prädiktors), so interpretiert man, dass die Wahrscheinlichkeit für das zu modellierende Ereignis um 1% steigt, wenn der Prädiktorwert um 1 Punkt steigt.
Falsch
27
Je größer die Stichprobe, desto kleiner das Vertrauensintervall.
Richtig
28
„Fommies sind schlauer als die Allgemeinbevölkerung“ ist ein Beispiel für eine ungerichtete Hypothese.
Falsch
29
Testet man bei einem t-Test einseitig mit der H1, dass die Prüfgröße größer Null (X > 0) ist, so werden auch Ergebnisse mit einem sehr kleinen Wert der Prüfgröße (X << 0) nicht signifikant werden.
Richtig
30
Ein Beispiel für einen Zweistichproben-t-Test für unabhängige Stichprobe wäre die Testung des Blutdruckunterschieds von und nach einer Behandlung.
Falsch
31
Die gesamte Streuung (SS-T) bei einer Regressionsanalyse ist die Summe aus Fehler- bzw. Residualstreuung (SS-E) und der Streuung, die durch die Regressionsfunktion (Gerade) erklärt wird (SS-M).
Richtig
32
R-Quadrat kann als das Verhältnis von erklärter Varianz (SS-M) zu nicht erklärter Varianz (SS-R) verstanden werden.
Falsch
33
Die einfache Varianzanalyse teilt die Varianz in folgende Teile auf: Die Varianz zwischen den Gruppen (SS-b) und die Varianz innerhalb der Gruppen (SS-w).
Richtig
34
Unter Heteroskedaszitität versteht man (bei der Regression) die Tatsache, dass die Varianz der Residuen nicht konstant über alle Prädiktorwerte ist.
Richtig
35
Dass "Babies mit Störchen" korreliert sind, kann als Beleg für einen Kausalschluss zwischen den zwei Größen gelten.
Falsch
36
Die unabhängigen Variablen in der Varianzanalyse nennt man "Faktoren"; Faktoren sind immer metrisch.
Falsch.
37
Wozu ist Indifferenzstatistik da?
Verallgemeinerung von einer Stichprobe auf die Grundgesamtheit. Wenn es passt, dann nennt man es signifikant
38
Zieht man ganz viele Stichproben aus einer Grundgesamtheit, so wird die Streuung der resultierenden Stichproben umso kleiner, je größer der Stichprobenumfang ist.
richtig! Mit steigendem Stichprobenumfang sinkt die Variabilität der Stichproben.
39
Was sagt der Z-Wert aus?
Der Z-Wert sagt aus wie viele SD’s man vom Mittelwert entfernt ist. Bei z = 1 sind rechts hier von 16% der Fläche der Normalverteilung. Also wenn man einen SD-Schritt nach rechts geht und den Rest abschneidet, hat man 16% der Fläche die übrig ist. Geht man einen SD-Schritt nach links und rechts bleiben 32% der Fläche erhalten. Umgekehrt bleiben dann nur noch 68% der Fläche erhalten.
40
Wieviel Fläche bleibt noch übrig bei 2-SD Schritten?
Geht man 2 SD-Schritte nach rechts bleiben nur noch 2,5% der Fläche übrig.
41
Wie groß muss der Z-Wert sein, damit 5% der Fläche nach außen hin übrig bleibt?
Für 5% der Fläche muss man 1,65 SD-Schritte gehen.
42
Was ist in Zusammenhang mit der Nullverteilung der p-Wert?
Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark oder noch stärker für die Nullhypothese spricht.
43
Was sind strukturprüfende Verfahren?
i. d.R. werden im Vorfeld der strukturprüfenden Verfahren Hypothesen über Zusammenhänge zwischen Phänomenen - die Hypothesen werden dann in statistisch überprüfbare Terme„übersetzt“ - anschließend werden statistische Verfahren angewandt um diese Terme (die Struktur) zu überprüfen - > strukturprüfende Verfahren
44
Was sind strukturentdeckende Verfahren?
im Gegensatz zu den zuvor genannten Verfahren, werden bei den strukturentdeckenden Verfahren i.d.R keine expliziten Vorannahmen getätigt und geprüft, sondern die Datenstruktur „entdeckt“ - es findet also eine statistisch-mathematische Exploration der Daten statt - > strukturentdeckende Verfahren
45
Wann verwendet man den Chi²-Test?
Testen auf (un)abhängigkeit nominaler Variablen.
46
Fragestellung Chi²-Test
Gibt es einen „nicht-zufälligen“ statistischen Zusammenhang zwischen zwei nominalskalierten Merkmalen? Sind zwei kategoriale Variablen unabhängig?
47
Was ist die Verwendung des t-Tests?
Der t-Test ist ein parametrisches Verfahren und untersucht den Erwartungswert einer Normalverteilung. Beim Zweistichproben t-Test wird überprüft, ob sich die Erwartungswerte zweier Stichproben systematisch unterscheiden
48
Fragestellung t-Test
Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen zwei Stichproben in Bezug auf ein metrisches Merkmal?
49
Abgrenzung der Varianzanalyse zum t-Test
Auch die Varianzanalyse dient dazu, Unterschiede zwischen Mittelwerten auf Signifikanz zu überprüfen. - Aber: während beim t-Test maximal zwei Stichproben gegenübergestellt werden, werden bei der Varianzanalyse mehrere unabhängige Mittelwerte verglichen
50
Verwendung von Varianzanalyse
``` Die Varianzanalyse (Analysis of Variance, ANOVA) ist ein parametrisches Verfahren und untersucht, ob sich die Mittelwerte mehrerer (mehr als zwei) unabhängiger, normalverteilter Stichproben systematisch unterscheiden ```
51
Fragestellung Varianzanalyse
Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen mehr als zwei Stichproben in Bezug auf ein metrisches Merkmal?
52
Varianzanalyse: Vorteile gegenüber dem t-Test und Grenzen
- Mehr als zwei Gruppen können analysiert werden. - Mehrere Gruppierungsvariablen können analysiert werden. - Aber: Genau wie der t-Test erfordert die Varianzanalyse eine normalverteilte bzw. eine nicht allzu schief verteilte Zielgröße. - Ist die Zielgröße ordinal oder der Stichprobenumfang klein oder die Verteilung der Zielgröße schief, dann sind verteilungsfreie Verfahren (wie bspw. der Kruskal-Wallis-Test als verteilungsfreies Analogon zur einfaktoriellen Varianzanalyse) besser geeignet
53
Verwendung Korrelationsanalyse
Die Korrelationsanalyse untersucht den (linearen) Zusammenhang zwischen zwei oder mehr metrischen Variablen
54
Fragestellung Korrelationsanalyse
Wie stark ist der lineare Zusammenhang zwischen den Variablen – und in welcher Richtung besteht er? -> Wird der Wert von Variable A erhöht / gesenkt oder bleibt er gleich, wenn sich der Wert von Variable B ändert?
55
Was gibt es bei der Korrelationsanalyse zu beachten?
- Korrelation ist nicht Kausalität - nur lineare Zusammenhänge - Robust(er): Spearman Rangkorrelation
56
Verwendung lineare Regression
Die lineare Regression untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variable und einer oder mehrerer unabhängiger Variablen.
57
Fragestellung lineare Regression
In wie weit kann der Wert der Ausprägung von einer abhängigen Variablen durch die Werte der unabhängigen Variablen erklärt werden?
58
Lineare Einfachregression: Vorteile gegenüber der Korrelation
- Mehr als eine unabhängige Variable kann berücksichtigt werden. - Die Modellgüte (Erklärungsgüte) kann angegeben werden. - Stärke und Richtung eines Einflusses (Hebelwirkung) können bestimmt werden. - Prognosen sind möglich. Aber: Die Unterscheidung zwischen abhängiger und unabhängiger Variablen erfordert eine theoretische Grundlage!
59
Verwendung multiple Regressionsanalyse
Die multiple Regressionsanalyse untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variablen und mehreren unabhängigen Variablen.
60
Fragestellung multiple Regressionsanalyse
In wie weit kann der Wert der Ausprägung von einer abhängigen Variabl durch die der unabhängigen erklärt werden?
61
Verwendung logistische Regression
Die Logistische Regression untersucht den Zusammenhang zwischen einer abhängigen binären Variable und einer oder mehreren unabhängigen Variablen - nicht linearer Zusammenhang (S-Kurve)
62
Fragestellung logistische Regression
In wie weit kann der Wert der Ausprägung (0 oder 1) von einer abhängigen Variable durch den Wert/die Werte der unabhängigen erklärt werden?
63
Verwendung Hauptkomponentenanalyse
Die Analyse wird verwendet, um Variablen / Indikatoren / Items zusammenzufassen -> Die Varianz der Daten wird in wenige Dimensionen zusammengefasst GEHT NUR MIT METRISCHEN WERTEN
64
Fragestellung Hauptkomponentenanalyse
Können multidimensionale metrische Daten auf wenige wichtige Hauptkomponenten / Faktoren verdichtet werden?
65
Ziel Hauptkomponentenanalyse
Das Ziel der Analyse bestehet darin, aus einer Vielzahl empirisch beobachteter, korrelierter Variablen (z. B. Fragebogenitems) auf wenige voneinander unabhängige Variablen (Hauptkomponenten / Faktoren) zu schließen (Datenreduktion).
66
Was ist das Kaiser-Kriterium (Hauptkomponentenanalyse)
- Berücksichtigung der Hauptkomponenten mit einem Eigenwert >1 - Grund: Hauptkomponenten mit einem Eigenwert <1 haben weniger Erklärungswert als ursprüngliche Variablen
67
Scree-Plot-Kriterium (Ellenbogenkriterium) (Hauptkomponentenanalyse):
- graphisches Verfahren zur Bestimmung der optimalen Faktorenzahl - Berücksichtigung aller Hauptkomponenten, die im Scree-Plot links der Knickstelle (des Ellbogens) liegen. Gibt es mehrere Knicke, dann wählt man jene Hauptkomponente, die links vor dem rechtesten Knick liegen
68
Was ist die Drehung bei der Hauptkomponentenanalyse?
- Die Aussagekraft beider Achsen bleibt gleich. Man verschiebt dieAchsen gleichmäßig. - Wenn die Winkel bei der Drehung ungleich 90% sind, dann korrelieren die Hauptkomponenten - Durch die Drehung des Koordinatensystems misst die Variable 1 nur noch eine Sache. Die Ladung ist nur noch zu einer Achse sehr stark und zu der anderen schwach.
69
Welche Fragen werden durch die Clusteranalyse beantwortet?
Welche Kundengruppen haben wir? | Welche Kundentypen gibt es? Man fasst 100 Kunden zu 3 Kundentypen zusammen -> Informationsreduktion
70
Verwendung Clusteranalyse
Die Clusteranalyse wird verwendet um homogene Gruppen (in der Regel Beobachtungen) innerhalb der Daten zu finden
71
Was ist ein Dendogramm?
- Dendrogramme enthalten den Abstand der beiden Cluster, die im jeweiligen Schritt verschmolzen werden. - Wenn nur geringe Zunahmen in diesen Distanzen zu beobachten sind, ist der Übergang auf weniger Cluster vertretbar. - Ist die Zunahme stark, ist ein möglicher Stopp des Fusionsprozesses sinnvoll
72
Was ist das K-Means Schema?
1. Zufällige Auswahl von K Clusterzentren aus den n Beobachtungen 2. Zuordnung der Beobachtungen zum nächsten Clusterzentrum 3. Neuberechnung der Clusterzentren als Mittelwert der dem Cluster zugeordneten Beobachtungen - Wiederhole die Schritte 2 und 3 so lange, bis sich keine Änderung der Zuordnung mehr ergibt – oder eine maximale Anzahl an Iterationen erreicht ist.
73
Was ist die Nullhypothese?
Die Annahme, dass das Ergebnis des Experiments nur durch Zufall zustande gekommen ist.
74
Alternative Erklärung P-Wert
Die Wahrscheinlichkeit einfach durch Zufall ein Ergebnis zu bekommen, das mindestens so gut, wie das vom Experiment ist.
75
Was ist der Standardfehler?
Der Standardfehler des Mittelwertsgibt an, welchen Fehler der gesuchte Parameter (Stichprobenmittelwert) im Vergleich zum tatsächlichen Parameterwert (Mittelwert der Grundgesamtheit) hat bzw. wie weit der Schätzwert um den tatsächlichen Wert streut.
76
Wovon hängt der Standardfehler ab?
- wie groß die Stichprobe ist (je größer, desto kleiner der Standardfehler) sowie - wie weit die Messwerte in der Grundgesamtheit streuen (je mehr sie streuen, desto größer der Standardfehler).