Skript Teil 2 Flashcards

1
Q

Stellen Sie eine Blaupause von Mosaic dar.

A

analysiere (y ~ # g g f s . abhängige Variable
x # unabhängige Variable(n)
Optionen,
data = daten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wie lautet ein R-Befehl um Häufigkeiten auszugeben?

A
  • favstats()

- tally()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Je größer die Stichprobe ist, umso wahrscheinlicher ist es, dass sich der Mittelwert der Stichprobe dem Mittelwert der Population annähert.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Der Standardfehler ist die Standardabweichung der Verteilung des untersuchten Stichprobenkennwerts (z.B. Mittelwert).

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Als H1 bezeichnet man die Hypothese, die der statistische Test prüft.

A

Falsch. Es ist H0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Der p-Wert bemisst die Wahrscheinlichkeit der H0.

A
  • Falsch.
  • Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark noch stärker für die Nullhypothese spricht.
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Der Standardfehler ist ein Maß für die Streuung in der Stichprobe.

A
  • Falsch

- Streuung ist der Standardfehler im Histogramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .03.

A
  • Falsch
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .97.

A
  • Falsch
  • P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Clusteranalyse und Hauptkomponentenanalyse sind statistische Verfahren mit zwei Merkmalen: Sie dienen der Datenreduktion und sind primär explorative (strukturgenerierende) Verfahren.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Links von z = 1.65 (also kleiner als 1.65) liegen ca. 95% der Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Das Quadrat der euklidischen Distanz in zwei Dimensionen ist identisch zum Satz des Pythagoras.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cronbachs Alpha ist ein Maß für die Anzahl der Hauptkomponenten.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Der Standardfehler (SE) ist kein Maß der Variabilität (Streuung) in der Stichprobe.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Im Bereich -1 < z < 1 liegen ca. 68% der Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Die Verteilung der Stichproben-Mittelwerten tendiert bei zunehmender Größe gegen eine Normalverteilung.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Testet man bei einem Alpha von 5% (einseitig) und der p-Wert ist kleiner als 5%, so verwirft man die H0.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Der Bootstrap ist eine Möglichkeit, die Genauigkeit einer Schätzung in Form eines Konfidenzintervalls zu quantifizieren.

A

Richtig.

Die Bootverteilung ist eine Möglichkeit die Konfidenzintervalle einer Schätzung zu bestimmen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Die Streuung der Population ist für die Berechnung des Standardfehlers ohne Bedeutung.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Angenommen man zieht 10000 Stichproben von 14 Münzwürfen einer gezinkten Münze (p(Kopf)=1/3). Dann liegt der beste Tipp für das häufigste Stichprobenergebnis bei 11/14 Treffer.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Angenommen man zieht viele (z.B: 10000) Stichproben eines Münzwurfs (mit Zurücklegen) wobei n=14 und die Wahrscheinlichkeit von p(Kopf)=1/3. Angenommen weiter, 95% der Stichproben haben einen Kopfanteil zwischen 0% und 43%. Dann kann man sagen, dass 95%-Bootstrap-Konfidenzintervall liegt zwischen 0 und .43.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Unter „statistischer Signifikanz“ versteht man die Tatsache, dass ein Stichprobenergebnis unwahrscheinlich unter einer getesteten Hypothese (H0) ist.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Ist ein Ergebnis statistisch signifikant, so ist davon auszugehen, dass die getestete Hypothese unwahrscheinlich ist.

A

Falsch.
Ein signifikantes Ergebnis zeigt nur an, dass die Daten nicht zur H0 passen. Anders gesagt: Die H0 ist unplausibel für die Daten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Ist die Stichprobe groß genug, so wird jedes Stichprobenergebnis signifikant (sofern das Stichprobenergebnis nicht exakt dem Populationswert laut Hypothese entspricht).

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Der Chi-Quadrat-Test testet auf Unabhängigkeit bei metrischen Daten.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Liefert eine einfache logistische Regression b1=1 (Einflussgewicht des Prädiktors), so interpretiert man, dass die Wahrscheinlichkeit für das zu modellierende Ereignis um 1% steigt, wenn der Prädiktorwert um 1 Punkt steigt.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Je größer die Stichprobe, desto kleiner das Vertrauensintervall.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

„Fommies sind schlauer als die Allgemeinbevölkerung“ ist ein Beispiel für eine ungerichtete Hypothese.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Testet man bei einem t-Test einseitig mit der H1, dass die Prüfgröße größer Null (X > 0) ist, so werden auch Ergebnisse mit einem sehr kleinen Wert der Prüfgröße (X &laquo_space;0) nicht signifikant werden.

A

Richtig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Ein Beispiel für einen Zweistichproben-t-Test für unabhängige Stichprobe wäre die Testung des Blutdruckunterschieds von und nach einer Behandlung.

A

Falsch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Die gesamte Streuung (SS-T) bei einer Regressionsanalyse ist die Summe aus Fehler- bzw. Residualstreuung (SS-E) und der Streuung, die durch die Regressionsfunktion (Gerade) erklärt wird (SS-M).

A

Richtig

32
Q

R-Quadrat kann als das Verhältnis von erklärter Varianz (SS-M) zu nicht erklärter Varianz (SS-R) verstanden werden.

A

Falsch

33
Q

Die einfache Varianzanalyse teilt die Varianz in folgende Teile auf: Die Varianz zwischen den Gruppen (SS-b) und die Varianz innerhalb der Gruppen (SS-w).

A

Richtig

34
Q

Unter Heteroskedaszitität versteht man (bei der Regression) die Tatsache, dass die Varianz der Residuen nicht konstant über alle Prädiktorwerte ist.

A

Richtig

35
Q

Dass “Babies mit Störchen” korreliert sind, kann als Beleg für einen Kausalschluss zwischen den zwei Größen gelten.

A

Falsch

36
Q

Die unabhängigen Variablen in der Varianzanalyse nennt man “Faktoren”; Faktoren sind immer metrisch.

A

Falsch.

37
Q

Wozu ist Indifferenzstatistik da?

A

Verallgemeinerung von einer Stichprobe auf die Grundgesamtheit. Wenn es passt, dann nennt man es signifikant

38
Q

Zieht man ganz viele Stichproben aus einer Grundgesamtheit, so wird die Streuung der resultierenden Stichproben umso kleiner, je größer der Stichprobenumfang ist.

A

richtig! Mit steigendem Stichprobenumfang sinkt die Variabilität der Stichproben.

39
Q

Was sagt der Z-Wert aus?

A

Der Z-Wert sagt aus wie viele SD’s man vom Mittelwert entfernt ist. Bei z = 1 sind rechts hier von 16% der Fläche der Normalverteilung. Also wenn man einen SD-Schritt nach rechts geht und den Rest abschneidet, hat man 16% der Fläche die übrig ist.
Geht man einen SD-Schritt nach links und rechts bleiben 32% der Fläche erhalten. Umgekehrt bleiben dann nur noch 68% der Fläche erhalten.

40
Q

Wieviel Fläche bleibt noch übrig bei 2-SD Schritten?

A

Geht man 2 SD-Schritte nach rechts bleiben nur noch 2,5% der Fläche übrig.

41
Q

Wie groß muss der Z-Wert sein, damit 5% der Fläche nach außen hin übrig bleibt?

A

Für 5% der Fläche muss man 1,65 SD-Schritte gehen.

42
Q

Was ist in Zusammenhang mit der Nullverteilung der p-Wert?

A

Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark oder noch stärker für die Nullhypothese spricht.

43
Q

Was sind strukturprüfende Verfahren?

A

i. d.R. werden im Vorfeld der strukturprüfenden Verfahren Hypothesen über Zusammenhänge zwischen Phänomenen
- die Hypothesen werden dann in statistisch überprüfbare Terme„übersetzt“
- anschließend werden statistische Verfahren angewandt um diese Terme (die Struktur) zu überprüfen
- > strukturprüfende Verfahren

44
Q

Was sind strukturentdeckende Verfahren?

A

im Gegensatz zu den zuvor genannten Verfahren, werden bei den strukturentdeckenden Verfahren i.d.R keine expliziten Vorannahmen getätigt und geprüft, sondern die Datenstruktur „entdeckt“

  • es findet also eine statistisch-mathematische Exploration der Daten statt
  • > strukturentdeckende Verfahren
45
Q

Wann verwendet man den Chi²-Test?

A

Testen auf (un)abhängigkeit nominaler Variablen.

46
Q

Fragestellung Chi²-Test

A

Gibt es einen „nicht-zufälligen“ statistischen Zusammenhang zwischen zwei
nominalskalierten Merkmalen? Sind zwei kategoriale Variablen unabhängig?

47
Q

Was ist die Verwendung des t-Tests?

A

Der t-Test ist ein parametrisches Verfahren und untersucht den Erwartungswert einer Normalverteilung. Beim Zweistichproben t-Test wird überprüft, ob sich die Erwartungswerte zweier Stichproben systematisch unterscheiden

48
Q

Fragestellung t-Test

A

Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen zwei Stichproben in
Bezug auf ein metrisches Merkmal?

49
Q

Abgrenzung der Varianzanalyse zum t-Test

A

Auch die Varianzanalyse dient dazu, Unterschiede zwischen Mittelwerten auf Signifikanz zu überprüfen.
- Aber: während beim t-Test maximal zwei Stichproben
gegenübergestellt werden, werden bei der Varianzanalyse mehrere unabhängige Mittelwerte verglichen

50
Q

Verwendung von Varianzanalyse

A
Die Varianzanalyse (Analysis of Variance, ANOVA) ist ein parametrisches Verfahren und untersucht, ob sich die Mittelwerte mehrerer (mehr als zwei) unabhängiger,
normalverteilter Stichproben systematisch unterscheiden
51
Q

Fragestellung Varianzanalyse

A

Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen mehr als zwei
Stichproben in Bezug auf ein metrisches Merkmal?

52
Q

Varianzanalyse: Vorteile gegenüber dem t-Test und Grenzen

A
  • Mehr als zwei Gruppen können analysiert werden.
  • Mehrere Gruppierungsvariablen können analysiert werden.
  • Aber: Genau wie der t-Test erfordert die Varianzanalyse eine normalverteilte bzw. eine nicht allzu schief verteilte Zielgröße.
  • Ist die Zielgröße ordinal oder der Stichprobenumfang klein oder die Verteilung der Zielgröße schief, dann sind verteilungsfreie Verfahren (wie bspw. der Kruskal-Wallis-Test als verteilungsfreies Analogon zur
    einfaktoriellen Varianzanalyse) besser geeignet
53
Q

Verwendung Korrelationsanalyse

A

Die Korrelationsanalyse untersucht den (linearen) Zusammenhang zwischen zwei oder mehr metrischen Variablen

54
Q

Fragestellung Korrelationsanalyse

A

Wie stark ist der lineare Zusammenhang zwischen den Variablen – und in welcher Richtung besteht er?
-> Wird der Wert von Variable A erhöht / gesenkt oder bleibt er gleich, wenn sich der Wert von Variable B ändert?

55
Q

Was gibt es bei der Korrelationsanalyse zu beachten?

A
  • Korrelation ist nicht Kausalität
  • nur lineare Zusammenhänge
  • Robust(er): Spearman Rangkorrelation
56
Q

Verwendung lineare Regression

A

Die lineare Regression untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variable und einer oder mehrerer unabhängiger Variablen.

57
Q

Fragestellung lineare Regression

A

In wie weit kann der Wert der Ausprägung von einer abhängigen Variablen durch die Werte der unabhängigen Variablen erklärt werden?

58
Q

Lineare Einfachregression: Vorteile gegenüber der Korrelation

A
  • Mehr als eine unabhängige Variable kann berücksichtigt werden.
  • Die Modellgüte (Erklärungsgüte) kann angegeben werden.
  • Stärke und Richtung eines Einflusses (Hebelwirkung) können bestimmt werden.
  • Prognosen sind möglich.

Aber: Die Unterscheidung zwischen abhängiger und unabhängiger Variablen erfordert eine theoretische Grundlage!

59
Q

Verwendung multiple Regressionsanalyse

A

Die multiple Regressionsanalyse untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variablen und mehreren unabhängigen Variablen.

60
Q

Fragestellung multiple Regressionsanalyse

A

In wie weit kann der Wert der Ausprägung von einer abhängigen Variabl durch die der unabhängigen erklärt werden?

61
Q

Verwendung logistische Regression

A

Die Logistische Regression untersucht den Zusammenhang zwischen einer abhängigen binären Variable und einer oder mehreren unabhängigen
Variablen
- nicht linearer Zusammenhang (S-Kurve)

62
Q

Fragestellung logistische Regression

A

In wie weit kann der Wert der Ausprägung (0 oder 1) von einer abhängigen Variable durch den Wert/die Werte der unabhängigen erklärt werden?

63
Q

Verwendung Hauptkomponentenanalyse

A

Die Analyse wird verwendet, um Variablen / Indikatoren / Items zusammenzufassen
-> Die Varianz der Daten wird in wenige Dimensionen zusammengefasst
GEHT NUR MIT METRISCHEN WERTEN

64
Q

Fragestellung Hauptkomponentenanalyse

A

Können multidimensionale metrische Daten auf wenige wichtige Hauptkomponenten / Faktoren verdichtet werden?

65
Q

Ziel Hauptkomponentenanalyse

A

Das Ziel der Analyse bestehet darin, aus einer Vielzahl empirisch beobachteter, korrelierter Variablen (z. B. Fragebogenitems) auf wenige voneinander unabhängige Variablen (Hauptkomponenten / Faktoren) zu schließen (Datenreduktion).

66
Q

Was ist das Kaiser-Kriterium (Hauptkomponentenanalyse)

A
  • Berücksichtigung der Hauptkomponenten mit einem Eigenwert >1
  • Grund: Hauptkomponenten mit einem Eigenwert <1 haben weniger Erklärungswert als ursprüngliche
    Variablen
67
Q

Scree-Plot-Kriterium (Ellenbogenkriterium) (Hauptkomponentenanalyse):

A
  • graphisches Verfahren zur Bestimmung der optimalen Faktorenzahl
  • Berücksichtigung aller Hauptkomponenten, die im Scree-Plot links der Knickstelle (des Ellbogens) liegen. Gibt es mehrere Knicke, dann wählt man jene
    Hauptkomponente, die links vor dem rechtesten Knick liegen
68
Q

Was ist die Drehung bei der Hauptkomponentenanalyse?

A
  • Die Aussagekraft beider Achsen bleibt gleich. Man verschiebt dieAchsen gleichmäßig.
  • Wenn die Winkel bei der Drehung ungleich 90% sind, dann korrelieren die Hauptkomponenten
  • Durch die Drehung des Koordinatensystems misst die Variable 1 nur noch eine Sache. Die Ladung ist nur noch zu einer Achse sehr stark und zu der anderen schwach.
69
Q

Welche Fragen werden durch die Clusteranalyse beantwortet?

A

Welche Kundengruppen haben wir?

Welche Kundentypen gibt es? Man fasst 100 Kunden zu 3 Kundentypen zusammen -> Informationsreduktion

70
Q

Verwendung Clusteranalyse

A

Die Clusteranalyse wird verwendet um homogene Gruppen (in der Regel Beobachtungen) innerhalb der Daten zu finden

71
Q

Was ist ein Dendogramm?

A
  • Dendrogramme enthalten den Abstand der beiden Cluster, die im jeweiligen Schritt verschmolzen werden.
  • Wenn nur geringe Zunahmen in diesen Distanzen zu beobachten sind, ist der Übergang auf weniger Cluster vertretbar.
  • Ist die Zunahme stark, ist ein möglicher Stopp des Fusionsprozesses sinnvoll
72
Q

Was ist das K-Means Schema?

A
  1. Zufällige Auswahl von K Clusterzentren aus den n Beobachtungen
  2. Zuordnung der Beobachtungen zum nächsten Clusterzentrum
  3. Neuberechnung der Clusterzentren als Mittelwert der dem Cluster zugeordneten Beobachtungen
  • Wiederhole die Schritte 2 und 3 so lange, bis sich keine Änderung der Zuordnung mehr ergibt – oder eine maximale Anzahl an Iterationen erreicht ist.
73
Q

Was ist die Nullhypothese?

A

Die Annahme, dass das Ergebnis des Experiments nur durch Zufall zustande gekommen ist.

74
Q

Alternative Erklärung P-Wert

A

Die Wahrscheinlichkeit einfach durch Zufall ein Ergebnis zu bekommen, das mindestens so gut, wie das vom Experiment ist.

75
Q

Was ist der Standardfehler?

A

Der Standardfehler des Mittelwertsgibt an, welchen Fehler der gesuchte Parameter (Stichprobenmittelwert) im Vergleich zum tatsächlichen Parameterwert (Mittelwert der Grundgesamtheit) hat bzw. wie weit der Schätzwert um den tatsächlichen Wert streut.

76
Q

Wovon hängt der Standardfehler ab?

A
  • wie groß die Stichprobe ist (je größer, desto kleiner der Standardfehler) sowie
  • wie weit die Messwerte in der Grundgesamtheit streuen (je mehr sie streuen, desto größer der Standardfehler).