Skript Teil 2 Flashcards
Stellen Sie eine Blaupause von Mosaic dar.
analysiere (y ~ # g g f s . abhängige Variable
x # unabhängige Variable(n)
Optionen,
data = daten)
Wie lautet ein R-Befehl um Häufigkeiten auszugeben?
- favstats()
- tally()
Je größer die Stichprobe ist, umso wahrscheinlicher ist es, dass sich der Mittelwert der Stichprobe dem Mittelwert der Population annähert.
Richtig
Der Standardfehler ist die Standardabweichung der Verteilung des untersuchten Stichprobenkennwerts (z.B. Mittelwert).
Richtig
Als H1 bezeichnet man die Hypothese, die der statistische Test prüft.
Falsch. Es ist H0
Der p-Wert bemisst die Wahrscheinlichkeit der H0.
- Falsch.
- Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark noch stärker für die Nullhypothese spricht.
- P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen.
Der Standardfehler ist ein Maß für die Streuung in der Stichprobe.
- Falsch
- Streuung ist der Standardfehler im Histogramm
Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .03.
- Falsch
- P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
Wird ein p-Wert von 0.03 gefunden, so hat die H0 eine Wahrscheinlichkeit von .97.
- Falsch
- P-Wert macht keine Aussage zur Wahrscheinlichkeit der H1 oder der H0! Er gibt nur an wie gut die Daten zu den Hypothesen passen
Clusteranalyse und Hauptkomponentenanalyse sind statistische Verfahren mit zwei Merkmalen: Sie dienen der Datenreduktion und sind primär explorative (strukturgenerierende) Verfahren.
Richtig
Links von z = 1.65 (also kleiner als 1.65) liegen ca. 95% der Normalverteilung.
Richtig
Das Quadrat der euklidischen Distanz in zwei Dimensionen ist identisch zum Satz des Pythagoras.
Richtig
Cronbachs Alpha ist ein Maß für die Anzahl der Hauptkomponenten.
Falsch
Der Standardfehler (SE) ist kein Maß der Variabilität (Streuung) in der Stichprobe.
Richtig
Im Bereich -1 < z < 1 liegen ca. 68% der Normalverteilung.
Richtig
Die Verteilung der Stichproben-Mittelwerten tendiert bei zunehmender Größe gegen eine Normalverteilung.
Richtig
Testet man bei einem Alpha von 5% (einseitig) und der p-Wert ist kleiner als 5%, so verwirft man die H0.
Richtig
Der Bootstrap ist eine Möglichkeit, die Genauigkeit einer Schätzung in Form eines Konfidenzintervalls zu quantifizieren.
Richtig.
Die Bootverteilung ist eine Möglichkeit die Konfidenzintervalle einer Schätzung zu bestimmen.
Die Streuung der Population ist für die Berechnung des Standardfehlers ohne Bedeutung.
Falsch
Angenommen man zieht 10000 Stichproben von 14 Münzwürfen einer gezinkten Münze (p(Kopf)=1/3). Dann liegt der beste Tipp für das häufigste Stichprobenergebnis bei 11/14 Treffer.
Falsch
Angenommen man zieht viele (z.B: 10000) Stichproben eines Münzwurfs (mit Zurücklegen) wobei n=14 und die Wahrscheinlichkeit von p(Kopf)=1/3. Angenommen weiter, 95% der Stichproben haben einen Kopfanteil zwischen 0% und 43%. Dann kann man sagen, dass 95%-Bootstrap-Konfidenzintervall liegt zwischen 0 und .43.
Richtig
Unter „statistischer Signifikanz“ versteht man die Tatsache, dass ein Stichprobenergebnis unwahrscheinlich unter einer getesteten Hypothese (H0) ist.
Richtig
Ist ein Ergebnis statistisch signifikant, so ist davon auszugehen, dass die getestete Hypothese unwahrscheinlich ist.
Falsch.
Ein signifikantes Ergebnis zeigt nur an, dass die Daten nicht zur H0 passen. Anders gesagt: Die H0 ist unplausibel für die Daten.
Ist die Stichprobe groß genug, so wird jedes Stichprobenergebnis signifikant (sofern das Stichprobenergebnis nicht exakt dem Populationswert laut Hypothese entspricht).
Richtig
Der Chi-Quadrat-Test testet auf Unabhängigkeit bei metrischen Daten.
Falsch
Liefert eine einfache logistische Regression b1=1 (Einflussgewicht des Prädiktors), so interpretiert man, dass die Wahrscheinlichkeit für das zu modellierende Ereignis um 1% steigt, wenn der Prädiktorwert um 1 Punkt steigt.
Falsch
Je größer die Stichprobe, desto kleiner das Vertrauensintervall.
Richtig
„Fommies sind schlauer als die Allgemeinbevölkerung“ ist ein Beispiel für eine ungerichtete Hypothese.
Falsch
Testet man bei einem t-Test einseitig mit der H1, dass die Prüfgröße größer Null (X > 0) ist, so werden auch Ergebnisse mit einem sehr kleinen Wert der Prüfgröße (X «_space;0) nicht signifikant werden.
Richtig
Ein Beispiel für einen Zweistichproben-t-Test für unabhängige Stichprobe wäre die Testung des Blutdruckunterschieds von und nach einer Behandlung.
Falsch
Die gesamte Streuung (SS-T) bei einer Regressionsanalyse ist die Summe aus Fehler- bzw. Residualstreuung (SS-E) und der Streuung, die durch die Regressionsfunktion (Gerade) erklärt wird (SS-M).
Richtig
R-Quadrat kann als das Verhältnis von erklärter Varianz (SS-M) zu nicht erklärter Varianz (SS-R) verstanden werden.
Falsch
Die einfache Varianzanalyse teilt die Varianz in folgende Teile auf: Die Varianz zwischen den Gruppen (SS-b) und die Varianz innerhalb der Gruppen (SS-w).
Richtig
Unter Heteroskedaszitität versteht man (bei der Regression) die Tatsache, dass die Varianz der Residuen nicht konstant über alle Prädiktorwerte ist.
Richtig
Dass “Babies mit Störchen” korreliert sind, kann als Beleg für einen Kausalschluss zwischen den zwei Größen gelten.
Falsch
Die unabhängigen Variablen in der Varianzanalyse nennt man “Faktoren”; Faktoren sind immer metrisch.
Falsch.
Wozu ist Indifferenzstatistik da?
Verallgemeinerung von einer Stichprobe auf die Grundgesamtheit. Wenn es passt, dann nennt man es signifikant
Zieht man ganz viele Stichproben aus einer Grundgesamtheit, so wird die Streuung der resultierenden Stichproben umso kleiner, je größer der Stichprobenumfang ist.
richtig! Mit steigendem Stichprobenumfang sinkt die Variabilität der Stichproben.
Was sagt der Z-Wert aus?
Der Z-Wert sagt aus wie viele SD’s man vom Mittelwert entfernt ist. Bei z = 1 sind rechts hier von 16% der Fläche der Normalverteilung. Also wenn man einen SD-Schritt nach rechts geht und den Rest abschneidet, hat man 16% der Fläche die übrig ist.
Geht man einen SD-Schritt nach links und rechts bleiben 32% der Fläche erhalten. Umgekehrt bleiben dann nur noch 68% der Fläche erhalten.
Wieviel Fläche bleibt noch übrig bei 2-SD Schritten?
Geht man 2 SD-Schritte nach rechts bleiben nur noch 2,5% der Fläche übrig.
Wie groß muss der Z-Wert sein, damit 5% der Fläche nach außen hin übrig bleibt?
Für 5% der Fläche muss man 1,65 SD-Schritte gehen.
Was ist in Zusammenhang mit der Nullverteilung der p-Wert?
Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark oder noch stärker für die Nullhypothese spricht.
Was sind strukturprüfende Verfahren?
i. d.R. werden im Vorfeld der strukturprüfenden Verfahren Hypothesen über Zusammenhänge zwischen Phänomenen
- die Hypothesen werden dann in statistisch überprüfbare Terme„übersetzt“
- anschließend werden statistische Verfahren angewandt um diese Terme (die Struktur) zu überprüfen
- > strukturprüfende Verfahren
Was sind strukturentdeckende Verfahren?
im Gegensatz zu den zuvor genannten Verfahren, werden bei den strukturentdeckenden Verfahren i.d.R keine expliziten Vorannahmen getätigt und geprüft, sondern die Datenstruktur „entdeckt“
- es findet also eine statistisch-mathematische Exploration der Daten statt
- > strukturentdeckende Verfahren
Wann verwendet man den Chi²-Test?
Testen auf (un)abhängigkeit nominaler Variablen.
Fragestellung Chi²-Test
Gibt es einen „nicht-zufälligen“ statistischen Zusammenhang zwischen zwei
nominalskalierten Merkmalen? Sind zwei kategoriale Variablen unabhängig?
Was ist die Verwendung des t-Tests?
Der t-Test ist ein parametrisches Verfahren und untersucht den Erwartungswert einer Normalverteilung. Beim Zweistichproben t-Test wird überprüft, ob sich die Erwartungswerte zweier Stichproben systematisch unterscheiden
Fragestellung t-Test
Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen zwei Stichproben in
Bezug auf ein metrisches Merkmal?
Abgrenzung der Varianzanalyse zum t-Test
Auch die Varianzanalyse dient dazu, Unterschiede zwischen Mittelwerten auf Signifikanz zu überprüfen.
- Aber: während beim t-Test maximal zwei Stichproben
gegenübergestellt werden, werden bei der Varianzanalyse mehrere unabhängige Mittelwerte verglichen
Verwendung von Varianzanalyse
Die Varianzanalyse (Analysis of Variance, ANOVA) ist ein parametrisches Verfahren und untersucht, ob sich die Mittelwerte mehrerer (mehr als zwei) unabhängiger, normalverteilter Stichproben systematisch unterscheiden
Fragestellung Varianzanalyse
Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen mehr als zwei
Stichproben in Bezug auf ein metrisches Merkmal?
Varianzanalyse: Vorteile gegenüber dem t-Test und Grenzen
- Mehr als zwei Gruppen können analysiert werden.
- Mehrere Gruppierungsvariablen können analysiert werden.
- Aber: Genau wie der t-Test erfordert die Varianzanalyse eine normalverteilte bzw. eine nicht allzu schief verteilte Zielgröße.
- Ist die Zielgröße ordinal oder der Stichprobenumfang klein oder die Verteilung der Zielgröße schief, dann sind verteilungsfreie Verfahren (wie bspw. der Kruskal-Wallis-Test als verteilungsfreies Analogon zur
einfaktoriellen Varianzanalyse) besser geeignet
Verwendung Korrelationsanalyse
Die Korrelationsanalyse untersucht den (linearen) Zusammenhang zwischen zwei oder mehr metrischen Variablen
Fragestellung Korrelationsanalyse
Wie stark ist der lineare Zusammenhang zwischen den Variablen – und in welcher Richtung besteht er?
-> Wird der Wert von Variable A erhöht / gesenkt oder bleibt er gleich, wenn sich der Wert von Variable B ändert?
Was gibt es bei der Korrelationsanalyse zu beachten?
- Korrelation ist nicht Kausalität
- nur lineare Zusammenhänge
- Robust(er): Spearman Rangkorrelation
Verwendung lineare Regression
Die lineare Regression untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variable und einer oder mehrerer unabhängiger Variablen.
Fragestellung lineare Regression
In wie weit kann der Wert der Ausprägung von einer abhängigen Variablen durch die Werte der unabhängigen Variablen erklärt werden?
Lineare Einfachregression: Vorteile gegenüber der Korrelation
- Mehr als eine unabhängige Variable kann berücksichtigt werden.
- Die Modellgüte (Erklärungsgüte) kann angegeben werden.
- Stärke und Richtung eines Einflusses (Hebelwirkung) können bestimmt werden.
- Prognosen sind möglich.
Aber: Die Unterscheidung zwischen abhängiger und unabhängiger Variablen erfordert eine theoretische Grundlage!
Verwendung multiple Regressionsanalyse
Die multiple Regressionsanalyse untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variablen und mehreren unabhängigen Variablen.
Fragestellung multiple Regressionsanalyse
In wie weit kann der Wert der Ausprägung von einer abhängigen Variabl durch die der unabhängigen erklärt werden?
Verwendung logistische Regression
Die Logistische Regression untersucht den Zusammenhang zwischen einer abhängigen binären Variable und einer oder mehreren unabhängigen
Variablen
- nicht linearer Zusammenhang (S-Kurve)
Fragestellung logistische Regression
In wie weit kann der Wert der Ausprägung (0 oder 1) von einer abhängigen Variable durch den Wert/die Werte der unabhängigen erklärt werden?
Verwendung Hauptkomponentenanalyse
Die Analyse wird verwendet, um Variablen / Indikatoren / Items zusammenzufassen
-> Die Varianz der Daten wird in wenige Dimensionen zusammengefasst
GEHT NUR MIT METRISCHEN WERTEN
Fragestellung Hauptkomponentenanalyse
Können multidimensionale metrische Daten auf wenige wichtige Hauptkomponenten / Faktoren verdichtet werden?
Ziel Hauptkomponentenanalyse
Das Ziel der Analyse bestehet darin, aus einer Vielzahl empirisch beobachteter, korrelierter Variablen (z. B. Fragebogenitems) auf wenige voneinander unabhängige Variablen (Hauptkomponenten / Faktoren) zu schließen (Datenreduktion).
Was ist das Kaiser-Kriterium (Hauptkomponentenanalyse)
- Berücksichtigung der Hauptkomponenten mit einem Eigenwert >1
- Grund: Hauptkomponenten mit einem Eigenwert <1 haben weniger Erklärungswert als ursprüngliche
Variablen
Scree-Plot-Kriterium (Ellenbogenkriterium) (Hauptkomponentenanalyse):
- graphisches Verfahren zur Bestimmung der optimalen Faktorenzahl
- Berücksichtigung aller Hauptkomponenten, die im Scree-Plot links der Knickstelle (des Ellbogens) liegen. Gibt es mehrere Knicke, dann wählt man jene
Hauptkomponente, die links vor dem rechtesten Knick liegen
Was ist die Drehung bei der Hauptkomponentenanalyse?
- Die Aussagekraft beider Achsen bleibt gleich. Man verschiebt dieAchsen gleichmäßig.
- Wenn die Winkel bei der Drehung ungleich 90% sind, dann korrelieren die Hauptkomponenten
- Durch die Drehung des Koordinatensystems misst die Variable 1 nur noch eine Sache. Die Ladung ist nur noch zu einer Achse sehr stark und zu der anderen schwach.
Welche Fragen werden durch die Clusteranalyse beantwortet?
Welche Kundengruppen haben wir?
Welche Kundentypen gibt es? Man fasst 100 Kunden zu 3 Kundentypen zusammen -> Informationsreduktion
Verwendung Clusteranalyse
Die Clusteranalyse wird verwendet um homogene Gruppen (in der Regel Beobachtungen) innerhalb der Daten zu finden
Was ist ein Dendogramm?
- Dendrogramme enthalten den Abstand der beiden Cluster, die im jeweiligen Schritt verschmolzen werden.
- Wenn nur geringe Zunahmen in diesen Distanzen zu beobachten sind, ist der Übergang auf weniger Cluster vertretbar.
- Ist die Zunahme stark, ist ein möglicher Stopp des Fusionsprozesses sinnvoll
Was ist das K-Means Schema?
- Zufällige Auswahl von K Clusterzentren aus den n Beobachtungen
- Zuordnung der Beobachtungen zum nächsten Clusterzentrum
- Neuberechnung der Clusterzentren als Mittelwert der dem Cluster zugeordneten Beobachtungen
- Wiederhole die Schritte 2 und 3 so lange, bis sich keine Änderung der Zuordnung mehr ergibt – oder eine maximale Anzahl an Iterationen erreicht ist.
Was ist die Nullhypothese?
Die Annahme, dass das Ergebnis des Experiments nur durch Zufall zustande gekommen ist.
Alternative Erklärung P-Wert
Die Wahrscheinlichkeit einfach durch Zufall ein Ergebnis zu bekommen, das mindestens so gut, wie das vom Experiment ist.
Was ist der Standardfehler?
Der Standardfehler des Mittelwertsgibt an, welchen Fehler der gesuchte Parameter (Stichprobenmittelwert) im Vergleich zum tatsächlichen Parameterwert (Mittelwert der Grundgesamtheit) hat bzw. wie weit der Schätzwert um den tatsächlichen Wert streut.
Wovon hängt der Standardfehler ab?
- wie groß die Stichprobe ist (je größer, desto kleiner der Standardfehler) sowie
- wie weit die Messwerte in der Grundgesamtheit streuen (je mehr sie streuen, desto größer der Standardfehler).