Skript Teil 2 Flashcards

Question

Der Chi-Quadrat-Test testet auf Unabhängigkeit bei metrischen Daten.

Answer 1

Verallgemeinerung von einer Stichprobe auf die Grundgesamtheit. Wenn es passt, dann nennt man es signifikant

Answer 2

richtig! Mit steigendem Stichprobenumfang sinkt die Variabilität der Stichproben.

Answer 3

Der Z-Wert sagt aus wie viele SD’s man vom Mittelwert entfernt ist. Bei z = 1 sind rechts hier von 16% der Fläche der Normalverteilung. Also wenn man einen SD-Schritt nach rechts geht und den Rest abschneidet, hat man 16% der Fläche die übrig ist. Geht man einen SD-Schritt nach links und rechts bleiben 32% der Fläche erhalten. Umgekehrt bleiben dann nur noch 68% der Fläche erhalten.

Answer 4

Geht man 2 SD-Schritte nach rechts bleiben nur noch 2,5% der Fläche übrig.

Answer 5

Für 5% der Fläche muss man 1,65 SD-Schritte gehen.

Answer 6

Der p-Wert bezeichnet den Anteil aller Stichproben deren Wert genauso stark oder noch stärker für die Nullhypothese spricht.

Answer 7

i. d.R. werden im Vorfeld der strukturprüfenden Verfahren Hypothesen über Zusammenhänge zwischen Phänomenen - die Hypothesen werden dann in statistisch überprüfbare Terme„übersetzt“ - anschließend werden statistische Verfahren angewandt um diese Terme (die Struktur) zu überprüfen - > strukturprüfende Verfahren

Answer 8

im Gegensatz zu den zuvor genannten Verfahren, werden bei den strukturentdeckenden Verfahren i.d.R keine expliziten Vorannahmen getätigt und geprüft, sondern die Datenstruktur „entdeckt“ - es findet also eine statistisch-mathematische Exploration der Daten statt - > strukturentdeckende Verfahren

Answer 9

Testen auf (un)abhängigkeit nominaler Variablen.

Answer 10

Gibt es einen „nicht-zufälligen“ statistischen Zusammenhang zwischen zwei nominalskalierten Merkmalen? Sind zwei kategoriale Variablen unabhängig?

Answer 11

Der t-Test ist ein parametrisches Verfahren und untersucht den Erwartungswert einer Normalverteilung. Beim Zweistichproben t-Test wird überprüft, ob sich die Erwartungswerte zweier Stichproben systematisch unterscheiden

Answer 12

Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen zwei Stichproben in Bezug auf ein metrisches Merkmal?

Answer 13

Auch die Varianzanalyse dient dazu, Unterschiede zwischen Mittelwerten auf Signifikanz zu überprüfen. - Aber: während beim t-Test maximal zwei Stichproben gegenübergestellt werden, werden bei der Varianzanalyse mehrere unabhängige Mittelwerte verglichen

Answer 14

``` Die Varianzanalyse (Analysis of Variance, ANOVA) ist ein parametrisches Verfahren und untersucht, ob sich die Mittelwerte mehrerer (mehr als zwei) unabhängiger, normalverteilter Stichproben systematisch unterscheiden ```

Answer 15

Gibt es einen „nicht-zufälligen“ statistischen Unterschied zwischen mehr als zwei Stichproben in Bezug auf ein metrisches Merkmal?

Answer 16

- Mehr als zwei Gruppen können analysiert werden. - Mehrere Gruppierungsvariablen können analysiert werden. - Aber: Genau wie der t-Test erfordert die Varianzanalyse eine normalverteilte bzw. eine nicht allzu schief verteilte Zielgröße. - Ist die Zielgröße ordinal oder der Stichprobenumfang klein oder die Verteilung der Zielgröße schief, dann sind verteilungsfreie Verfahren (wie bspw. der Kruskal-Wallis-Test als verteilungsfreies Analogon zur einfaktoriellen Varianzanalyse) besser geeignet

Answer 17

Die Korrelationsanalyse untersucht den (linearen) Zusammenhang zwischen zwei oder mehr metrischen Variablen

Answer 18

Wie stark ist der lineare Zusammenhang zwischen den Variablen – und in welcher Richtung besteht er? -> Wird der Wert von Variable A erhöht / gesenkt oder bleibt er gleich, wenn sich der Wert von Variable B ändert?

Answer 19

- Korrelation ist nicht Kausalität - nur lineare Zusammenhänge - Robust(er): Spearman Rangkorrelation

Answer 20

Die lineare Regression untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variable und einer oder mehrerer unabhängiger Variablen.

Answer 21

In wie weit kann der Wert der Ausprägung von einer abhängigen Variablen durch die Werte der unabhängigen Variablen erklärt werden?

Answer 22

- Mehr als eine unabhängige Variable kann berücksichtigt werden. - Die Modellgüte (Erklärungsgüte) kann angegeben werden. - Stärke und Richtung eines Einflusses (Hebelwirkung) können bestimmt werden. - Prognosen sind möglich. Aber: Die Unterscheidung zwischen abhängiger und unabhängiger Variablen erfordert eine theoretische Grundlage!

Answer 23

Die multiple Regressionsanalyse untersucht den linearen Zusammenhang zwischen einer abhängigen metrischen Variablen und mehreren unabhängigen Variablen.

Answer 24

In wie weit kann der Wert der Ausprägung von einer abhängigen Variabl durch die der unabhängigen erklärt werden?

Answer 25

Die Logistische Regression untersucht den Zusammenhang zwischen einer abhängigen binären Variable und einer oder mehreren unabhängigen Variablen - nicht linearer Zusammenhang (S-Kurve)

Answer 26

In wie weit kann der Wert der Ausprägung (0 oder 1) von einer abhängigen Variable durch den Wert/die Werte der unabhängigen erklärt werden?

Answer 27

Die Analyse wird verwendet, um Variablen / Indikatoren / Items zusammenzufassen -> Die Varianz der Daten wird in wenige Dimensionen zusammengefasst GEHT NUR MIT METRISCHEN WERTEN

Answer 28

Können multidimensionale metrische Daten auf wenige wichtige Hauptkomponenten / Faktoren verdichtet werden?

Answer 29

Das Ziel der Analyse bestehet darin, aus einer Vielzahl empirisch beobachteter, korrelierter Variablen (z. B. Fragebogenitems) auf wenige voneinander unabhängige Variablen (Hauptkomponenten / Faktoren) zu schließen (Datenreduktion).

Answer 30

- Berücksichtigung der Hauptkomponenten mit einem Eigenwert >1 - Grund: Hauptkomponenten mit einem Eigenwert <1 haben weniger Erklärungswert als ursprüngliche Variablen

Answer 31

- graphisches Verfahren zur Bestimmung der optimalen Faktorenzahl - Berücksichtigung aller Hauptkomponenten, die im Scree-Plot links der Knickstelle (des Ellbogens) liegen. Gibt es mehrere Knicke, dann wählt man jene Hauptkomponente, die links vor dem rechtesten Knick liegen

Answer 32

- Die Aussagekraft beider Achsen bleibt gleich. Man verschiebt dieAchsen gleichmäßig. - Wenn die Winkel bei der Drehung ungleich 90% sind, dann korrelieren die Hauptkomponenten - Durch die Drehung des Koordinatensystems misst die Variable 1 nur noch eine Sache. Die Ladung ist nur noch zu einer Achse sehr stark und zu der anderen schwach.

Answer 33

Welche Kundengruppen haben wir? | Welche Kundentypen gibt es? Man fasst 100 Kunden zu 3 Kundentypen zusammen -> Informationsreduktion

Answer 34

Die Clusteranalyse wird verwendet um homogene Gruppen (in der Regel Beobachtungen) innerhalb der Daten zu finden

Answer 35

- Dendrogramme enthalten den Abstand der beiden Cluster, die im jeweiligen Schritt verschmolzen werden. - Wenn nur geringe Zunahmen in diesen Distanzen zu beobachten sind, ist der Übergang auf weniger Cluster vertretbar. - Ist die Zunahme stark, ist ein möglicher Stopp des Fusionsprozesses sinnvoll

Answer 36

1. Zufällige Auswahl von K Clusterzentren aus den n Beobachtungen 2. Zuordnung der Beobachtungen zum nächsten Clusterzentrum 3. Neuberechnung der Clusterzentren als Mittelwert der dem Cluster zugeordneten Beobachtungen - Wiederhole die Schritte 2 und 3 so lange, bis sich keine Änderung der Zuordnung mehr ergibt – oder eine maximale Anzahl an Iterationen erreicht ist.

Answer 37

Die Annahme, dass das Ergebnis des Experiments nur durch Zufall zustande gekommen ist.

Answer 38

Die Wahrscheinlichkeit einfach durch Zufall ein Ergebnis zu bekommen, das mindestens so gut, wie das vom Experiment ist.

Answer 39

Der Standardfehler des Mittelwertsgibt an, welchen Fehler der gesuchte Parameter (Stichprobenmittelwert) im Vergleich zum tatsächlichen Parameterwert (Mittelwert der Grundgesamtheit) hat bzw. wie weit der Schätzwert um den tatsächlichen Wert streut.

Answer 40

- wie groß die Stichprobe ist (je größer, desto kleiner der Standardfehler) sowie - wie weit die Messwerte in der Grundgesamtheit streuen (je mehr sie streuen, desto größer der Standardfehler).

Skript Teil 2 Flashcards

(76 cards)