Statistik Flashcards

Question 1

Q

Was ist die Normalverteilung und wie unterscheidet sie sich von der Standardnormalverteilung?

Answer

A

Normalverteilung: Symmetrischer, parabel förmiger verlauf, Median und Mittelwert sind identisch, spiegelt die Population wieder in IQ, Größe und

Standartnomalverteilung:
Mittelwert=0
Satndartabweichung= 1

Question 2

Q

Was ist die z-Standartisierung

Answer

A

Normiert Variablen und macht sie Vergleichbar

Question 3

Q

Welche Eigenschaften haben Hypothesen?

Answer

A

Aussagegehalt: Unterschieds- oder Zusammenhangshypothese
Gerichtetheit: gerichtet oder unterrichtet
Spezifität: spezifisch oder unspezifisch

Question 4

Q

Was ist der Unterschied zwischen Nullhypothese und Alternativhypothese?

Answer

A

Alternativhypothese: Wird aufgestellt durch die Annahmen die überprüft werden sollen
Nullhypothese: ist das Gegenteil

-> Alternativhypothese soll bestätigt werden

Question 5

Q

Wie ist der allgemeine Ablauf einer Hypothesenprüfung?

Answer

A

Formulieren
Entscheidungsregeln festlegen (Konfidenzintervall, Alpha oder beta Fehler)
Stichprobenziehung
Datenauswertung
Interpretation - Annehmen/Ablehnen

Question 6

Q

Was sind Fehler 1. und 2. Art?

Answer

A

Art Alpha Fehler: Irrtumswahrscheinlichkeit (Behauptung Effekt vorhanden, obwohl nicht vorhanden)
Art Beta Fehler: Sicherheitswahrscheinlichkeit (Keine Behauptung Effekt, aber vorhanden)

> Umso kleiner Alpha desto größer Beta!
> Alpha Sicherer, da schlimmer wenn Effekt vorhanden aber nicht erkannt, als widerlegen eines nicht vorhandene Effekts

Question 7

Q

Was misst dir Effektstärke?

Answer

A

Wie stark die UV die AV beeinflusst!

Question 8

Q

Welche Voraussetzungen haben nicht-parametrische Test?

Answer

A

N<30
i.d.R nicht Normalverteilt
Daten dürfen nicht metrisch sein

Question 9

Q

Was sind Vor und Nachteile nicht-parametrischer Tests?

Answer

A

Vorteile:

wenige Vorrausetzugen
kleine Stichproben
einfache Formeln

Nachteile:

Aufwändige Berechnung
Testsärke gering wegen kleinem N
Kaum multivariate Verfahren

Question 10

Q

Was ist ein Chi Quadrat- Test und welche Vorraussetzungen müssen erfüllt sein?

Answer

A

Ziel: Überprüfen Häufigkeitesunterschiede der erwarteten und beobachteten Gruppen
-> Nominaldatenverfahren
Voraussetzung:
1. Jede Beobachtung fällt in eine Kategorie
2. Unabhängigkeit der Beobachtungen (keine Person mehrmals gemessen)
3. N möglichst groß

Beispiel: Unterschiede von Schulabschlüssen zwischen Männern und Frauen (Erwartet und Tatsächlich vertreten)

Question 11

Q

Was ist der U-Test? Wie werden Hypothesen aufgestellt? Welche Vorraussetzungen hat er?

Answer

A

Prüfen ob sig. Unterschiede in zwei unabhängigen Gruppe!

Vorgehen:

Messwerte Rang zuordnen
Beide Gruppen Summe und Mittlere Rang der Gruppe berechnen

H0: mittlere Ränge in den Gruppen gleich (Beide Abteilung gleich)
H1: mittlere Ränge unterscheiden sich (gerichtet oder ungerichtet)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung

-> Berechnung Rangüberschreitung

Voraussetzungen:
UV= nominal (Abteilung)
AV= Ordinal (Umgang mit Zahlen)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung

Question 12

Q

Wie wird beim U-Test einer gerichteten/ungerichteten Hypothese die Prüfgröße bestimmt? Wann sind die Ergebnisse signifikant?

Answer

A

Gerichtet: U-Wert der H1 angenommen (mittlere Rangüberschreitung größer bzw. kleiner)
Unterrichtet: Minimum der U werte beider Gruppe

Sig -> Vergleich U(emp)< U(krit)

Question 13

Q

Was ist ein T-test und welche Voraussetzungen (5) müssen erfüllt sein?

Answer

A

Ziel: Mittelwertunterschiede der AV

UV=Nominal, AV=metrisch
unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
AV Normalverteilt
n > 30
Varianzhomogenität (Levene-test nicht sig)

Question 14

Q

Was ist mit Varianzzerlegung gemeint?

Answer

A

Zerlegung der Gesamtvarianz in erklärte (between) und nicht erklärte (innerhalb) Streuung.

Question 15

Q

Was ist eine Einfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein?

Answer

A

Erweiterung des T-Test (gleicher Voraussetzungen)

UV=Nominal, AV=metrisch
unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
AV Normalverteilt
n > 30
Varianzhomogenität (Levene-test nicht sig)

Grundgedanke: Wie viel Varianz wird durch UV aufgeklärt!
-> eingesetzt bei mehr Gruppen

Question 16

Q

Was ist eine mehrfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an

Answer

A

Ziel: Die mehrfaktorielle Varianzanalyse testet, ob sich die Mittelwerte mehrerer unabhängiger Gruppen (oder Stichproben) unterscheiden.

Voraussetzung:

mehrere unabhängige Variable
Jedes Versuchsobjekt genau einer Merkmalskombi zugeordnet
Merkmalskombi logisch
vgl. Voraussetzungen T-test

Y= X1 * b1 + X2 * b2 + c 
b= Effekte c=Ausgangsbedingung

Überprüfung von Wechselwirkungen!

Question 17

Q

Stelle eine Hypothese auf für einen T-Test, einfaktorielle ANOVA und mehrfaktorielle ANOVA!

Answer

A

T-Test: Die durchschnittliche Kaufwsk zwischen 2 Altersgruppen unterscheidet sich.
E ANOVA: Die durchschnittliche Kaufwskt zwischen 3 Altersgruppen unterhscheidet sich.
M ANOVA: Die durchschnittliche Kaufwsk zwischen 3 Altersgruppen unterscheidet sich, außerdem beeinflusst das Geschlecht/ gutes Wetter die Kaufwsk. positiv.

Question 18

Q

Was ist eine Regressionsanalyse und welche Vorraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an

Answer

A

Untersucht zusammenhänge einer oder mehrere UV mit der AV!
Mithilfe der Kleines Quadrate Methode
UV= Regressor
AV=Regressant

Voraussetzung:

UV, AV metrisch
linearer Zusammenhang
Normalverteilt
N>30

Y = b0 + X1*b1 + E

b0= Steigung 
b1 = Beta-Koeffizient

Question 19

Q

Was ist das Bestimmheitsmaß?

Answer

A

R2= Verhältnis Erklärte Streuung durch Gerade zu Gesamtstreuung

Question 20

Q

Was ist der F-Test?

Answer

A

Anpassungsgüte einer Regressionsfunktion:

F-Wert > 1, umso größer umso besser bildet Stichprobe Grundgesamtheit ab

Question 21

Q

Was ist der Unterschied zwischen nicht standardisierten Koeffizienten B und standardisierten Koeffizienten β bei einer Regressionsanalyse?

Answer

A

nicht standardisiert : Beta-Koeffizient Ermöglicht inhaltliche Interpretation (größter B hat höchsten Einfluss) > Wenn x um eine Einheit stieigt, steigt y um xy Einheiten

standardisierte Beta: z-Standartisiert und ermöglicht Vergleichbarkeit , höchster, größten Einfluss
-> Semipartielle Korrelation: Varianzanteil von X in Y an (Einfluss Drittvariable aus Prädiktor rausgerechnet)

Question 22

Q

Was ist die Produkt Moment Korrelation und die Partielle Korrelation?

Answer

A

Produkt Moment Korrelation: X,Y Variable nicht bereinigt (Varianzanteil überschätzt bzw. Multikollineraität)

Partielle Korrelation: Varianzanteil der Drittvariable rausgerechnet aus x und y)

Question 23

Q

Was ist das korrigierte R2?

Answer

A

R2 steigt automatisch mit der Anzahl der UV, korrigiertes R2 rechnet den Effekt raus!

Question 24

Q

Was ist der Unterschied zwischen Multikollinearität und dem Supressoreffekt?

Answer

A

Multikollinearität: Korrelation zwischen UVs (Prädiktoren), Beta-Koeffizienten überschätzt!

Supressoreffekt: Beta-Koeffizienten unterschätzt

Question 25

Q

Welche verschiedenen Analyseansätze gibt es bei der Regression?

Answer

A

Einschlussverfahren (Simultane Schätzung der Regressionskoeffizienten)
Hierarchische Regression (Prädiktoren werden nacheinander aufgenommen)
Merkmalsselektion (Prädiktoren werden aufgenommen und entfernt)

Question 26

Q

Wie kann Multikollinearität an einem SPSS Output ausgeschlossen werden?

Answer

A

VIF < 10

Toleranz > 0,1

Question 27

Q

Wie wird der Moderatoreffekt getestet?

Answer

A

Mithilfe einer Regression, indem ein Interkationsterm berechnet wird.
-> Erhöht sich die erklärte Varianz durch den Interaktionsterm, kann ein Moderartionseffekt vorhanden sein!

Ablauf:

z-standartisierung der Prädiktoren
Berechnung Interaktionsterm (Produkt der UVs)
Testung Effekt
Grafische Interpretation

Question 28

Q

Wie wird der Mediatoreffekt getestet?

Answer

A

Ablauf:

Nachweis Zusammenhang UV -> AV
Nachweis UV -> Mediator (a)
Nachweis Mediator -> AV (b)
Nachweis Reduktion UV -> AV (partielle o. absolute Mediation)

a*b = c-c’

Bootstrap geht auch (schätzt c’ auf 95% Konfidenzintervall)

Question 29

Q

Was sind Ziele Explorative Faktoranalyse? (4)

Answer

A

Gruppen über Variablen bilden (Reduktion Datenmenge - wenige Faktoren beinhalten Infos)
Suche nach Konstrukten (welche manifesten Variablen bilden latente Faktoren ab)
Hypothesen Generierung
Anwendung: Fragebogenkonstruktion

Question 30

Q

Welche Voraussetzungen benötigt eine Explorative Faktoranaylse?

Answer

A

Intervallskalenniveau bzw. metrische Variablen
Unabhängigkeit der Daten (orthogonalität)
Ein Objekt darf nicht mehrmals getestet werden (Vorher-Nachher-Korrelationen sind ausgeschlossen)
große und möglichst repräsentative Stichprobe

Question 31

Q

Wie ist der Ablauf einer Faktoranalyse?

Answer

A

Datenerhebung (Erstellung Ausgangsmatrix - Zuordnungs Probanden und Ergebnisse)
z-Standartisierung
Erstellung Interkorrelationsmatrix (wie korrelieren Ergebnisse untereinander)
Erste Rotation (Hauptkomponenten-Analyse)
Ziel: Informationsumverteilung 1. Faktor meiste Infos, 2. zweit meiste
Ladungsmatrix: Output Eigenwerte (Aufklärung Varianz der Variablen für Faktor) und Kommunalitäten Aufklärung über alle Faktoren für eine Variable)
Faktorextraktion
Zweite Rotation: VariMax (Variablen laden nur auf einen Faktor hoch)
Interpretation

Question 32

Q

Was sind Kommunalitäten und Eigenwerte?

Answer

A

Kommunalitäten: Anteil der Varianz einer Variable die durch alle Faktoren insgesamt abgebildet werden kann ( 1= alle Infos enthalten, Faktor bildet perfekt ab)
Eigenwerte: Anteil der Varianzaufklärung aller Variablen durch einen Faktor

Question 33

Q

Welche Bedingungen müssen während der Rotation erfüllt sein?

Answer

A

Prinzip der Orthogonalität (Faktoren unabhängig)

2. Prinzip der suzessiven Varianzerhöhung

Question 34

Q

Nach welchen Kriterien wird die Faktorextraktion vorgenommen?

Answer

A

Wesentliche Faktoren, alle die mehr als Ursprungsvarianz erklären!

Kaiser- Eigenwert-Kriterium: Eigenwerte > 1
Scree-Test: Grafisches Verfahren (alle links Wendepunkt werden verwendet)

Question 35

Q

Wann ist eine Faktorladung hoch bzw. niedrig?

Answer

A

hohe Faktorladung > 0.5

kleine Faktorladung < 0.3

Question 36

Q

Was ist eine Clusteranalyse?

Answer

A

Ziel: Erfahrung zur Bildung von Gruppen z.B. Kundensegmentierung
Grundprinzip: Distanz in der Gruppe minimieren und untereinander maximieren (keine Anforderungen an Skalenniveau)

Question 37

Q

Wie ist der Ablauf einer Clusteranalyse?

Answer

A

Bestimmung Proximitätsmaß (Distanz/Ähnlichkeit bestimmen)
Auswahl Fusionierungsalgorithmus (Zusammenfassen der ähnlichen Objekte zu Gruppen)

Question 38

Q

Welche Metrischen Distanzmaße gibt es? Erkläre eins davon ausführlich

Answer

A

City Block Metrik: Betrag der Unterschiede zwischen zwei Objekten aufsummieren

Euklidische Distanz: Quartierte Differenzen aufsummieren und Wurzel ziehen

Quadrierte Euklidische Distanz Quadrierte Differenzen aufsummieren

Question 39

Q

Was für ein Ähnlichkeitsmaß gib es und was gibt es an?

Answer

A

Q-Korrelationskoeffizient: Ähnlichkeit bezieht sich hier auf die „Struktur“ der Ähnlichkeit zweier Objekte über die Merkmale

Question 40

Q

Welche Fusionierungsalgortihmen gibt es, nenne Vor- und Nachteile!

Answer

A

Single Linkage bzw. Nearest Neighbour:
D = Minimum (D(PR), D(QR))
Nachteil: Diese Methode neigt zur Kettenbildung
Vorteil: Ausreißer werden sichtbar

Average Linkage:
D = Mittelwert (D(PR),D (QR))
Nachteil: Ausreißer werden nicht so schnell erkannt
Vorteil: Keine Kettenbildung und Generierung (vieler kleiner) homogenerer Cluster

WARD-Verfahren:
Streuung der Abstände in der Gruppe minimieren. Bildet ungefähr gleich große Gruppen
Nachteil: Voraussetzung ist Verwendung der quadratischen euklidischen Distanz
-> Empfehlung erst Single Linkage (Ausreißer eliminieren und dann Ward)

Question 41

Q

Was ist der Post-hoc Test?

Answer

A

Die Post-hoc-Tests geben mit paarweisen Mittelwertvergleichen Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden.

Question 42

Q

Grenze die Clusternanalyse von der Faktorenanalyse ab, welche Unterschiede gibt es.? (3)

Answer

A

Die CA legt kein Modell über das Zustandekommen der Daten zugrunde.
Die CA stellt außer der Einheitlichkeit der verwendeten Skalen (ggf. Standardisierung)
keine weiteren Voraussetzungen.
Die CA liefert keine unabhängigen Gruppen.

Question 43

Q

Was ist eine Verteilungsfunktion ?

Answer

A

Die Verteilungsfunktion gibt an, mit welcher Wahrscheinlichkeit das Ergebnis des Zufallsexperiments kleiner oder gleich eines bestimmten Wertes ist.

Question 44

Q

Erkläre wann eine Ordinale, Disordinale oder Semi-Ordinate Wechselwirkung vorlegt bei einer ANOVA?

Answer

A

ordinal: Keine Wechselwirkung, aber zwei Haupteffekt
disordinal: Eine Wechselwirkung, aber keine Haupteffekt
semi-ordinal: Eine Wechselwirkung, aber nur einen Haupteffekt