Statistik Flashcards

1
Q

Was ist die Normalverteilung und wie unterscheidet sie sich von der Standardnormalverteilung?

A

Normalverteilung: Symmetrischer, parabel förmiger verlauf, Median und Mittelwert sind identisch, spiegelt die Population wieder in IQ, Größe und

Standartnomalverteilung:
Mittelwert=0
Satndartabweichung= 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist die z-Standartisierung

A

Normiert Variablen und macht sie Vergleichbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche Eigenschaften haben Hypothesen?

A
  1. Aussagegehalt: Unterschieds- oder Zusammenhangshypothese
  2. Gerichtetheit: gerichtet oder unterrichtet
  3. Spezifität: spezifisch oder unspezifisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist der Unterschied zwischen Nullhypothese und Alternativhypothese?

A

Alternativhypothese: Wird aufgestellt durch die Annahmen die überprüft werden sollen
Nullhypothese: ist das Gegenteil

-> Alternativhypothese soll bestätigt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie ist der allgemeine Ablauf einer Hypothesenprüfung?

A
  1. Formulieren
  2. Entscheidungsregeln festlegen (Konfidenzintervall, Alpha oder beta Fehler)
  3. Stichprobenziehung
  4. Datenauswertung
  5. Interpretation - Annehmen/Ablehnen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was sind Fehler 1. und 2. Art?

A
  1. Art Alpha Fehler: Irrtumswahrscheinlichkeit (Behauptung Effekt vorhanden, obwohl nicht vorhanden)
  2. Art Beta Fehler: Sicherheitswahrscheinlichkeit (Keine Behauptung Effekt, aber vorhanden)
  • > Umso kleiner Alpha desto größer Beta!
  • > Alpha Sicherer, da schlimmer wenn Effekt vorhanden aber nicht erkannt, als widerlegen eines nicht vorhandene Effekts
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was misst dir Effektstärke?

A

Wie stark die UV die AV beeinflusst!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Welche Voraussetzungen haben nicht-parametrische Test?

A
  1. N<30
  2. i.d.R nicht Normalverteilt
  3. Daten dürfen nicht metrisch sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was sind Vor und Nachteile nicht-parametrischer Tests?

A

Vorteile:

  1. wenige Vorrausetzugen
  2. kleine Stichproben
  3. einfache Formeln

Nachteile:

  1. Aufwändige Berechnung
  2. Testsärke gering wegen kleinem N
  3. Kaum multivariate Verfahren
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein Chi Quadrat- Test und welche Vorraussetzungen müssen erfüllt sein?

A

Ziel: Überprüfen Häufigkeitesunterschiede der erwarteten und beobachteten Gruppen
-> Nominaldatenverfahren
Voraussetzung:
1. Jede Beobachtung fällt in eine Kategorie
2. Unabhängigkeit der Beobachtungen (keine Person mehrmals gemessen)
3. N möglichst groß

Beispiel: Unterschiede von Schulabschlüssen zwischen Männern und Frauen (Erwartet und Tatsächlich vertreten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist der U-Test? Wie werden Hypothesen aufgestellt? Welche Vorraussetzungen hat er?

A

Prüfen ob sig. Unterschiede in zwei unabhängigen Gruppe!

Vorgehen:

  1. Messwerte Rang zuordnen
  2. Beide Gruppen Summe und Mittlere Rang der Gruppe berechnen

H0: mittlere Ränge in den Gruppen gleich (Beide Abteilung gleich)
H1: mittlere Ränge unterscheiden sich (gerichtet oder ungerichtet)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung

-> Berechnung Rangüberschreitung

Voraussetzungen:
UV= nominal (Abteilung)
AV= Ordinal (Umgang mit Zahlen)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie wird beim U-Test einer gerichteten/ungerichteten Hypothese die Prüfgröße bestimmt? Wann sind die Ergebnisse signifikant?

A

Gerichtet: U-Wert der H1 angenommen (mittlere Rangüberschreitung größer bzw. kleiner)
Unterrichtet: Minimum der U werte beider Gruppe

Sig -> Vergleich U(emp)< U(krit)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist ein T-test und welche Voraussetzungen (5) müssen erfüllt sein?

A

Ziel: Mittelwertunterschiede der AV

  1. UV=Nominal, AV=metrisch
  2. unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
  3. AV Normalverteilt
  4. n > 30
  5. Varianzhomogenität (Levene-test nicht sig)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist mit Varianzzerlegung gemeint?

A

Zerlegung der Gesamtvarianz in erklärte (between) und nicht erklärte (innerhalb) Streuung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine Einfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein?

A

Erweiterung des T-Test (gleicher Voraussetzungen)

  1. UV=Nominal, AV=metrisch
  2. unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
  3. AV Normalverteilt
  4. n > 30
  5. Varianzhomogenität (Levene-test nicht sig)

Grundgedanke: Wie viel Varianz wird durch UV aufgeklärt!
-> eingesetzt bei mehr Gruppen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist eine mehrfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an

A

Ziel: Die mehrfaktorielle Varianzanalyse testet, ob sich die Mittelwerte mehrerer unabhängiger Gruppen (oder Stichproben) unterscheiden.

Voraussetzung:

  1. mehrere unabhängige Variable
  2. Jedes Versuchsobjekt genau einer Merkmalskombi zugeordnet
  3. Merkmalskombi logisch
    vgl. Voraussetzungen T-test
Y= X1 * b1 + X2 * b2 + c 
b= Effekte c=Ausgangsbedingung 

Überprüfung von Wechselwirkungen!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Stelle eine Hypothese auf für einen T-Test, einfaktorielle ANOVA und mehrfaktorielle ANOVA!

A

T-Test: Die durchschnittliche Kaufwsk zwischen 2 Altersgruppen unterscheidet sich.
E ANOVA: Die durchschnittliche Kaufwskt zwischen 3 Altersgruppen unterhscheidet sich.
M ANOVA: Die durchschnittliche Kaufwsk zwischen 3 Altersgruppen unterscheidet sich, außerdem beeinflusst das Geschlecht/ gutes Wetter die Kaufwsk. positiv.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist eine Regressionsanalyse und welche Vorraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an

A

Untersucht zusammenhänge einer oder mehrere UV mit der AV!
Mithilfe der Kleines Quadrate Methode
UV= Regressor
AV=Regressant

Voraussetzung:

  1. UV, AV metrisch
  2. linearer Zusammenhang
  3. Normalverteilt
  4. N>30

Y = b0 + X1*b1 + E

b0= Steigung 
b1 = Beta-Koeffizient
19
Q

Was ist das Bestimmheitsmaß?

A

R2= Verhältnis Erklärte Streuung durch Gerade zu Gesamtstreuung

20
Q

Was ist der F-Test?

A

Anpassungsgüte einer Regressionsfunktion:

F-Wert > 1, umso größer umso besser bildet Stichprobe Grundgesamtheit ab

21
Q

Was ist der Unterschied zwischen nicht standardisierten Koeffizienten B und standardisierten Koeffizienten β bei einer Regressionsanalyse?

A

nicht standardisiert : Beta-Koeffizient Ermöglicht inhaltliche Interpretation (größter B hat höchsten Einfluss) > Wenn x um eine Einheit stieigt, steigt y um xy Einheiten

standardisierte Beta: z-Standartisiert und ermöglicht Vergleichbarkeit , höchster, größten Einfluss
-> Semipartielle Korrelation: Varianzanteil von X in Y an (Einfluss Drittvariable aus Prädiktor rausgerechnet)

22
Q

Was ist die Produkt Moment Korrelation und die Partielle Korrelation?

A

Produkt Moment Korrelation: X,Y Variable nicht bereinigt (Varianzanteil überschätzt bzw. Multikollineraität)

Partielle Korrelation: Varianzanteil der Drittvariable rausgerechnet aus x und y)

23
Q

Was ist das korrigierte R2?

A

R2 steigt automatisch mit der Anzahl der UV, korrigiertes R2 rechnet den Effekt raus!

24
Q

Was ist der Unterschied zwischen Multikollinearität und dem Supressoreffekt?

A

Multikollinearität: Korrelation zwischen UVs (Prädiktoren), Beta-Koeffizienten überschätzt!

Supressoreffekt: Beta-Koeffizienten unterschätzt

25
Q

Welche verschiedenen Analyseansätze gibt es bei der Regression?

A
  1. Einschlussverfahren (Simultane Schätzung der Regressionskoeffizienten)
  2. Hierarchische Regression (Prädiktoren werden nacheinander aufgenommen)
  3. Merkmalsselektion (Prädiktoren werden aufgenommen und entfernt)
26
Q

Wie kann Multikollinearität an einem SPSS Output ausgeschlossen werden?

A

VIF < 10

Toleranz > 0,1

27
Q

Wie wird der Moderatoreffekt getestet?

A

Mithilfe einer Regression, indem ein Interkationsterm berechnet wird.
-> Erhöht sich die erklärte Varianz durch den Interaktionsterm, kann ein Moderartionseffekt vorhanden sein!

Ablauf:

  1. z-standartisierung der Prädiktoren
  2. Berechnung Interaktionsterm (Produkt der UVs)
  3. Testung Effekt
  4. Grafische Interpretation
28
Q

Wie wird der Mediatoreffekt getestet?

A

Ablauf:

  1. Nachweis Zusammenhang UV -> AV
  2. Nachweis UV -> Mediator (a)
  3. Nachweis Mediator -> AV (b)
  4. Nachweis Reduktion UV -> AV (partielle o. absolute Mediation)

a*b = c-c’

Bootstrap geht auch (schätzt c’ auf 95% Konfidenzintervall)

29
Q

Was sind Ziele Explorative Faktoranalyse? (4)

A
  1. Gruppen über Variablen bilden (Reduktion Datenmenge - wenige Faktoren beinhalten Infos)
  2. Suche nach Konstrukten (welche manifesten Variablen bilden latente Faktoren ab)
  3. Hypothesen Generierung
  4. Anwendung: Fragebogenkonstruktion
30
Q

Welche Voraussetzungen benötigt eine Explorative Faktoranaylse?

A
  1. Intervallskalenniveau bzw. metrische Variablen
  2. Unabhängigkeit der Daten (orthogonalität)
  3. Ein Objekt darf nicht mehrmals getestet werden (Vorher-Nachher-Korrelationen sind ausgeschlossen)
  4. große und möglichst repräsentative Stichprobe
31
Q

Wie ist der Ablauf einer Faktoranalyse?

A
  1. Datenerhebung (Erstellung Ausgangsmatrix - Zuordnungs Probanden und Ergebnisse)
  2. z-Standartisierung
  3. Erstellung Interkorrelationsmatrix (wie korrelieren Ergebnisse untereinander)
  4. Erste Rotation (Hauptkomponenten-Analyse)
    Ziel: Informationsumverteilung 1. Faktor meiste Infos, 2. zweit meiste
  5. Ladungsmatrix: Output Eigenwerte (Aufklärung Varianz der Variablen für Faktor) und Kommunalitäten Aufklärung über alle Faktoren für eine Variable)
  6. Faktorextraktion
  7. Zweite Rotation: VariMax (Variablen laden nur auf einen Faktor hoch)
  8. Interpretation
32
Q

Was sind Kommunalitäten und Eigenwerte?

A

Kommunalitäten: Anteil der Varianz einer Variable die durch alle Faktoren insgesamt abgebildet werden kann ( 1= alle Infos enthalten, Faktor bildet perfekt ab)
Eigenwerte: Anteil der Varianzaufklärung aller Variablen durch einen Faktor

33
Q

Welche Bedingungen müssen während der Rotation erfüllt sein?

A
  1. Prinzip der Orthogonalität (Faktoren unabhängig)

2. Prinzip der suzessiven Varianzerhöhung

34
Q

Nach welchen Kriterien wird die Faktorextraktion vorgenommen?

A

Wesentliche Faktoren, alle die mehr als Ursprungsvarianz erklären!

Kaiser- Eigenwert-Kriterium: Eigenwerte > 1
Scree-Test: Grafisches Verfahren (alle links Wendepunkt werden verwendet)

35
Q

Wann ist eine Faktorladung hoch bzw. niedrig?

A

hohe Faktorladung > 0.5

kleine Faktorladung < 0.3

36
Q

Was ist eine Clusteranalyse?

A

Ziel: Erfahrung zur Bildung von Gruppen z.B. Kundensegmentierung
Grundprinzip: Distanz in der Gruppe minimieren und untereinander maximieren (keine Anforderungen an Skalenniveau)

37
Q

Wie ist der Ablauf einer Clusteranalyse?

A
  1. Bestimmung Proximitätsmaß (Distanz/Ähnlichkeit bestimmen)
  2. Auswahl Fusionierungsalgorithmus (Zusammenfassen der ähnlichen Objekte zu Gruppen)
38
Q

Welche Metrischen Distanzmaße gibt es? Erkläre eins davon ausführlich

A

City Block Metrik: Betrag der Unterschiede zwischen zwei Objekten aufsummieren

Euklidische Distanz: Quartierte Differenzen aufsummieren und Wurzel ziehen

Quadrierte Euklidische Distanz Quadrierte Differenzen aufsummieren

39
Q

Was für ein Ähnlichkeitsmaß gib es und was gibt es an?

A

Q-Korrelationskoeffizient: Ähnlichkeit bezieht sich hier auf die „Struktur“ der Ähnlichkeit zweier Objekte über die Merkmale

40
Q

Welche Fusionierungsalgortihmen gibt es, nenne Vor- und Nachteile!

A

Single Linkage bzw. Nearest Neighbour:
D = Minimum (D(PR), D(QR))
Nachteil: Diese Methode neigt zur Kettenbildung
Vorteil: Ausreißer werden sichtbar

Average Linkage:
D = Mittelwert (D(PR),D (QR))
Nachteil: Ausreißer werden nicht so schnell erkannt
Vorteil: Keine Kettenbildung und Generierung (vieler kleiner) homogenerer Cluster

WARD-Verfahren:
Streuung der Abstände in der Gruppe minimieren. Bildet ungefähr gleich große Gruppen
Nachteil: Voraussetzung ist Verwendung der quadratischen euklidischen Distanz
-> Empfehlung erst Single Linkage (Ausreißer eliminieren und dann Ward)

41
Q

Was ist der Post-hoc Test?

A

Die Post-hoc-Tests geben mit paarweisen Mittelwertvergleichen Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden.

42
Q

Grenze die Clusternanalyse von der Faktorenanalyse ab, welche Unterschiede gibt es.? (3)

A

Die CA legt kein Modell über das Zustandekommen der Daten zugrunde.
Die CA stellt außer der Einheitlichkeit der verwendeten Skalen (ggf. Standardisierung)
keine weiteren Voraussetzungen.
Die CA liefert keine unabhängigen Gruppen.

43
Q

Was ist eine Verteilungsfunktion ?

A

Die Verteilungsfunktion gibt an, mit welcher Wahrscheinlichkeit das Ergebnis des Zufallsexperiments kleiner oder gleich eines bestimmten Wertes ist.

44
Q

Erkläre wann eine Ordinale, Disordinale oder Semi-Ordinate Wechselwirkung vorlegt bei einer ANOVA?

A

ordinal: Keine Wechselwirkung, aber zwei Haupteffekt
disordinal: Eine Wechselwirkung, aber keine Haupteffekt
semi-ordinal: Eine Wechselwirkung, aber nur einen Haupteffekt