Statistik Flashcards
Was ist die Normalverteilung und wie unterscheidet sie sich von der Standardnormalverteilung?
Normalverteilung: Symmetrischer, parabel förmiger verlauf, Median und Mittelwert sind identisch, spiegelt die Population wieder in IQ, Größe und
Standartnomalverteilung:
Mittelwert=0
Satndartabweichung= 1
Was ist die z-Standartisierung
Normiert Variablen und macht sie Vergleichbar
Welche Eigenschaften haben Hypothesen?
- Aussagegehalt: Unterschieds- oder Zusammenhangshypothese
- Gerichtetheit: gerichtet oder unterrichtet
- Spezifität: spezifisch oder unspezifisch
Was ist der Unterschied zwischen Nullhypothese und Alternativhypothese?
Alternativhypothese: Wird aufgestellt durch die Annahmen die überprüft werden sollen
Nullhypothese: ist das Gegenteil
-> Alternativhypothese soll bestätigt werden
Wie ist der allgemeine Ablauf einer Hypothesenprüfung?
- Formulieren
- Entscheidungsregeln festlegen (Konfidenzintervall, Alpha oder beta Fehler)
- Stichprobenziehung
- Datenauswertung
- Interpretation - Annehmen/Ablehnen
Was sind Fehler 1. und 2. Art?
- Art Alpha Fehler: Irrtumswahrscheinlichkeit (Behauptung Effekt vorhanden, obwohl nicht vorhanden)
- Art Beta Fehler: Sicherheitswahrscheinlichkeit (Keine Behauptung Effekt, aber vorhanden)
- > Umso kleiner Alpha desto größer Beta!
- > Alpha Sicherer, da schlimmer wenn Effekt vorhanden aber nicht erkannt, als widerlegen eines nicht vorhandene Effekts
Was misst dir Effektstärke?
Wie stark die UV die AV beeinflusst!
Welche Voraussetzungen haben nicht-parametrische Test?
- N<30
- i.d.R nicht Normalverteilt
- Daten dürfen nicht metrisch sein
Was sind Vor und Nachteile nicht-parametrischer Tests?
Vorteile:
- wenige Vorrausetzugen
- kleine Stichproben
- einfache Formeln
Nachteile:
- Aufwändige Berechnung
- Testsärke gering wegen kleinem N
- Kaum multivariate Verfahren
Was ist ein Chi Quadrat- Test und welche Vorraussetzungen müssen erfüllt sein?
Ziel: Überprüfen Häufigkeitesunterschiede der erwarteten und beobachteten Gruppen
-> Nominaldatenverfahren
Voraussetzung:
1. Jede Beobachtung fällt in eine Kategorie
2. Unabhängigkeit der Beobachtungen (keine Person mehrmals gemessen)
3. N möglichst groß
Beispiel: Unterschiede von Schulabschlüssen zwischen Männern und Frauen (Erwartet und Tatsächlich vertreten)
Was ist der U-Test? Wie werden Hypothesen aufgestellt? Welche Vorraussetzungen hat er?
Prüfen ob sig. Unterschiede in zwei unabhängigen Gruppe!
Vorgehen:
- Messwerte Rang zuordnen
- Beide Gruppen Summe und Mittlere Rang der Gruppe berechnen
H0: mittlere Ränge in den Gruppen gleich (Beide Abteilung gleich)
H1: mittlere Ränge unterscheiden sich (gerichtet oder ungerichtet)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung
-> Berechnung Rangüberschreitung
Voraussetzungen:
UV= nominal (Abteilung)
AV= Ordinal (Umgang mit Zahlen)
z.B.Annahme: Marketingabteilung kann besser mit Zahlen als Personalabteilung
Wie wird beim U-Test einer gerichteten/ungerichteten Hypothese die Prüfgröße bestimmt? Wann sind die Ergebnisse signifikant?
Gerichtet: U-Wert der H1 angenommen (mittlere Rangüberschreitung größer bzw. kleiner)
Unterrichtet: Minimum der U werte beider Gruppe
Sig -> Vergleich U(emp)< U(krit)
Was ist ein T-test und welche Voraussetzungen (5) müssen erfüllt sein?
Ziel: Mittelwertunterschiede der AV
- UV=Nominal, AV=metrisch
- unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
- AV Normalverteilt
- n > 30
- Varianzhomogenität (Levene-test nicht sig)
Was ist mit Varianzzerlegung gemeint?
Zerlegung der Gesamtvarianz in erklärte (between) und nicht erklärte (innerhalb) Streuung.
Was ist eine Einfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein?
Erweiterung des T-Test (gleicher Voraussetzungen)
- UV=Nominal, AV=metrisch
- unabhängige UV/Stichproben (nicht in beiden Gruppen vorhanden)
- AV Normalverteilt
- n > 30
- Varianzhomogenität (Levene-test nicht sig)
Grundgedanke: Wie viel Varianz wird durch UV aufgeklärt!
-> eingesetzt bei mehr Gruppen
Was ist eine mehrfaktorielle ANOVA und welche Voraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an
Ziel: Die mehrfaktorielle Varianzanalyse testet, ob sich die Mittelwerte mehrerer unabhängiger Gruppen (oder Stichproben) unterscheiden.
Voraussetzung:
- mehrere unabhängige Variable
- Jedes Versuchsobjekt genau einer Merkmalskombi zugeordnet
- Merkmalskombi logisch
vgl. Voraussetzungen T-test
Y= X1 * b1 + X2 * b2 + c b= Effekte c=Ausgangsbedingung
Überprüfung von Wechselwirkungen!
Stelle eine Hypothese auf für einen T-Test, einfaktorielle ANOVA und mehrfaktorielle ANOVA!
T-Test: Die durchschnittliche Kaufwsk zwischen 2 Altersgruppen unterscheidet sich.
E ANOVA: Die durchschnittliche Kaufwskt zwischen 3 Altersgruppen unterhscheidet sich.
M ANOVA: Die durchschnittliche Kaufwsk zwischen 3 Altersgruppen unterscheidet sich, außerdem beeinflusst das Geschlecht/ gutes Wetter die Kaufwsk. positiv.
Was ist eine Regressionsanalyse und welche Vorraussetzungen müssen erfüllt sein? Gib die geschätzte Gleichung an
Untersucht zusammenhänge einer oder mehrere UV mit der AV!
Mithilfe der Kleines Quadrate Methode
UV= Regressor
AV=Regressant
Voraussetzung:
- UV, AV metrisch
- linearer Zusammenhang
- Normalverteilt
- N>30
Y = b0 + X1*b1 + E
b0= Steigung b1 = Beta-Koeffizient
Was ist das Bestimmheitsmaß?
R2= Verhältnis Erklärte Streuung durch Gerade zu Gesamtstreuung
Was ist der F-Test?
Anpassungsgüte einer Regressionsfunktion:
F-Wert > 1, umso größer umso besser bildet Stichprobe Grundgesamtheit ab
Was ist der Unterschied zwischen nicht standardisierten Koeffizienten B und standardisierten Koeffizienten β bei einer Regressionsanalyse?
nicht standardisiert : Beta-Koeffizient Ermöglicht inhaltliche Interpretation (größter B hat höchsten Einfluss) > Wenn x um eine Einheit stieigt, steigt y um xy Einheiten
standardisierte Beta: z-Standartisiert und ermöglicht Vergleichbarkeit , höchster, größten Einfluss
-> Semipartielle Korrelation: Varianzanteil von X in Y an (Einfluss Drittvariable aus Prädiktor rausgerechnet)
Was ist die Produkt Moment Korrelation und die Partielle Korrelation?
Produkt Moment Korrelation: X,Y Variable nicht bereinigt (Varianzanteil überschätzt bzw. Multikollineraität)
Partielle Korrelation: Varianzanteil der Drittvariable rausgerechnet aus x und y)
Was ist das korrigierte R2?
R2 steigt automatisch mit der Anzahl der UV, korrigiertes R2 rechnet den Effekt raus!
Was ist der Unterschied zwischen Multikollinearität und dem Supressoreffekt?
Multikollinearität: Korrelation zwischen UVs (Prädiktoren), Beta-Koeffizienten überschätzt!
Supressoreffekt: Beta-Koeffizienten unterschätzt
Welche verschiedenen Analyseansätze gibt es bei der Regression?
- Einschlussverfahren (Simultane Schätzung der Regressionskoeffizienten)
- Hierarchische Regression (Prädiktoren werden nacheinander aufgenommen)
- Merkmalsselektion (Prädiktoren werden aufgenommen und entfernt)
Wie kann Multikollinearität an einem SPSS Output ausgeschlossen werden?
VIF < 10
Toleranz > 0,1
Wie wird der Moderatoreffekt getestet?
Mithilfe einer Regression, indem ein Interkationsterm berechnet wird.
-> Erhöht sich die erklärte Varianz durch den Interaktionsterm, kann ein Moderartionseffekt vorhanden sein!
Ablauf:
- z-standartisierung der Prädiktoren
- Berechnung Interaktionsterm (Produkt der UVs)
- Testung Effekt
- Grafische Interpretation
Wie wird der Mediatoreffekt getestet?
Ablauf:
- Nachweis Zusammenhang UV -> AV
- Nachweis UV -> Mediator (a)
- Nachweis Mediator -> AV (b)
- Nachweis Reduktion UV -> AV (partielle o. absolute Mediation)
a*b = c-c’
Bootstrap geht auch (schätzt c’ auf 95% Konfidenzintervall)
Was sind Ziele Explorative Faktoranalyse? (4)
- Gruppen über Variablen bilden (Reduktion Datenmenge - wenige Faktoren beinhalten Infos)
- Suche nach Konstrukten (welche manifesten Variablen bilden latente Faktoren ab)
- Hypothesen Generierung
- Anwendung: Fragebogenkonstruktion
Welche Voraussetzungen benötigt eine Explorative Faktoranaylse?
- Intervallskalenniveau bzw. metrische Variablen
- Unabhängigkeit der Daten (orthogonalität)
- Ein Objekt darf nicht mehrmals getestet werden (Vorher-Nachher-Korrelationen sind ausgeschlossen)
- große und möglichst repräsentative Stichprobe
Wie ist der Ablauf einer Faktoranalyse?
- Datenerhebung (Erstellung Ausgangsmatrix - Zuordnungs Probanden und Ergebnisse)
- z-Standartisierung
- Erstellung Interkorrelationsmatrix (wie korrelieren Ergebnisse untereinander)
- Erste Rotation (Hauptkomponenten-Analyse)
Ziel: Informationsumverteilung 1. Faktor meiste Infos, 2. zweit meiste - Ladungsmatrix: Output Eigenwerte (Aufklärung Varianz der Variablen für Faktor) und Kommunalitäten Aufklärung über alle Faktoren für eine Variable)
- Faktorextraktion
- Zweite Rotation: VariMax (Variablen laden nur auf einen Faktor hoch)
- Interpretation
Was sind Kommunalitäten und Eigenwerte?
Kommunalitäten: Anteil der Varianz einer Variable die durch alle Faktoren insgesamt abgebildet werden kann ( 1= alle Infos enthalten, Faktor bildet perfekt ab)
Eigenwerte: Anteil der Varianzaufklärung aller Variablen durch einen Faktor
Welche Bedingungen müssen während der Rotation erfüllt sein?
- Prinzip der Orthogonalität (Faktoren unabhängig)
2. Prinzip der suzessiven Varianzerhöhung
Nach welchen Kriterien wird die Faktorextraktion vorgenommen?
Wesentliche Faktoren, alle die mehr als Ursprungsvarianz erklären!
Kaiser- Eigenwert-Kriterium: Eigenwerte > 1
Scree-Test: Grafisches Verfahren (alle links Wendepunkt werden verwendet)
Wann ist eine Faktorladung hoch bzw. niedrig?
hohe Faktorladung > 0.5
kleine Faktorladung < 0.3
Was ist eine Clusteranalyse?
Ziel: Erfahrung zur Bildung von Gruppen z.B. Kundensegmentierung
Grundprinzip: Distanz in der Gruppe minimieren und untereinander maximieren (keine Anforderungen an Skalenniveau)
Wie ist der Ablauf einer Clusteranalyse?
- Bestimmung Proximitätsmaß (Distanz/Ähnlichkeit bestimmen)
- Auswahl Fusionierungsalgorithmus (Zusammenfassen der ähnlichen Objekte zu Gruppen)
Welche Metrischen Distanzmaße gibt es? Erkläre eins davon ausführlich
City Block Metrik: Betrag der Unterschiede zwischen zwei Objekten aufsummieren
Euklidische Distanz: Quartierte Differenzen aufsummieren und Wurzel ziehen
Quadrierte Euklidische Distanz Quadrierte Differenzen aufsummieren
Was für ein Ähnlichkeitsmaß gib es und was gibt es an?
Q-Korrelationskoeffizient: Ähnlichkeit bezieht sich hier auf die „Struktur“ der Ähnlichkeit zweier Objekte über die Merkmale
Welche Fusionierungsalgortihmen gibt es, nenne Vor- und Nachteile!
Single Linkage bzw. Nearest Neighbour:
D = Minimum (D(PR), D(QR))
Nachteil: Diese Methode neigt zur Kettenbildung
Vorteil: Ausreißer werden sichtbar
Average Linkage:
D = Mittelwert (D(PR),D (QR))
Nachteil: Ausreißer werden nicht so schnell erkannt
Vorteil: Keine Kettenbildung und Generierung (vieler kleiner) homogenerer Cluster
WARD-Verfahren:
Streuung der Abstände in der Gruppe minimieren. Bildet ungefähr gleich große Gruppen
Nachteil: Voraussetzung ist Verwendung der quadratischen euklidischen Distanz
-> Empfehlung erst Single Linkage (Ausreißer eliminieren und dann Ward)
Was ist der Post-hoc Test?
Die Post-hoc-Tests geben mit paarweisen Mittelwertvergleichen Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden.
Grenze die Clusternanalyse von der Faktorenanalyse ab, welche Unterschiede gibt es.? (3)
Die CA legt kein Modell über das Zustandekommen der Daten zugrunde.
Die CA stellt außer der Einheitlichkeit der verwendeten Skalen (ggf. Standardisierung)
keine weiteren Voraussetzungen.
Die CA liefert keine unabhängigen Gruppen.
Was ist eine Verteilungsfunktion ?
Die Verteilungsfunktion gibt an, mit welcher Wahrscheinlichkeit das Ergebnis des Zufallsexperiments kleiner oder gleich eines bestimmten Wertes ist.
Erkläre wann eine Ordinale, Disordinale oder Semi-Ordinate Wechselwirkung vorlegt bei einer ANOVA?
ordinal: Keine Wechselwirkung, aber zwei Haupteffekt
disordinal: Eine Wechselwirkung, aber keine Haupteffekt
semi-ordinal: Eine Wechselwirkung, aber nur einen Haupteffekt