Statistik Flashcards
Welchen %-Wert hat der Bereich unter der Normalverteilung?
68,27%
Wie groß ist die Fläche unter der Normalverteilung?
1
Wie wird aus einer Normalverteilung eine Standardnormalverteilung
z-Transformation
Formel: 𝑧𝑖 = 𝑥𝑖 − 𝑥̅ / 𝑠𝑥
Merkmalsträger/
Statistische Einheiten
Objekte (meist Personen), an denen die interessierende Größe erfasst wird
Grundgesamtheit / Population
Menge aller für die Fragestellung relevanten Merkmalsträger
Stichprobe
untersuchte Teilmenge der Grundgesamtheit
Merkmal
hypothetisches/latentes Konstrukt
interessierende Größe
Variable
Operationalisierungen
manifeste Indikatoren
Fragebogen
Test
Interview
Merkmalsausprägung
konkreter Wert des Merkmals
Messen
Zuordnung von Zahlen zu Objekten auf Basis ihrer Merkmalsausprägungen
z.B. Körpergröße in cm;
Reaktionszeit in ms
Intelligenz in IQ
Skalentypen
Nominal
Ordinal
Intervall
Verhältnis
Absolut
-Skala
Formel für lineare Funktion
y = a*x+b
= Gerade im Koordinatensystem
wobei
y = vorhergesagter Wert
a= Steigung
b = y-Achsenabschnitt
Die Per-fiat Messung
fiat= lat = Es möge sein!
in psych. Forschungspraxis wird meist auf Überprüfung des Skalenniveaus verzichtet
es wird darauf vertraut, dass die geeignete Skala gewählt wurde
Rechtfertigungen: erfolgreiche Anwendung (IQ)
wenn Verteilungserwartung an die Daten erfüllt wird = all correct
wenn Verteilung abweicht - Skala ggf. falsch
Was versteht man unter einer Variablen?
Merkmale, die versch. Werte annehmen können (=Merkmalsausprägungen/Stufen)
Unabhängige Variable (UV)
vermutete Einflussgröße, die variiert/manipuliert wird um den Einfluss auf die abhängige Variable (AV) zu messen
auch: Treatment, Behandlung, Maßnahme
bsp. EG und KG - EG bekommt Kaffee; KG nicht -> Einfluss auf Konzentrationsleistung gemessen
Abhängige Variable (AV) auch Reaktionsvariable
Variable deren Veränderung infolge des Einflusses der UV gemessen wird
= Wirkung, die von der UV ABHÄNGT
(bsp. Konzentrationsleistung durch den Kaffee)
Das Summenzeichen
großes Sigma (griech. S)
der Index i heißt Summations/Laufindex
Der Wert über dem S zeigt die Anzahl der zu rechnenden Werte an
Häufigkeitsverteilungen
Arten von Häufigkeiten (6)
f = absolute Häufigkeit, mit der ein Wert auftritt
h = relative Häufigkeit (Anzahl Werte (f) geteilt durch Gesamtanzahl (n))
f% = prozentuale Häufigkeit - rel. Häufigkeit 100 (f/n100)
f kum= kumulierte absolute Häufigkeit = bis zum betrachteten Wert (einschließlich) aufsummierten absoluten Häufigkeiten
h kum= kumulierte relative Häufigkeit = bis zum betrachteten Wert (einschließlich) aufsummierten relative Häufigkeiten
f% kum = kumulierte prozentuale Häufigkeit = bis zum betrachteten Wert (einschließlich) aufsummierten prozentualen Häufigkeiten
100 * fkum/n = Prozentrang
Histogramm
Das Wesentliche ist, dass die Flächen
der Säulen den relativen Häufigkeiten entsprechen.
Statistische Kennwerte
Maßzahlen - kurz: Statistiken
Funktion: in zsmgefasster (aggregiert) Form Auskunft über Eigenschaften von Verteilungen geben
Was machen Lagemaße (auch Maße der zentralen Tendenz)?
repräsentieren die Lage einer Reihe von Messwerten
Streuungsmaße (auch Variabilitätsmaße)
geben Auskunft über die Verschiedenheit (einer Reihe) von Messwerten
Arten von Lagemaßen (3)
Modus (häufigster Wert)
Median (Wert genau in der Mitte; aufsteigend sortiert 50%)
arithmet. Mittel bzw. Mittelwert (Summe durch Anzahl aller Messwerte)
Arten von Streuungsmaßen (3)
Spannweite (auch Variationsbreite; Range)
= Differenz zw. Maximum & Minimum
Varianz (= Summe der quadrierten Abweichungen der Messwerte vom Mittelwert geteilt durch die Anzahl der Messwerte)
Bezeichnung: S²
Standardabweichung auch Streuung:
=Wurzel aus der Varianz = S
z-Transformationen
= lineare Transformation, mit der jede Verteilung in eine Verteilung mit MW 0 und Standardabweichung 1 überführt wird
ermöglicht relativen Vergleich von Variablenausprägungen, da Unterschiede im MW und Streuung “wegrelativiert” werden
(Bsp. von zwei Testergebnissen in zwei Fächern der PISA-Studie)
Korrelation
gibt die Richtung & Stärke eines linearen Zusammenhangs zweier Variablen an
Kovarianz
gibt nur Auskunft über die Richtung des Zusammenhangs (nicht der Stärke) von zwei Variablen (müssen dieselben Einheiten haben)
nicht-standardisierte Kennzahl - geringe Vergleichbarkeit
𝑐𝑜𝑣(𝑥,𝑦) = Σ(𝑥𝑖 − 𝑥̅) ∙ (𝑦𝑖 − 𝑦̅) / n
Bedeutung positives/negatives Vorzeichen der Kovarianz
positiv: wenn x steigt, steigt auch y und andersrum
negativ: wenn x steigt sinkt y
maximaler Wert ist Sx * Sy
(Bsp. Entfernung Arbeitsweg & Dauer)
Kovarianz in Korrelationskoeffizienten (= Korrelation)
𝑟(𝑥,𝑦) = 𝑐𝑜𝑣(𝑥,𝑦) / 𝑠𝑥 ∙ 𝑠𝑦
–> Bravais- Pearson oder Produkt-Moment-Korrelation
-zur Standardisierung der Kovarianz
-kann Werte zwischen -1 & +1 annehmen
Interpretation des Korrelationskoeffizienten (r-Wert)
-1 = perfekt negativer linearer Zusammenhang (oben links nach unten rechts)
+1 = perfekt positiver linearer Zusammenhang
(unten links nach oben rechts)
0 = kein Zusammenhang (Punktewolke)
Korrelation und Kausalität
eine Korrelation sagt nichts über die Ursache des Zusammenhangs aus, nur über Stärke (Wert) und Richtung (positives/negatives Vorzeichen)
Lineare Regression (= bivariate Regression zw. zwei intervallskalierten VAR)
- regressieren = von y auf x “zurückgehen”
durch Var X Var Y vorhersagen (wenn Zusammenhang besteht) - durch einfache lin. Reg keine Aussage über Kausalität möglich
-Vorhersagevariable = unabhängige Variable = Prädiktorvariable
vorherzusagende Variable = abhängige Variable = Kriteriumsvariable
Regressionsgleichung
𝑦̂𝑖 = 𝑎 + 𝑏 ∙ 𝑥𝑖
𝑦̂𝑖: vorhergesagter Wert
a: Schnittpunkt der Geraden mit der y-Achse
b: Steigung der Geraden
Ziel: Bestimmung einer Geraden, die den Gesamttrend aller Punkte am besten widergibt
Bei der linearen Regression wird die Gleichung
gesucht, für die die Summe der quadrierten Abweichungen
zwischen vorhergesagten und tatsächlichen Werten minimal
ist (Kriterium der kleinsten Quadrate):
Kriterium der kleinsten Quadrate
minimale Summe der quadrierten Abweichungen zw. vorhergesagten und tatschlichen Werten
zur Aufstellung der Geradengleichung
Regressionsresiduen
Abweichungen der beobachteten Werte von den vorhergesagten Werten
enthalten Anteile der AV, die durch die UV nicht erfasst wurden
Zerlegung der Kriteriumsvarianz
Varianz des Kriteriums (der AV)
Die Varianz der y-Werte setzt sich additiv aus der Varianz
der vorhergesagten 𝑦̂-Werte und der Varianz der Residuen
𝑦∗ zusammen also aus vorhersagbarem & unbekanntem:
𝑠𝑦² = 𝑠𝑦̂² + 𝑠𝑦∗²
Determinationskoeffizient
Varianzanteil der abhängigen Variablen, der mit der unabhängigen
vorhergesagt bzw. erklärt werden kann:
r² (x,y) = s²𝑦̂ / s²y
5 Grundgesamtheit / Population
bezeichnet die Menge aller
Elemente bzw. statistischen Einheiten (Personen, Objekte),
über die Aussagen getroffen werden sollen.
Stichprobe
bezeichnet eine nach einer bestimmten Auswahlmethode
gewonnene Teilmenge der Grundgesamtheit.
Inferenz
bedeutet, von einer Stichprobe mittels wahrscheinlichkeitstheoretisch
begründeter Methoden auf eine Grundgesamtheit
rückzuschließen.
Methoden sind: Schätzen & Testen von Parametern & Verteilungen
Bedingung: Daten aus Zufallsstichprobe
Zufallsstichproben
für Rückschluss von SP auf GG muss GG klar definiert sein
+ jedes Element hat die gleiche Auswahlwahrscheinlichkeit
Auswahltechniken für Zufallsstichproben
- Würfeln
- Direktes Auslosen (Losziehung)
- Indirektes Auslosen (Durchnummerierung, Zufallsziffern)
Gelegenheitsstichprobe
in der Psychologischen Praxis selten Zufallsstichproben (5%)
stattdessen Gelegenheitsstichprobe (z.B. über Aushänge)
damit ist Rückschluss auf GG ausgeschlossen
Rechtfertigung der klassischen Inferenz:
- psych. Var lassen sich auf individueller Ebene als Zufallsvariablen betrachten
- eine zufällige Zuteilung der Vpn in Experimenten erfolgt
geht nicht um stat. Rückschluss sondern Prüfung von Hypothesen
Repräsentativität
wenn SP Abbild der GG ist (möglich in erfassten Merkmalen wie Alter, Geschlecht, Einkommen etc.)
Kriterien:
Zufallsstichprobe
Genauigkeit der Schätzung (Varianz)
Was sind Kennwerte und Parameter?
Populationsparameter = unbekannte Kennwerte der Population, die mit Stichprobenkennwerten (Punktschätzern) geschätzt werden
Stichprobenkennwerte = Zufallsvariablen (Lateinischer Buchstabe)
Parameter = feste Werte von Populationsverteilungen (Griechischer Buchstabe)
Stichprobenkennwerte und dazugehörige Populationsparameter
Anteilswert
h / 𝜋 (pi)
Mittelwert
𝑥̅ / 𝜇 (my)
Varianz
s² / 𝜎² (Sigma)
Streuung
s / 𝜎 (Sigma)
Korrelation
r / 𝜌 (Rho)