Statistik I Flashcards
Welche Rolle spielt die Statistik in der Psychologie
- Gehört zu den Grundlagen der Psychologie
- Ermöglicht Erforschung beobachtbaren Verhaltens
- Dient zur Feststellung ob beobachtete Daten einen Zusammenhang haben, ob Fehlschlüsse vorliegen
- Bestimmung von Wahrscheinlichkeiten
- Schließung von Teilmenge auf Gesamtmenge
Unterschied Population und Stichprobe
- Population ist die Gesamtheit aller statistischen Einheiten auf die sich die Fragestellung der Untersuchung richtet
- Population ist aber meist zu groß, und dementsprechend gesamte Untersuchung zu Aufwendig
- Daher zieht man Stichproben der Population, die möglichst genau sein sollen
-Stichprobenarten: einfache-, geschichtete-Stichproben und convenience sampling
Abgrenzung deskriptive- / Inferenzstatistik
- deskriptive Statistik dient zur Beschreibung von einzelnen oder mehreren Datensätzen, auch Variablen genannt, die Ausprägungen / Beobachtungen bzw. Werte besitzen, die dann in Tabellen / Grafiken zusammengefasst werden können
- Wichtige Statistiken sind z.B. Maße der zentralen Tendenz oder Streuung
- deskriptiv: univariat (ein Merkmal) oder bivariat (mindestens zwei Merkmale)
- Zusammengefasste Variablen können mit Hilfe der Inferenzstatistik von der Stichprobe auf die Population übertragen werden
- So kann man Wahrscheinlichkeiten von Parametern bestimmen / schätzen und so aufgestellte Hypothesen testen
- So kann von kleinen Gruppen (z.B. Labor) auf Population geschlossen werden
Warum ist die Bestimmung des Skalenniveaus von Bedeutung?
- Teilt die Variable anhand ihres Informationsgehalts ein
- Bildet die Basis für die Auswahl der statistischen Verfahren, mit denen die erhobenen Daten ausgewertet werden
- je höher der Informationsgehalt, desto mehr Transformationen sind erlaubt, aber desto höher ist Aussagekraft
Nominalskala
-R-I-O-N
- niedrigster Informationsgehalt
- unterschiedliche Werte repräsentieren Kategorien, die nicht sinnvoll in eine Reihe gebracht werden können (keine sinnvolle Rangfolge)
- Zuordnung von Zahlen, Symbolen, Figuren, etc. zu den Werten
- kein absoluter Nullpunkt
- qualitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - nein
Differenzen bilden - nein
Quotienten bilden - nein
Psychologisch:
Geschlecht, Temperament, Konstitution
- Beispiele:
- Geschlecht
- Studienfach
- Wohnort
- Augenfarbe
- etc.
Ordinalskala
-R-I-O-N
- dritthöchster Informationsgehalt
- Bildung von Rangfolgen, die sinnvoll interpretiert werden können
- keine Bildung von sinnvollen Abständen möglich
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - nein
Quotienten bilden - nein
Psychologisch:
Noten, Arbeitszufriedenheit, Noten
- Beispiele:
- Umfragen Arbeitszufriedenheit:
- Sehr zufrieden
- Zufrieden
- Mittelmäßig
- Unzufrieden
- Sehr Unzufrieden
Intervallskala
-R-I-O-N
- zweit höchster Informationsgehalt
- Bildung von Rangfolgen
- Konstante Abstände
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - nein
Psychologisch:
IQ, Punkte Pisa-Studie
- Beispiele:
- kein natürlicher Nullpunkt
- IQ
- Temperatur
- “heute ist es wärmer als gestern”
- zwischen 5°C und 20°C gleicher Abstand wie zwischen 30°C und 45°C
Ratioskala
-R-I-O-N
- höchster Informationsgehalt
- Bildung von Rangfolgen
- konstante Abstände
- natürlicher Nullpunkt
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - ja
Psychologisch:
Alter, Körpergröße, Gewicht
- Beispiele:
- wie Intervallskala, nur mit Nullpunkt
- Alter
- Geschwindigkeit
- Preis
- Größe
- Zeit
- Gewicht
qualitativ
qualitative Variablen besitzen unterschiedliche Ausprägungen, die verschiedene Eigenschaften der Variablen charakterisieren, sich jedoch nicht hinsichtlich qualitativer Aspekte wie z.B. der Intensität unterscheiden lassen
- nicht in Zahlen ausdrückbar
- Nominalskalierte Variablen sind immer qualitativ
- z.B. Studienfach, Geschlecht
- Frage: Was hat ihnen am besten gefallen?
quantitativ
quantitative Variablen besitzen unterschiedliche Ausprägungen, die eine unterschiedliche Intensität eines Merkmals reflektieren
-in Zahlen ausdrückbar
- mindestens Ordinalskalenniveau
- Frage: Wie gut würden Sie das Produkt einschätzen (1-6)
diskret
bei diskreten Variablen kann die Menge der Ausprägung durch natürlich endlich Abzählbare Zahlen repräsentiert werden
-z.B. Augenzahl beim Würfeln, Anzahl Personen in einer Gruppe
stetig
- die Menge der Ausprägungen ist nicht abzählbar
- zwischen zwei Werten können unendlich viele andere Werte liegen (Intervalldenkweise)
- z.B. Körpergröße, Länge, Temperatur, etc.
Maße der Zentralen Tendenz und Skalenniveaus
Arithmetisches Mittel (y-quer):
- Mittelwert für Metrische Variablen
- empfindlich gegenüber Ausreißern
Median (y med):
- mittlerer Wert der geordneten Urliste
- robust gegenüber Ausreißern
- mindestens Ordinalskalenniveau
- n gerade -> aufrunden
Modalwert / Modus (y mod):
- am häufigsten vorkommender Wert
- Hochpunkt der Verteilung
- mindestens Nominalskalenniveau
Lageregeln
-Schiefe von Verteilungen metrischer Variablen empfindlich gegenüber Ausreißern
y mod > y med > y quer = linksschief / rechtsteil
y mod < y med < y quer = rechtsschief / linkssteil
y mod ca. y med ca. y quer = ungefähr symmetrisch
Standardisierung IQ-Wert
100 + 15z
-> z = (IQ-100) / 15
Standardisierung Z-Wert
100 + 10z
-> z = (Z-100) / 10
Standardisierung T-Wert
50 + 10z
-> z = (T-50) / 10
Standardisierung Stanine-Wert
5 + 2z
-> z = (Stanine-5) / 2
Standardisierung PISA
500 + 10z
-> z = (PISA-500) / 100
Standardisierung Abiturnotenskala
8 + 3z
-> z = (ABI-8) / 3
Standardisierung Schulnote
3 + z
-> z = (NOTE-3) / 1
Standardisierung
- Ziel: Angabe der relativen Lage von Messwerten in einer Verteilung
- wenn in Beziehung gesetzt, erkennt man unter- / überdurchschnittliche Ergebnisse zur Referenzgruppe
-z Standardisierungen geben die Abweichung eines Wertes vom Mittelwert in der Einheit Standardabweichung an
z i = y i / s y - y quer / s y
- mindestens Intervallskalenniveau
- Mittelwert: z y = 0
- Varianz: z s² = 1
- Standardabweichung z s = 1
- erhöht Informationsgehalt
- > durch Standardisierung verlieren Messwerte ihre ursprünglichen (unterschiedlichen) Messeinheiten und erhalten einheitliche Messeinheiten: Standardabweichung
Nominalskaliert:
polytom
dichotom - natürlich / künstliche
polytom:
-mehr als 2 Ausprägungen (Familienstand: Ledig, Verheiratet, Verwitwet)
dichotom:
-genau 2 Ausprägungen (Geschlecht: Mann, Frau)
dichotom natürlich:
-von Natur aus 2 Ausprägungen (Geschlecht: Mann, Frau, Schwangerschaft: ja / nein)
dichotom künstlich:
-Bezug von Intervallskalierter Variable zu Grenzwert:
(Leute über 40 Jahre = 1 / Leute unter 40 Jahre = 0)
Wertebereich der t-Verteilung
- Bis + unendlich, da symmetrische Funktion
Kovarianz
-beschreibt ein nicht normiertes Maß für Richtung und Stärke des Zusammenhangs zweier Variablen (x und y)
bei 0 = kein linearer Zusammenhang
Varianz
- Streuung der Messwerte einer metrischen Variablen
- (Summe quadrierter Abweichungen - (Anzahl x Mittelwert²)) x 1/Anzahl-1
- verliert Einheit
Variation
- Streuung der Messwerte einer metrischen Variablen
- SS (Summe quadrierter Abstände)
- Behält Einheit bei
Erklären Tau-b
- Zusammenhangsmaß für Ordinalskalierte Variablen
- Rangbindungen in den einzelnen Variablen werden berücksichtigt
- bei ungleicher Anzahl an Ausprägungen der Variablen kann Tau-b nicht -1/1 annehmen
Erklären Tau-c
- Zusammenhangsmaß für Ordinalskalierte Variablen
- Differenz der Konkordanten und Diskonkordanten C/D in Beziehung gesetzt
- bei mehr als 10 Paaren n>10 -> etwa normalverteilt
Standardschätzfehler
-positive Wurzel aus der Schätzfehlervarianz
Standardabweichung
- positive Wurzel aus der Varianz
- Entgegen der Varianz entspricht sie der Einheit, anhand derer die Variable gemessen wurde
Spezifität
- Anzahl der positiven Testausgänge, die auch korrekt sind
- (Kranke, die auch wirklich krank sind)
Sensitivität
- Anzahl der negativen Testausgänge, die auch korrekt sind
- (Gesunde, die auch wirklich gesund sind)
Was ist die lineare Regression?
- Beschreibt Zusammenhang zwischen Kriterium (AV) und Prädiktor (UV)
- einfache lineare Regression: nur eine AV durch UV -> wird durch Regressionsgerade dargestellt
- multiple lineare Regression: mehrere AV durch UV vorhergesagt -> Regressionsebene
Erklärte Varianz
- Kriteriumsvariable (AV) besteht aus 2 Teilen:
- den durch UV vorhergesagten Teil (erklärte Variation)
- den durch UV nicht erklärten Teil (nicht erklärte Variation)
-um Güte der Prognose zu bestimmen wird die erklärte Variation ins Verhältnis zu Gesamtvariation gesetzt
(Gesamtvariation = erklärte + nicht erklärte Variation)
Relevante aufsummierte und quadrierte Abweichungen:
- Abweichung eines beobachten Messwerts vom Mittelwert: Gesamtvariation
- Abweichung eines vorhergesagten Wertes vom Mittelwert: erklärte Variation
- Abweichung des beobachteten Werts zum Mittelwert: nicht erklärte Variation
Einfluss einer Beobachtung
- Einflussreiche Beobachtungen sind Beobachtungen, die in besonderem Ausmaß die Schätzer der linearen Regression beeinflussen und somit die Regressionsgerade verschieben
- trifft vor allem bei Hebelpunkten zu
- sind meist Ausreißer, aber nicht immer
Kohens K (Kappa)
- Übereinstimmungsmaß, das zeigt wie gut 2 Urteile übereinstimmen / abweichen
- berücksichtigt Anteil zufällig übereinstimmender Urteile
- wird verwendet um zu prüfen ob Klassifikationsschemata, Ratingskalen hinreichend objektiv sind
- Voraussetzung ist symmetrische Häufigkeitstabelle
- Zwei Beurteiler sollen unter Zuhilfenahme gegebener Kriterien zum gleichen Ergebnis kommen -> Kappa gibt an wie gut Urteile übereinstimmen
Beispiel: 2 Gutachter diagnostizieren psychische Krankheiten
Beispiel: Bei Assesment Center sollen Beobachter einschätzen ob Bewerber z.B. Blickkontakt gehalten hat
K= -1 Übereinstimmungen kleiner als unter Zufallsbildung erwartete Zahl K= 0 Beobachtungen = Anzahl zufälliger Urteile K= 1 Beobachtungen größer als Zufälle
Korrelation
- Pearson-Produkt-Moment-Korrelation
- LINEARES Zusammenhangsmaß zwischen 2 Variablen
- nur ab Intervallskala
- je höher x, desto höher/niedriger y (-1;1)
- je höher Maß ausfällt, desto häufiger treten Variablen zusammen auf
- 0,1 schwach 0,3 mittel 0,5 stark
- Nullkorrelation bedeutet nicht KEIN ZUSAMMENHANG, nur kein linearer!
- sagt nichts über Zusammenhang aus! (A->B, B->A, C->A/B, A // B)
Platykurtische Verteilung
- weißt eine geringere Wölbung auf als eine Normalverteilung mit gleicher Varianz
- negative Kurtosis (Wölbung)
Odds Ratio
- Verhältnis von Chancen / Odds von zwei Gruppen
- z.b Verhöltnis P(erkrankt | risiko) zu P(erkrankt | kein risiko) ist
Leptokurtische Verteilung
- weißt eine größere Wölbung auf als eine Normalverteilung mit gleicher Varianz
- positive Kurtosis (Wölbung)
Konkordanz / Diskonkordanz
- bei zwei Wertepaaren
- Konkordanz liegt vor wenn xi > xj und yi > yj (und andersrum xj und yi < yj (und andersrum >)
Homoskedastizität
Fehlervarianzen einer Ausprägung für UV sind gleich
Hebelpunkte
Beobachtungen, die von vornherein potenziell einflussreiche Beobachtungen darstellen
Geschichtete Zufallsstichprobe
Population wird in Schichten eingeteilt und daraus werden Stichproben gezogen (Schüler in Bundesländern)
einfache Stichprobe
aus Population werden willkürlich Stichproben gezogen (alle gleiche Wahrscheinlichkeit)
Quotenstichprobe
Personen werden anhand speziellen Merkmals ausgesucht, sodass sie ein Abbild der Population ergeben (% Leute = Anteil Population)