Deskriptive Datenanalyse I Flashcards
Deskriptive Statistik vs. Inferenzstatistik
Deskriptive Statistik: Beschreibt, bereitet auf und fasst Daten zusammen mithilfe von Kennwerten, Tabellen und Abbildungen.
Inferenzstatistik: Verallgemeinert Kennwerte und Analyseergebnisse auf die Population.
Wichtige Kennwerte in psychologischen Studien
Anteile/Häufigkeiten
Lagemaße: Modus, Median, Mittelwert
Streuungsmaße: Spannweite, Interquartilsabstand, Varianz, Standardabweichung
Unterschiede
Zusammenhänge
Anteile und Häufigkeiten
Skalenniveau: Bestimmt das Datenformat und die mathematische Verwertbarkeit.
Nominalskalenniveau: Ermöglicht Bestimmung von Anteilen und Häufigkeiten.
Darstellung: Kreisdiagramm, Häufigkeitsdiagramm.
Verteilung von Daten
Verteilung: Daten verteilen sich auf die möglichen Ausprägungen einer Variable.
Information: Verteilung liefert wertvolle Informationen über die Variabilität von Merkmalen.
Darstellung: Häufigkeitsverteilungen zeigen Werte einzelner Personen.
Lagemaße - Übersicht
Zentrale Tendenz: Daten konzentrieren sich bei bestimmten Ausprägungen.
Lagemaße: Modus, Median, Mittelwert.
Bedeutung: Bestimmen die “Lage” einer Verteilung auf der Achse der Merkmalsausprägungen.
Modus (Modalwert)
Definition: Die Merkmalsausprägung, die am häufigsten vorkommt.
Skalenniveau: Sinnvoll ab Nominalskalenniveau.
Anwendung: Nützlich bei der Analyse von Nominaldaten.
Median
Definition: Die Merkmalsausprägung, die in der Mitte der Verteilung liegt.
Skalenniveau: Sinnvoll ab Intervallskalenniveau.
Vorteil: Robuster gegenüber schiefen Verteilungen.
Berechnung des Medians
1.Werte der Größe nach sortieren.
2.Median ist der mittlere Wert.
3.Liegt die Mitte zwischen zwei Werten, ist der Median der Mittelwert dieser beiden.
Formel: Tiefe (Median) = (N+1):2.
Mittelwert (Arithmetisches Mittel)
Definition: Die mathematische Mitte der Verteilung.
Berechnung: Summe aller Einzelwerte, geteilt durch die Anzahl der Werte.
Skalenniveau: Sinnvoll ab Intervallskalenniveau.
Vorteil: Exakteste Angabe der Lage einer Verteilung.
Anfälligkeit des Mittelwerts
Anfällig für: Ausreißer und schiefe Verteilungen.
Alternative: Der Median kann robuster und manchmal sinnvoller sein.
Der Sinn der Lagemaße
Ziel: Zusammenfassung von Verteilungen, repräsentieren die zentrale Tendenz.
Fokus: Mittelwert wird oft für weitere Berechnungen (z.B. Gruppenunterschiede) genutzt.
Streuungsmaße - Übersicht
Wichtiger Hinweis: Traue keinem Lagemaß ohne Streuungsmaß!
Skalenniveau: Streuungsmaße sind sinnvoll ab Intervallskalenniveau.
Arten: Spannweite, Interquartilsabstand, Varianz, Standardabweichung.
Spannweite (Range)
Definition: Differenz zwischen dem kleinsten und dem größten Wert.
Berechnung: Range = x(max) - x(min).
Anwendung: Gibt die Gesamtstreuung der Werte an.
Interquartilsabstand (IQA)
Definition: Differenz zwischen dem 75%- und dem 25%-Quartil.
Berechnung: IQA = Q(75%) - Q(25%).
Vorteil: Lässt Ausreißer unberücksichtigt, wird oft zusammen mit dem Median angegeben.
Berechnung des Interquartilsabstands
1.Werte der Größe nach sortieren.
2.Zahlenreihe in vier gleich große Abschnitte teilen (Quartile).
3.Der IQA ergibt sich aus den Werten bei 25% und 75%.
Varianz (s²)
Definition: Durchschnittliche quadrierte Abweichung aller Werte vom Mittelwert.
Formel:
Vorteil: Liefert die exakteste Angabe über die Streuung der Daten.
Standardabweichung (s)
Definition: Wurzel der Varianz, gibt die Streuung in den Rohwerten an.
Formel:
Abkürzungen: s oder SD (Standard Deviation).
Darstellung: Übliche Darstellung von Lage- und Streuungsmaßen: M = … (SD = …).
Kennwerte vs. Parameter
Kennwerte: Angaben über Stichprobendaten, werden mit lateinischen Buchstaben dargestellt.
Parameter: Angaben über Populationswerte, werden mit griechischen Buchstaben dargestellt.
Darstellung: Beide werden immer kursiv geschrieben.
Streuungsmaße über die Population
Hinweis: Streuungsmaße aus Stichproben sind oft keine guten Schätzungen für die Population.
Schätzung: Populations-Schätzung wird mit griechischen Buchstaben dargestellt, manchmal mit einem Dach über dem Symbol (z.B. ).
Texte und Tabellen
Fließtext: Wenige deskriptive Daten lassen sich gut im Fließtext beschreiben.
Tabellen: Übersichtlichere Darstellung bei mehr Daten, Angabe von Lage- und Streuungsmaßen.
Formatierung: In Manuskripten werden Tabellen nach APA-Richtlinien formatiert.
Modus - Anwendung
Anwendung: Häufig genutzt bei Nominaldaten, z.B. häufigster Studiengang unter Studierenden.
Begrenzung: Liefert keine Information über Verteilung oder Streuung der Daten.
Vorteil: Einfach zu berechnen und zu interpretieren.
Median - Robuste Eigenschaft
Eigenschaft: Robust gegenüber extremen Werten und Ausreißern.
Beispiel: Median des Einkommens in einer Gruppe, wo es extreme Einkommen gibt.
Bedeutung: Liefert einen guten zentralen Wert, auch bei schiefen Verteilungen.
Mittelwert - Sensitivität gegenüber Ausreißern
Nachteil: Sensitiv gegenüber extremen Werten, die den Mittelwert verzerren können.
Beispiel: Ein extrem hohes Einkommen kann den Durchschnittseinkommen stark beeinflussen.
Alternative: Nutzung des Medians, wenn Ausreißer vorhanden sind.
Varianz - Bedeutung
Bedeutung: Zeigt, wie stark die Werte um den Mittelwert streuen.
Anwendung: Grundlage für viele weitere statistische Berechnungen, z.B. Standardabweichung, Kovarianz.
Begrenzung: Aufgrund der Quadrierung schwer zu interpretieren, daher wird oft die Standardabweichung verwendet.
Standardabweichung - Bedeutung
Bedeutung: Zeigt die durchschnittliche Abweichung der Werte vom Mittelwert in der gleichen Einheit wie die Daten selbst.
Interpretation: Geringe Standardabweichung deutet auf enge Streuung um den Mittelwert hin, hohe Standardabweichung auf eine breite Streuung.
Anwendung: Häufig verwendet in Berichten und Forschungsergebnissen zur Beschreibung der Variabilität.
Interpretation von Lage- und Streuungsmaßen
Zusammenhang: Lage- und Streuungsmaße ergänzen sich und geben gemeinsam ein vollständiges Bild der Datenverteilung.
Beispiel: Ein hoher Mittelwert mit einer hohen Standardabweichung zeigt, dass es große Unterschiede zwischen den Werten gibt.
Wichtig: Für eine aussagekräftige Datenanalyse sollten immer beide Maße betrachtet werden.
Zusammenhang von Skalenniveau und Analyse
Skalenniveau: Bestimmt, welche Arten von Kennwerten und Analysen sinnvoll sind.
Beispiele:
Nominalskala: Modus, Häufigkeiten.
Ordinalskala: Median, Interquartilsabstand.
Intervallskala: Mittelwert, Standardabweichung.
Bedeutung: Falsche Anwendung von Kennwerten kann zu fehlerhaften Interpretationen führen.
Wie findet man die Quartile?
- für das untere (25%) Quartil geht man von unten in die Datenreihe
- für das obere (75%) Quartil geht man von oben in die Datenreihe
Beispiele:
- bei 11 Werten: Tiefe des Medians war 6 Tiefe der Quartile ist 3,5 das untere Quartil ist der Mittelwert aus 3. und 4. Wert von unten; das obere Quartil ist der Mittelwert aus 3. und 4. Wert von oben
- bei 10 Werten: Tiefe des Medians war 5,5 Tiefe der Quartile ist 3 das untere Quartil ist der 3. Wert von unten; das obere Quartil ist der 3. Wert von oben