Grundbegriffe Deskriptive Statistik Flashcards
Statistische Einheit
Objekte, an denen interessierende Größen erfasst werden
Grundgesamtheit
Zusammenfassung/ Menge aller für eine statistische Analyse relevanten statistischen Einheiten
Stichprobe
Tatsächlich untersuchte Teilmenge der Grundgesamtheit
Bestandsmasse
Werden zu einem bestimmten Zeitpunkt erfasst
Bewegungsmasse
Wird innerhalb einer gewissen Zeitspanne erfasst
Fortschreibung
Zusammenhang zwischen Bestands- und Bewegungsmassen, Fortbeschreibungsformel: Anfangsbestand + Zugang - Abgang = Endbestand
Vollerhebung
Gesamte Grundgesamtheit wird zur Untersuchung herangezogen
Teilerhebung
Ein Teil der Grundgesamtheit wird zur Untersuchung herangezogen
Merkmal/ Variable
„Messbare“ Eigenschaft der zur Untersuchenden Stichprobe, kann unendlich viele unterschiedliche Ausprägungen annehmen
Merkmalsträger
Statistische Einheit, die auf ein Merkmal untersucht wird
Merkmalsausprägung / Realisierung
Konkreter Wert des Merkmals für eine bestimmte statistische Einheit
Diskretes Merkmal
- nimmt abzählbar endlich viele oder abzählbar unendlich viele Realisierungen an
- abzählbar, auch ohne Obergrenze
- verbale Ausdrücke (Farben)
- kann in einem angegebenen Intervall sehr viele Merkmalsausprägungen annehmen, sodass es wie ein stetiges Merkmal behandelt wird
Stetiges Merkmal
- nimmt (theoretisch) alle reellen Zahlen in einem Intervall als Realisierung an
- es gibt überabzählbar unendlich viele Realisierungen
- Zeit-, Mengen- oder Längeneinheiten (Körpergröße, Alter)
- Häufig wie diskrete betrachtet (es reichen geringe Angaben wie 1,8 statt 1,823…)
Gruppierte/ klassierte/ kategorisierte Daten
Variablen mit vielen Ausprägungen werden häufig gruppiert, Zusammenfassen der Messwerte zu Messwertklassen (zur Übersichtlichkeit zB)
Skalierungsniveaus
- nominal: gleich/ ungleich (Namen, keine Ordnung möglich)
- ordinal: gleich/ ungleich; Rangordnung
- metrisch: gleich/ ungleich; Rangordnung; Abstand
Intervallskala
- Ausprägungen sind Zahlen, Interpretation der Abstände möglich
- Nullpunkt willkürlich festgelegt
- nur Addition/ Differenz sinnvoll
- Bsp Temperatur, Jahreszahlen
Verhältnisskala
- absolut natürlicher ind sinnvoller Nullpunkt
- Addition, Differenz, Division und Multiplikation sinnvoll
- Bsp Menschenalter, Blutdruck, Prozent
Qualitativ
Endlich viele Ausprägungen, höchstens Ordinalskala
Quantitativ
Ausprägungen geben Intensität wieder
Urliste
Gibt (ungeordnete) Merkmalsausprägungen wieder
Häufigkeitsverteilung
Man gibt an, mit welcher Häufigkeit ein Merkmal auftritt
Absolute Häufigkeit
Absolute Anzahl der Merkmalsausprägungen von Grundgesamtheit n, Auszählen (4 von 24), h(xi)
Relative Häufigkeit
Anteil der Merkmalsausprägungen von Grundgesamtheit 100%, f(xi)
Univariate/ eindimensionale Daten
Daten, die aus Beobachtungen eines einzelnen Merkmals bestehen
Multivariate/ mehrdimensionale Daten
Daten, die aus Beobachtungen mehrerer Merkmale gleichzeitig bestehen
Stabdiagramm
Zur x-Achse senkrechte Striche (Stäbe) mit der Höhe der Häufigkeit
Säulendiagramm
Wie Stabdiagramm, aber mit Rechtecken statt Strichen
Balkendiagramm
Wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x-Achse
Kreisdiagramm
Flächen der Kreissektoren proportional zu den Häufigkeiten; Winkel des Kreissektors 360°
Stamm-Blatt-Diagramm
- für metrische Merkmale
- definierter Stamm = vertikale Liste geordneter Zahlen, in der jede Zahl die erste Ziffer von Werten in den zugehörigen Klassen enthält
- Blätter = gerundete Nachkomma-Stellen der zugehörigen Klassenwerte des Stammes
Histogramm
- Gruppierung der Daten zu Klassen
- Säulen liegen direkt nebeneinander, jede reelle Zahl ist eine mögliche Realisierung
- folgt dem Prinzip der Flächentreue, d.h. Die dargestellten Flächen sind direkt proportional zu den absoluten bzw. relativen Häufigkeiten
Unimodale Verteilung
Verteilung weißt genau einen Gipfel im Diagramm auf, von dem aus die Häufigkeiten flacher oder steiler zu den Randbereichen hin verlaufen (eingipfelig)
Bimodale Verteilung
Verteilung weißt genau zwei deutliche Gipfel im Diagramm auf, von denen aus die Häufigkeiten flacher oder steiler zu den Randbereichen hin verlaufen (zweigipfelig)
Multimodale Verteilung
Verteilung weißt mehrere Gipfel im Diagramm auf, von denen aus die Häufigkeiten flacher oder steiler zu den Randbereichen hin verlaufen (mehrgipfelig)
Häufigkeitsdichte
- berechnete Höhe einer Histogramm-Säule (Säulenfläche muss proportional zur Häufigkeit sein)
- Aufgrund unterschiedlicher Klassenbreite muss die Höhe neu berechnet werden
- flächentreu: Höhe = Fläche/ Breite
Konzentration
Häufung irgendwelcher Daten; wie sich sich eine Gesamtsumme eines Merkmals auf einzelne Merkmalsträger aufteilt
Lorenzkurve
- Optisch lineare Kurve zu betrachtetem, Verhältnis skaliert geordnetem Merkmal
- Gibt für den Anteil der Merkmalsträger (mit den kleinsten Beobachtungswerten an, welcher Anteil der Merkmalssumme auf ihn fällt
Gini Koeffizient
Gibt den Grad der Ungleichheit einer Häufigkeitsverteilung an, die aus der Lorenzkurve abgeleitet wird
Flächentreue
Die relative Häufigkeit wird nicht durch die Länge der Säulen wiedergegeben, sondern durch die Fläche (Höhe = Fläche * Breite)
Statistische Kennzahlen
Dienen zum Vergleich/ bei Bestandsanalysen …
Arithmetisches Mittel
Durchschnitt(-swert)
-> Summe aller Realisierungen dividiert durch die Gesamtheit aller Realisierungen
lineare Transformation des arithmetischen Mittels
das arithmetische Mittel Wildblumen einem vorgegebenen Faktor verändert (von Celsius zu Fahrenheit)
Median
diejenige Realisierung xmed, die in der Mitte der in eine Reihenfolge gebrachte Einzelauswertung steht (ordinalskalierte Daten)
Streuung eines Merkmals
Abweichung der Realisierungen vom arithmetischen Mittel
Spannweite
zeigt Abstand zwischen grösstem und kleinstem Merkmal
Quantile
Zeigen auf einfache Art die Verteilung der Daten (z.B. Median ist 0,5 Quantil, unteres/ oberes Quartil)
Varianz
Mass für die Streuung einer Verteilung um ihren Mittelwert
Standardabweichung
gibt an, wie weit im Durchschnitt die einzelnen Werte vom Mittelwert abweichen; kann nicht negativ werden