Sitzung 6: Eindimensionale Häugkeitsverteilungen und Maßzahlen Flashcards
Das Skalenniveau gibt an, wie viel …….. in einer Variable steckt.
Informationsgehalt
A) Jedes statistische Verfahren erfordert ein bestimmtes …………
B) Je höher das Skalenniveau eines Merkmals ist, umso mehr ……………. Stehen zur Verfügung.
A) Skalenniveau
B) statistische Verfahren
Eindimensional
Univariat
Was ist ein Beispiel, wie man nominalskalierte Merkmale darstellen kann?
Strichliste
Was ist der erste Schritt der quanitativen Datenanalyse?
Das Auszählen der Untersuchungsfälle in den Rohdaten
Wann spricht man von eindimensionalen (univariaten) Häufigkeitsverteilungen?
Wenn nur ein Merkmal betrachtet wird
Was bedeutet kumuliert?
= AUFADDIERT In der Statistik bedeutet “kumuliert” die Summierung oder Anhäufung von Werten über einen bestimmten Zeitraum oder eine bestimmte Anzahl von Ereignissen. Kumulierte Daten zeigen die Gesamtsumme oder den kumulierten Effekt an, indem sie kontinuierlich die vorherigen Werte aufaddieren. Dies kann beispielsweise bei kumulierten Häufigkeiten oder kumulierten Prozenten der Fall sein, wenn man schrittweise Daten akkumuliert, um den Gesamteffekt zu veranschaulichen.
Was ist der Unterschied von relativer und absoluter Wahrscheinlichkeit?
absolute Wahrscheinlichkeit = konkrete Zahlen
relative Wahrscheinlichkeit = das Verhältnis von Wahrscheinlichkeiten zweier Ereignisse darstellt.
Was gibt * an?
Dass es sich um klassierte Daten handelt
Was ist ein Histogramm?
Ein Histogramm ist eine grafische Darstellung der Verteilung von Daten. Es zeigt die Häufigkeit oder Anzahl von Datenpunkten in bestimmten Intervallen, die als Bins bezeichnet werden.
Histogramme werden oft verwendet, um die Verteilung von Daten zu visualisieren, um Muster, Trends oder Ausreißer leichter zu erkennen. Sie sind besonders nützlich bei kontinuierlichen Daten, wie beispielsweise Altersgruppen oder Einkommensklassen.
Was wird in der Regel zur Konstruktion von Histogrammen verwendet?
Konstante Klassenbreiten
- Klassenanzahl sollte nicht zu groß (unübersichtlich) aber auch nicht zu klein (Informationsverlust - z.B. Einkommen von 0-10000€ in einer Klasse) sein
Daumenregel für die Anzahl an Klassen K = Wurzel aus n
Wann sind unterschiedliche Klassenbreiten sinnvoll?
Unterschiedliche Klassenbreiten sind sinnvoll, sofern die Daten sehr stark variieren und dadurch keine sinnvolle feste Klassenbreiten gefunden werden kann.
Was sind Stem-and-leaf Diagramme?
Ein Stem-and-Leaf Diagramm (Stängel-und-Blatt-Diagramm) ist eine Methode der Datenvisualisierung, die insbesondere für kleinere Datensätze verwendet wird. Es ist eine einfache Möglichkeit, die Verteilung und die einzelnen Datenpunkte darzustellen. Hier ist, wie es funktioniert:
-
Stämme (Stems):
- Die ersten Ziffern der Daten bilden die Stämme. Zum Beispiel, wenn deine Daten zwischen 12 und 45 liegen, sind die Stämme 1, 2, 3, und 4.
-
Blätter:
- Die letzten Ziffern der Daten bilden die Blätter. Diese werden neben den entsprechenden Stämmen platziert.
-
Anordnung:
- Du ordnest die Blätter in aufsteigender Reihenfolge neben ihren jeweiligen Stämmen an.
Ein Beispiel:
~~~
Stamm: 2
Blätter: 4 5 7
Stamm: 3
Blätter: 1 4 7
Stamm: 4
Blätter: 0 3 5
~~~
Dies repräsentiert Daten wie 24, 25, 27, 31, 34, 37, 40, 43, 45.
Stem-and-Leaf Diagramme sind besonders nützlich, um schnell einen Eindruck von der Verteilung der Daten zu bekommen und gleichzeitig die genauen Werte zu sehen.
Was ist ein Vorteil von Stem and Leaf Diagrammen?
Genaue Information steht im Diagramm und wir können die Information gleichzeitig anhand einer Kurve vergleichen.
Was beschrieben Maßzahlen?
Bestimmte Eigenschaften der Daten durch eine Zahl
Was sind Arten von Maßzahlen?
- Verhältniszahlen
- Indexzahlen
- Verteilungszahlen
Was ermöglichen Maßzahlen?
- eine Reduzierung der Komplexität des Datenmaterials
- einen schnelleren Überblick über die Daten
- den einfachen Vergleich mit anderen Verteilungen
Was ist der Modus bei diskreten Daten?
Merkmalswert, für den die relative Häufigkeit ihr Maximum annimmt. (Häufigster Wert)
Was sit der Modus bei stetigen Merkmalen?
Die Klasse mit der größten Häufigkeitsdichte heißt modale Klasse, ihre Klassenmitte definiert man als Modalwert.
Was ist der Median?
Der Median ist der Wert, oberhalb und unterhalb dessen je 50 % der Merkmalswerte liegen.
Ab wann ist das geometrische Mittel berechenbar?
Ab Verhältnisskalenniveau
Wozu wird das geometrische Mittel unter anderem verwendet?
Zur Berechnung von Wachstumsraten
Mittelwerte
- Modus
- Median
- arithmetisches Mittel
- Geometrisches Mittel
Mittelwerte im Vergleich
Modus:
- anschaulich, einfach zu vermitteln
- nicht durch Extremwerte beeinflusst
- schlechtes Maß für die zentrale Tendenz bei sehr schiefen Verteilungen
Median:
- robust gegenüber Ausreißern
- für schiefe Verteilungen recht gut geeignet
Arithmetisches Mittel:
- empfindlich gegenüber Ausreißern
- Verteilung sollte möglichst symmetrisch sein
- Basis für einen Großteil der schließenden Statistik
Geometrisches Mittel:
- robust gegenüber Ausreißern und schiefen Verteilungen
- vergleichsweise komplexe Interpretation = selten verwendet
Was ist der Unterschied von Modus, Median und arithmetischen Mittel?
- Modus:
Der Modus ist der Wert, der in einem Datensatz am häufigsten vorkommt. Ein Datensatz kann mehrere Modi haben (bimodal, trimodal usw.) oder keinen Modus, wenn alle Werte einzigartig sind.- Median:
Der Median ist der mittlere Wert in einem sortierten Datensatz. Wenn die Anzahl der Werte ungerade ist, ist der Median der Wert in der Mitte. Bei einer geraden Anzahl wird der Median durch Durchschnitt der beiden mittleren Werte berechnet. - Arithmetisches Mittel:
Das arithmetische Mittel, auch Durchschnitt genannt, wird berechnet, indem man die Summe aller Werte durch die Anzahl der Werte teilt. Es ist die gebräuchlichste Form des Durchschnitts.
- Median:
Streuungsmaße
(auch Dispersions- oder Verteilungsmaße) geben an, ob die Merkmalswerte einer Verteilung eng beieinander liegen oder weit über die Skala verteilt sind.
Was ist die Spannweite
Die Differenz zwischen dem größten und dem kleinsten Merkmalswert
Ab wann sind Quantile berechenbar?
Ab Ordinalskalenniveau
Was ist der Quartilabstand?
QA (interquartile range)
Differenz zwischen dem dritten und dem ersten Quartal
QA = Q3-Q1
Was ist eine weitere Möglichkeit, Verteilungen darzustellen?
Boxplot
Vorteile Boxplot
- Besonders geeignet zum Vergleich der Verteilung von Werten in Gruppen.
- Lage des Medians innerhalb der Box indiziert Symmetrie bzw. Asymmetrie der Verteilung.
Wie kann man Schiefe und Wölbung berechnen?
Über zentrale Momente
Wann werden Messzahlen verwendet?
Um Vergleiche im Zeitverlauf durchzuführen
Interpretation alpha (Schiefe/Wölbung)
Alpha = 0 - symmetrisch
Alpha = + - rechtsschief
Alpha = - - linksschief
Variationskoeffizient Interpretation
Die Streuung beträgt …% des arithmetischen Mittels.
Was brauche ich alles für einen Boxplot?
- Q1, Q3
- Median
- größter und kleinster Wert
Was mache ich wenn es keinen Modus gibt?
Klassen breite bestimmen, gucken wo mehr Merkmalsträger sind, modale Klasse bestimmen
Berechnung Wachstumsfaktoren
(Aktueller Wert - Alter Wert) / alter Wert