Sitzung 6: Eindimensionale Häugkeitsverteilungen und Maßzahlen Flashcards
Das Skalenniveau gibt an, wie viel …….. in einer Variable steckt.
Informationsgehalt
A) Jedes statistische Verfahren erfordert ein bestimmtes …………
B) Je höher das Skalenniveau eines Merkmals ist, umso mehr ……………. Stehen zur Verfügung.
A) Skalenniveau
B) statistische Verfahren
Eindimensional
Univariat
Was ist ein Beispiel, wie man nominalskalierte Merkmale darstellen kann?
Strichliste
Was ist der erste Schritt der quanitativen Datenanalyse?
Das Auszählen der Untersuchungsfälle in den Rohdaten
Wann spricht man von eindimensionalen (univariaten) Häufigkeitsverteilungen?
Wenn nur ein Merkmal betrachtet wird
Was bedeutet kumuliert?
= AUFADDIERT In der Statistik bedeutet “kumuliert” die Summierung oder Anhäufung von Werten über einen bestimmten Zeitraum oder eine bestimmte Anzahl von Ereignissen. Kumulierte Daten zeigen die Gesamtsumme oder den kumulierten Effekt an, indem sie kontinuierlich die vorherigen Werte aufaddieren. Dies kann beispielsweise bei kumulierten Häufigkeiten oder kumulierten Prozenten der Fall sein, wenn man schrittweise Daten akkumuliert, um den Gesamteffekt zu veranschaulichen.
Was ist der Unterschied von relativer und absoluter Wahrscheinlichkeit?
absolute Wahrscheinlichkeit = konkrete Zahlen
relative Wahrscheinlichkeit = das Verhältnis von Wahrscheinlichkeiten zweier Ereignisse darstellt.
Was gibt * an?
Dass es sich um klassierte Daten handelt
Was ist ein Histogramm?
Ein Histogramm ist eine grafische Darstellung der Verteilung von Daten. Es zeigt die Häufigkeit oder Anzahl von Datenpunkten in bestimmten Intervallen, die als Bins bezeichnet werden.
Histogramme werden oft verwendet, um die Verteilung von Daten zu visualisieren, um Muster, Trends oder Ausreißer leichter zu erkennen. Sie sind besonders nützlich bei kontinuierlichen Daten, wie beispielsweise Altersgruppen oder Einkommensklassen.
Was wird in der Regel zur Konstruktion von Histogrammen verwendet?
Konstante Klassenbreiten
- Klassenanzahl sollte nicht zu groß (unübersichtlich) aber auch nicht zu klein (Informationsverlust - z.B. Einkommen von 0-10000€ in einer Klasse) sein
Daumenregel für die Anzahl an Klassen K = Wurzel aus n
Wann sind unterschiedliche Klassenbreiten sinnvoll?
Unterschiedliche Klassenbreiten sind sinnvoll, sofern die Daten sehr stark variieren und dadurch keine sinnvolle feste Klassenbreiten gefunden werden kann.
Was sind Stem-and-leaf Diagramme?
Ein Stem-and-Leaf Diagramm (Stängel-und-Blatt-Diagramm) ist eine Methode der Datenvisualisierung, die insbesondere für kleinere Datensätze verwendet wird. Es ist eine einfache Möglichkeit, die Verteilung und die einzelnen Datenpunkte darzustellen. Hier ist, wie es funktioniert:
-
Stämme (Stems):
- Die ersten Ziffern der Daten bilden die Stämme. Zum Beispiel, wenn deine Daten zwischen 12 und 45 liegen, sind die Stämme 1, 2, 3, und 4.
-
Blätter:
- Die letzten Ziffern der Daten bilden die Blätter. Diese werden neben den entsprechenden Stämmen platziert.
-
Anordnung:
- Du ordnest die Blätter in aufsteigender Reihenfolge neben ihren jeweiligen Stämmen an.
Ein Beispiel:
Stamm: 2 Blätter: 4 5 7 Stamm: 3 Blätter: 1 4 7 Stamm: 4 Blätter: 0 3 5
Dies repräsentiert Daten wie 24, 25, 27, 31, 34, 37, 40, 43, 45.
Stem-and-Leaf Diagramme sind besonders nützlich, um schnell einen Eindruck von der Verteilung der Daten zu bekommen und gleichzeitig die genauen Werte zu sehen.
Was ist ein Vorteil von Stem and Leaf Diagrammen?
Genaue Information steht im Diagramm und wir können die Information gleichzeitig anhand einer Kurve vergleichen.
Was beschrieben Maßzahlen?
Bestimmte Eigenschaften der Daten durch eine Zahl
Was sind Arten von Maßzahlen?
- Verhältniszahlen
- Indexzahlen
- Verteilungszahlen
Was ermöglichen Maßzahlen?
- eine Reduzierung der Komplexität des Datenmaterials
- einen schnelleren Überblick über die Daten
- den einfachen Vergleich mit anderen Verteilungen
Was ist der Modus bei diskreten Daten?
Merkmalswert, für den die relative Häufigkeit ihr Maximum annimmt. (Häufigster Wert)
Was sit der Modus bei stetigen Merkmalen?
Die Klasse mit der größten Häufigkeitsdichte heißt modale Klasse, ihre Klassenmitte definiert man als Modalwert.
Was ist der Median?
Der Median ist der Wert, oberhalb und unterhalb dessen je 50 % der Merkmalswerte liegen.
Ab wann ist das geometrische Mittel berechenbar?
Ab Verhältnisskalenniveau
Wozu wird das geometrische Mittel unter anderem verwendet?
Zur Berechnung von Wachstumsraten
Mittelwerte
- Modus
- Median
- arithmetisches Mittel
- Geometrisches Mittel
Mittelwerte im Vergleich
Modus:
- anschaulich, einfach zu vermitteln
- nicht durch Extremwerte beeinflusst
- schlechtes Maß für die zentrale Tendenz bei sehr schiefen Verteilungen
Median:
- robust gegenüber Ausreißern
- für schiefe Verteilungen recht gut geeignet
Arithmetisches Mittel:
- empfindlich gegenüber Ausreißern
- Verteilung sollte möglichst symmetrisch sein
- Basis für einen Großteil der schließenden Statistik
Geometrisches Mittel:
- robust gegenüber Ausreißern und schiefen Verteilungen
- vergleichsweise komplexe Interpretation = selten verwendet