statistik Flashcards
Die statistischen Einheiten müssen
sachlich, räumlich und
zeitlich voneinander abgegrenzt werden und somit eindeutig
identifizierbar sein.
Als Merkmal wird eine
Eigenschaft einer statistischen Einheit
bezeichnet, die in der statistischen Analyse betrachtet wird.
Die Werte oder Kategorien, die ein Merkmal annehmen kann,
werden als
Merkmalsausprägungen bezeichnet.
Eine an einer bestimmten statistischen Einheit festgestellte
Merkmalsausprägung wird .
Merkmalswert oder Beobachtungswert genannt
Eine Nominalskala unterscheidet Merkmale nur nach
Gleichheit oder Verschiedenheit. Es existiert keine Rangordnung.
Eine Ordinal- oder Rangskala liegt vor, wenn
die Merkmalswerte neben der qualitativen Unterschiedlichkeit eine natürliche
Rangordnung besitzen.
Besitzt ein Merkmal die Eigenschaften eines ordinalen Merkmals
und ist zusätzlich noch die Interpretation der Abstände zweier verschiedener Merkmalsausprägungen möglich, so
kann das
Merkmal auf einer metrischen Skala (Kardinalskala) gemessen werden.
Ein Merkmal heißt diskret, wenn
es nur endlich viele oder höchstens diskrete
abzählbar unendlich viele Ausprägungen besitzt (nominal skalierte Merkmale
Merkmale; Merkmale, deren Wert durch Zählen bestimmt wird).
Nominal- und ordinalskalierte Merkmale sind stets diskret.
Dagegen heißt ein metrisches Merkmal stetig (kontinuierlich), wenn
stetige
es überabzählbar viele Ausprägungen hat, d.h. wenigstens in einem Merkmale
bestimmten Bereich können unendlich viele Werte angenommen werden.
Z.B. wird das Merkmal Einkommen als stetiges Merkmal behandelt, da
es in Berechnungen mit vielen Nachkommastellen eingeht und somit
überabzählbar viele Ausprägungen vorliegen können. Die tatsächliche
Angabe erfolgt dagegen meistens nur mit zwei Nachkommastellen.
Ebenso kann das Merkmal Wohnfläche auf viele Nachkommastellen
gemessen werden, wobei oft nur ganze m2 angegeben werden.
Eine Skalentransformation kann als
Abbildung von einer
Menge Merkmalsausprägungen in eine anderere Menge Merkmalsäusprägungen angesehen werden. Dabei ist zu beachten,
dass die Ordnungseigenschaften der Skala erhalten bleiben.
Je nach Skalenniveau sind verschiedene Transformationen zulässig, d.h.
durch die Transformation darf keine Information verloren gehen.
Bei einer eineindeutigen Skalentransformation, wird
jedem
Wert der alten Skala genau ein Wert der neuen Skala (und umgekehrt) zugeordnet.
Eine monotone Skalentransformation liegt vor, wenn
die
Rangordnung der Skalenwerte erhalten bleibt.
Lineare Skalentransformationen nutzen
lineare Funktionen
der Form y = a+bx, wobei das Verhältnis der Abstände zwischen
den Skalenwerten erhalten bleibt.
Die Klassierung von Merkmalsausprägungen stellt eine
Zusammenfassung benachbarter Merkmalsausprägungen zu einer
Klasse dar, wobei die vorgegebene Ordnung erhalten bleibt. Dabei sollten disjunkte Klassen mit möglichst gleicher Breite (Ausnahme: Randklassen) ausgewählt werden.
Für diskrete Merkmale gilt als Faustregel, dass bei Vorliegen von n Merkmalswerten die Anzahl der Klassen √
n betragen soll. Die Gesamtzahl der
Klassen sollte aufgrund der Übersichtlichkeit die Zahl 20 nicht überschreiten. Eine Klasse wird mittels der
Klassengrenzen, der Klassenbreite
und der Klassenmitte eindeutig festgelegt.
Als offene Randklasse wird die
erste oder letzte der geordneten
Klassen bezeichnet, wenn keine untere bzw. obere Klassengrenze
vorhanden ist.
Liegt eine statistische Reihe vor, deren Beobachtungen aus nur einem
Merkmal bestehen, so wird eine eindimensionale (univariate) Häufigkeitsverteilung aufgestellt.
mehrdimensionale
Häufigkeitsvtlg.
Eine mehrdimensionale (multivariate) Häufigkeitsverteilung
ergibt sich, wenn
mehrere Merkmale gleichzeitig betrachtet werden.
Ein Stab- bzw. Säulendiagramm veranschaulicht
bei Vorliegen
einer horizontalen Achse eine höhenproportionale Darstellung der
Häufigkeiten mittels Stäben bzw. Säulen.
Balkendiagramme besitzen eine vertikale Achse mit waagerecht
aufgetragenen Balken (längenproportionale Darstellung).
bei Vorliegen
einer horizontalen Achse eine höhenproportionale Darstellung der
Häufigkeiten mittels Stäben bzw. Säulen.
Balkendiagramme besitzen eine
vertikale Achse mit waagerecht
aufgetragenen Balken (längenproportionale Darstellung).
Ein Liniendiagramm/Kurvendiagramm ist eine
grafische Darstellung von Messzahlen oder Indexzahlen in einem Koordinatensystem durch Kurven bzw. geradlinig verbundene Punkte.
Ein Histogramm ist eine
grafische Darstellung der Häufigkeiten eines klassierten, quantitativen Merkmals durch rechteckige Flächen
über den Klassen in einem Koordinatensystem. Es ist zu beachten,
dass die einzelnen Rechtecke des Histogramms unmittelbar aneinander schließen und nicht wie beim Säulendiagramm getrennt sind.
Wird eine Nominalskala vorausgesetzt, bei der keine natürliche oder Nominalskala
vorgegebene Ordnung vorliegt, bieten sich
Flächendiagramme in Form
eines Kreisdiagramms an. Hierbei lässt sich am besten illustrieren, wie
die Gesamtzahl auf die einzelnen Ausprägungen aufgeteilt ist. Auch
Säulen-, Stab- und Balkendiagramme sind geeignete Darstellungsmöglichkeiten
Liegt eine Ordinalskala vor, wird in der Regel auf
Säulen-, Stab- und Ordinalskala
Balkendiagramme zurückgegriffen, wobei auch hier Flächendiagramme
sinnvoll verwendet werden können.
Die Summenhäufigkeit einer Merkmalsausprägung oder einer
oberen Klassengrenze eines wenigstens ordinal messbaren Merkmals ist
die zugeordnete Häufigkeit aller Beobachtungswerte, die
diese Merkmalsausprägung bzw. diese Klassengrenze nicht überschreiten.
summenhäufigkeit bsp
Lagemaße (Mittelwerte) geben die
zentrale Tendenz einer Beobachtungsreihe mittels einer einzigen charakteristischen Größe
wieder, welche die beobachteten Merkmalswerte möglichst gut
repräsentieren soll.
Der Modalwert xmod einer Häufigkeitsverteilung ist jene Merkmalsausprägung, die
am häufigsten vorkommt. Es gilt somit
h(xmod) = max
j
h(xj ) (Maximum über alle xj ).
Der Median xmed zerlegt eine geordnete Reihe von Beobachtungswerten x(1), x(2), …, x(n)
in zwei gleiche Teile, so
dass
unterhalb und oberhalb des Medians gleich viele Beobachtungswerte liegen.
n ungerade: xmed = x(
n+1/
2
)
Eine weitere wichtige Eigenschaft des Medians ist
seine Robustheit
gegenüber Ausreißern, d.h. der Median reagiert nicht auf Veränderungen
der Werte, die am Rande der Verteilung liegen.
Der Median entspricht dem sogenannten 0.5-Quantil x0.5, dem Wert der
Beobachtungsreihe bis zu dem 50% der Beobachtungen liegen. Allgemein
wird als p-Quantil xp(0 < p < 1) der Wert xi der geordneten Reihe p-Quantil
x(1), …, x(n) bezeichnet bis zu dem p% der Beobachtungen liegen.
Bei vielen ordinalskalierten Merkmalen
wie z.B. beim Rating von Fonds kann kein Durchschnittswert gebildet
werden. Weitere Quantile, die einen speziellen Namen tragen, sind die
Dezile 0.1-, 0.2-, … bzw. 0.9-Quantile x0.1, x0.2, …, x0.9, die auch als Dezile
bezeichnet werden, und zwar als 10%-Dezil, 20%-Dezil,…,90%-Dezil,
welche häufig mit 1.Dezil, 2.Dezil, …, 9.Dezil abgekürzt werden. Der
untere/obere Median entspricht somit
dem 50%-Dezil. Zu erwähnen sind weiter das
Quartil untere Quartil x0.25 und das obere Quartil x0.75.
ungewogene
arithmetische
Mittel
gewogene
geometrische
Mittel
Die Spannweite w ist als
Die empirische Varianz s˜
2
ist die
Der Variationskoeffizient v ist eine relative Größe, welche
Standardisierung
von Daten
Kurtosis
Die Häufigkeitstabelle zweier metrischer oder ordinalskalierter
Merkmale wird auch
Korrelationstabelle genannt.
Die Verteilung nur eines Merkmals einer zweidimensionalen Häufigkeitsverteilung, wobei das andere Merkmal unberücksichtigt
bleibt, heißt
Randverteilung oder marginale Verteilung.
Die Kovarianz Cov(X, Y ) der gemeinsamen Verteilung der
quantitativen Merkmale X und Y ist ein Maß für die
gemeinsame
Streuung der beiden Merkmale. Das Vorzeichen der Kovarianz
gibt die Richtung des vorliegenden Zusammenhangs an.
Kontingenz bezeichnet den
Zusammenhang zwischen qualitativen Merkmalen und von Korrelation wird bei einem Zusammenhang zwischen quantitativen bzw. mindestens ordinalskalierten Merkmalen gesprochen.
Zusammenhang zwischen qualitativen Merkmalen und von Korrelation wird bei einem
Zusammenhang zwischen quantitativen bzw. mindestens ordinalskalierten Merkmalen gesprochen.
Formal nach Bravais
Rangkorrelationseffizient
Mit den tatsächlich beobachteten absoluten Häufigkeiten hjk und den sich bei Unabhängigkeit ergebenden absoluten Häufigkeiten wird die Hilfsgröße
χ
2
(Chi-Quadrat) berechnet.
Kontingenzkoeffizient
Kontingenzkoeffizient Beispiel
Invarianzeigenschaft
Werden in einer Kontingenztabelle Zeilen bzw. Spalten miteinander vertauscht, so ändert sich der Kontingenzkoeffizient
nicht.
Der Begriff Regression bezeichnet die Untersuchung der
Abhängigkeit der Veränderungen eines quantitativen Merkmals von
Änderungen eines anderen quantitativen Merkmals (=einfache
Regression) oder von Änderungen mehrerer quantitativer Merkmale (=mehrfache Regression).
Zur Beschreibung dieser Abhängigkeit wird die Regressionsfunktion verwendet.
(Kriterium der KleinstenQuadrate)
Die Koeffizienten der Regressionsfunktion werden so bestimmt, dass die Summe der quadrierten Abweichungen
der Beobachtungswerte yi von den Regressionsfunktionswerten f(xi) ein Minimum wird
Die Koeffizienten a und b heißen auch Regressionskoeffizienten:
Die Koeffizienten a und b heißen auch Regressionskoeffizienten: Beispiel
Punktschätzung:
Eine Punktschätzung entspricht der Angabe eines einzelnen Wertes für
den zu schätzenden Parameter.
Intervallschätzung
Abweichungen eines Punktschätzers vom wahren Wert sind in der
Regel unvermeidlich. Daher wird eine Punktschätzung oft durch eine
Intervallschätzung ergänzt. Dabei wird ein Intervall bestimmt, das den
wahren, unbekannten Wert des Parameters mit einer vorgegebenen
Wahrscheinlichkeit überdeckt.
Der sich für bestimmte Stichprobenwerte x1, x2, …, xn ergebende Wert
Schätzwert, der Schätzfunktion g(x1, …, xn) = t heißt
Schätzwert oder PunktPunktschätzung schätzung, d.h. ˆθ = t.
Schätzfunktionen sind durch bestimmte Eigenschaften charakterisiert,
die Auskunft darüber geben, wie gut Schätzfunktionen für bestimmte
Zwecke geeignet sind. Behandelt werden an dieser Stelle drei wichtige
Eigenschaften, nämlich die
Erwartungstreue, die Effizienz und die
Konsistenz
Eine Schätzfunktion T des Parameters θ heißt erwartungstreu oder unverzerrt (engl.: „unbiased“), wenn die
Beziehung
E(T) = θ gilt, d.h. der Erwartungswert der Zufallsvariablen T
entspricht dem wahren Wert des zu schätzenden Parameters
Um eine erwartungstreue Schätzfunktion für die Varianz der Grundgesamtheit zu erhalten, wird die Stichprobenvarianz wie folgt definiert
(Beweis s. Aufgabe 1 zu Kapitel 1):
Eine erwartungstreue Schätzfunktion T für den Parameter
θ einer Grundgesamtheit heißt effizient, wenn
T eine endliche
Varianz besitzt und wenn es für θ keine andere erwartungstreue
Schätzfunktion T
∗ gibt, welche eine kleinere Varianz als T besitzt. Es wird mit der Effizienz also die Forderung der Erwartungstreue und minimaler Varianz gestellt.
Endlichkeitskorrektur
Im Wesentlichen werden zwei Typen von Nullhypothesen unterschieden, und zwar zwischen
zweiseitigen Nullhypothesen (Punkthypothesen) und einseitigen Nullhypothesen
(Bereichshypothesen).
Fehler 1. Art,
α-Fehler
Die Ablehnung einer zutreffenden Nullhypothese, obwohl sie richtig ist, wird als „Fehler 1. Art“ oder auch
„α-Fehler“ bezeichnet.
Die vorgegebene Wahrscheinlichkeit α heißt Irrtumswahrscheinlichkeit oder Signifikanzniveau.
Fehler 2. Art,
β-Fehler
Die Wahrscheinlichkeit β, mit der die Nullhypothese nicht
abgelehnt wird, obwohl sie falsch ist, heißt Fehler 2.
Art oder β-Fehler.