Vorlesung 6 Flashcards
Lageparameter
Median (Zentralwert): der Wert in einer der Größe nach geord-neten Reihe, der gleich viele Werte oberhalb wie unterhalb besitzt
x_med=x_((n+1)/2) für ungerade n, x_med=〖0.5(x〗(n/2)+x(n/2+1)) für gerade n
Modus (Modalwert): Maximum der Häufigkeitsverteilung
x_mod=x_i mit h(x_i )>h(x_k )für alle k≠i
Mittelwert (arithmetisches Mittel): Durchschnittswert einer Häufigkeitsverteilung
x ̅= 1/n ∑ _(i=1) ^n x_i
Deskriptive vs. induktive Statistik
Deskriptive (beschreibende, empirische) Statistik:
• Aufbereitung und Zusammenfassung von Datenmaterial und deren visuelle Darstellung
• Keine abgeleiteten Aussagen über größere Grundgesamtheiten
Induktive (schließende, beurteilende) Statistik:
• Schätzen und Testen unbekannter Wahrscheinlichkeiten, Varianzen oder Erwartungswerte
• Ableitung von Eigenschaften der Grundgesamtheit aus Daten der Stichprobe
Dichtefunktion der Normalverteilung
Beschrieben durch
Stichprobenmittelwert x̅
Standardabweichung s: Maß für die Streuung der Werte eine Zufallsvariable um ihren Erwartungswert
99%-Bereich zwischen -3a und +3s
Anzahl der Klassen k aus Anzahl der Stichproben n: kk= √n
Diskrete vs. stetige Verteilungen
Beispiele
diskrete Verteilungen: • geometrische Verteilung • Binomialverteilung • Poisson-Verteilung stetige Verteilungen: • Normal- bzw. Standardnormalverteilung
Dichtefunktion
Verteilungsfunktion
Eine auf R integrierbare Funktion heißt Dichtefunktion, wenn für diese gilt:
- f(x)≥0 für alle x∈R
- ∫ _(-∞) ^(+∞) f(x)dx=1
Die Verteilungsfunktion einer stetigen Zufallsvariable X ergibt sich somit zu:
F(x)=P(X≤x)=∫ _(-∞) ^x f(u)du
Streuungsparameter
Durchschnittliche Abweichung: arithmetisches Mittel der Abweichungen vom Mittelwert
d= 1/n ∑ _(i=1) ^n |x_i-x ̅|
Varianz: mittlere Quadratische Abweichung vom Mittelwert
- Stichprobe hinreichend groß:s ̂^2= 1/n ∑ _(i=1) ^n (x_i-x ̅)
- Sonst: s^2= 1/(n-1) ∑ _(i=1) ^n |(x_i-x ̅)
s2 Varianz einer Stichprobe
σ Varianz der Grundgesamtheit
Boxplot
- schneller Überblick, in welchem Bereich die Messdaten liegen und wie diese streuen
- Box um den Bereich, in dem die mittleren 50% der Daten liegen
- Antennen / Whiskers zeigen die Entfernung zu den größten und kleinsten Ausreißern
Histogramm
- Säulendiagramm, das große Menge gesammelter Daten (min. 50) als Häufigkeitsverteilung darstellt
- Spannweite R = xmin – xmax
- Anzahl Klassen k = √n (n Anzahl Einzeldaten)
- Klassenbreite h= R/k
Normalverteilung
Standardnormalverteilung
Normalverteilung
- Meistgenutzte Wahrscheinlichkeitsverteilung von stetigen Zufallsvariablen
- Verteilungsfunktion nur numerisch lösbar, daher Substitution auf Standardnormalverteilung
Standardnormalverteilung
- Normalverteilung mit η = 0 und σ2 = 1
- Die Werte der Verteilungsfunktion liegen tabellarisch vor
- Die Dichtefunktion ist symmetrisch: ϕ(-x)=1-ϕ(x)
Paretodiagramm
- Darstellung der Ursachen eines Problems als Säulendiagramm
- x-Achse: Ursachen absteigend nach quantitativer Häufigkeit geordnet; y-Achse: Häufigkeit
- zusätzlich Kurve mit kumulierter Häufigkeit
Streudiagramm
- Streudiagramm = Scatterplot
* Darstellung zweier Wertepaare in einem kartesischen Koordinatensystem
Dotplot
- Einfache Darstellung der Verteilung von kontinuierlichen, quantitativen Daten
- Für kleine bis mittelgroße Datensätze
- Häufigkeiten werden als Punkte („Dots“) über den Merkmal-ausprägungen aufgetragen
Lineare Regressionsanalyse
Regressor
Regressand
Regressionsanalyse: Anpassung des Wirkzusammenhangs zwischen quantitativen Faktoren und Zielgrößen an die vorliegenden Daten, sodass die Übereinstimmung möglichst hoch ist
Regressor: unabhängige Variable X
Regressand: abhängige Variable Y
-> Minimierung der Fehlerquadrate (Gauß)
o Abstandsfunktion Q2(x,y) aufstellen
o Nullwert der partiellen Ableitungen bestimmen
o Parameter a und b ermitteln
• Schwerpunkt enthalten -> von einem arithmetischen Mittel kann auf das andere geschlossen werde
Korrelationskoeffizient
gibt den Grad des linearen Zusammenhangs an
Division der Kovarianz durch die Standardabweichungen
r=s_xy/(s_x*s_y ), -1 ≤ r ≤ 1
Je größer r, desto weniger weichen Beobachtungspaare von einer Regressionsgeraden ab („starke Korrelation“)
Korrelation
Kovarianz
Korrelation: Beziehung zwischen zwei oder mehr Merkmalen zueinander
Kovarianz: Zusammenhänge (Streuungsverbund) zweier Merkmale in einer Zahl zusammengefasst
s_xy=1/n ∑ _(i=1) ^n (x_i-x ̅ )(y_j-y ̅ )
positiv, wenn beide Merkmale mit demselben Vorzeichen vom Mittelwert abweichen