Datenanalyse und -interpretation Flashcards
Deskriptive und induktive Verfahren
Deskriptiv
–> Stichprobe
Induktiv
–> Grundgesamtheit
Arithmetisches Mittel (Mittelwert)
x = 1/n * (x1+x2+x3+…+xn)
Median (Zentralwert)
- -> Werte n der Größe nach ordnen
(z. B. 1,1,1,2,3,3,4)
falls ungerade:
• Wert von Me= xn+1 / 2
falls gerade:
• Wert von Me= 0.5* (xn/2 + xn/2 +1)
Varianz
s^2 = 1/n-1 * ∑(xi- X)^2 mit X=Mittelwert
Standardabweichung
s = √s^2
Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrisch skalierten Variablen.
Logik:
• Der Korrelationskoeffizient kann Werte von -1 bis +1 annehmen.
• Positive Werte beschreiben einen gleichgerichteten Zusammenhang,
negative Werte einen gegenläufigen Zusammenhang.
• Eine fehlende Korrelation deutet auf eine Unabhängigkeit der Variablen hin.
Berechnung des Korrelationskoeffizienten
r = ∑ (xi-X) * (yi-Y) / √[(∑(xi-X)^2 * ∑(yi-Y)^2]
mit X,Y = Mittelwerte
Regressionanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen (x) und einer abhängigen Variablen (y).
Logik:
• Ermittlung einer (linearen) Schätzfunktion: y = a + b∙x
• Ermittlung der Koeffizienten a und b zur möglichst guten Anpassung der Regressionsgeraden an die empirischen Daten
Berechnung der Regressionsfunktion
- Allg. Funktion: y = a+bx
- b = n * ∑(xi*yi) - ∑xi * ∑ yi / n * [∑ xi^2 - (∑ xi)^2]
- a = Y - b*X mit X,Y = Mittelwerte
Güte der Regressionsfunktion
Bestimmtheitsmaß r^2
• Wertebereich zwischen [0;+1]
• Beurteilung der Güte der Regressionsfunktion
r^2 = __∑(¥i-Y)^2__
∑(yi-Y)^2
mit ¥i : geschätzter Wert mit der Regressionsfunktion
Clusteranalyse
Die Clusteranalyse fasst Objekte (z.B. Kunden) auf Basis von ausgewählten Variablen zu Gruppen/Clustern (z.B. Kundensegmente) zusammen.
Vorgehen:
1. Auswahl der Clustervariablen und Aufstellen der Datenmatrix
- Aufstellen einer Distanzmatrix
- Clusteralgorithmus
- Bestimmung der Clusterzahl
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte
Multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen xj (j = 1, …J) auf eine abhängige Variable (y).
Logik der multiplen Regressionsanalyse:
• Ermittlung einer (linearen) Schätzfunktion: y = a + b1 ∙x1 + b2 ∙x2 +…+ bj ∙xj + e
• Schätzung der Regressionskoeffizienten, a, b1, …, bj , die den relativen Einfluss
der unabhängigen Variablen auf die abhängige Variable ausdrücken
Standardisierung der Regressionskoeffizienten
• Um die Wirkungsstärke der einzelnen Variablen vergleichen zu können, müssen diese standardisiert werden.
ßi = bi * [Standardabweichung xi / Standardabweichung yi ]