Datenanalyse und -interpretation Flashcards
Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrisch skalierten Variablen.
Logik der Korrelationsanalyse:
- Der Korrelationskoeffizient kann Werte von -1 bis +1 annehmen.
- Positive Werte beschreiben einen gleichgerichteten Zusammenhang, negative Werte einen gegenläufigen Zusammenhang.
- Eine fehlende Korrelation deutet auf eine Unabhängigkeit der Variablen hin.
Regressionsanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen
(x) und einer abhängigen Variablen (y).
Logik der Regressionsanalyse
• Ermittlung einer (linearen) Schätzfunktion: y = a + b∙x
• Ermittlung der Koeffizienten a und b zur möglichst guten Anpassung der
Regressionsgeraden an die empirischen Daten
Multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen xj (j = 1, …J) auf eine abhängige Variable (y).
Logik der multiplen Regressionsanalyse
- Ermittlung einer (linearen) Schätzfunktion: y = a + b1 ∙x1 + b2 ∙x2 +…+ bj ∙xj + e
- Schätzung der Regressionskoeffizienten, a, b1, …, bj , die den relativen Einfluss der unabhängigen Variablen auf die abhängige Variable ausdrücken
Beispiel einer multiplen Regressionsanalyse
Faktoren für die Kaufbereit-schaft: Einzigartigkeit Preisurteil Nutzen der Apps Garantiedauer
Standardisierung der Regressionskoeffizienten
-Um die Wirkungsstärke der einzelnen Variablen vergleichen zu können, müssen diese standardisiert werden.
• Das Resultat sind die Beta-Koeffizienten βj (standardisierte Koeffizienten), diese sind unabhängig von der Skalierung der unabhängigen Variablen.
ßj = bj *
(Standardabweichung xj /
Standardabweichung y)
Clusteranalyse
Die Clusteranalyse fasst Objekte (z.B. Kunden) auf Basis von ausgewählten Variablen zu Gruppen/Clustern (z.B. Kundensegmente) zusammen.
Vorgehen der Clusteranalyse
- Auswahl der Clustervariablen und Aufstellen der Datenmatrix
- Aufstellen einer Distanzmatrix
- Clusteralgorithmus
- Bestimmung der Clusterzahl
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte