Datenanalyse und -interpretation Flashcards
Deskriptive und induktive Verfahren
S.1
Definition: Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrisch skalierten Variablen.
Logik: Korrelationsanalyse
- Der Korrelationskoeffizient kann Werte von -1 bis +1 annehmen.
- Positive Werte beschreiben einen gleichgerichteten Zusammenhang, negative Werte einen gegenläufigen Zusammenhang.
- Eine fehlende Korrelation deutet auf eine Unabhängigkeit der Variablen hin.
Definition: Regressionsanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen
(x) und einer abhängigen Variablen (y).
Logik der Regressionsanalyse:
• Ermittlung einer (linearen) Schätzfunktion: y = a + b∙x
• Ermittlung der Koeffizienten a und b zur möglichst guten Anpassung der
Regressionsgeraden an die empirischen Daten
• Minimierungsproblem: siehe Vorlesung
Definition: multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen xj (j = 1, …J) auf eine abhängige Variable (y).
Logik der multiplen Regressionsanalyse:
- Ermittlung einer (linearen) Schätzfunktion: y = a + b1 ∙x1 + b2 ∙x2 +…+ bj ∙xj + e
- Schätzung der Regressionskoeffizienten, a, b1, …, bj , die den relativen Einfluss der unabhängigen Variablen auf die abhängige Variable ausdrücken
Definition: Clusteranalyse
Die Clusteranalyse fasst Objekte (z.B. Kunden) auf Basis von ausgewählten Variablen zu Gruppen/Clustern (z.B. Kundensegmente) zusammen.
Vorgehen der Clusteranalyse:
- Auswahl der Clustervariablen und Aufstellen der Datenmatrix
- Aufstellen einer Distanzmatrix
- Clusteralgorithmus
- Bestimmung der Clusterzahl
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte