Datenanalyse und -interpretation Flashcards
Lage- und Streuungsparameter
- arithmetisches Mittel
- Median
- Varianz
- Standardabweichung
Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrisch skalierten Variablen
Logik:
- kann Werte von -1 bis 1 annehmen
- positive Werte: gleichgerichteten Zusammenhang
- negative Werte: gegenläufiger Zusammenhang
- fehlende Korrelation: Unabhängigkeit der Variablen
Regressionsanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen (x) und einer abhängigen Variablen (y)
Logik:
- Ermittlung eines linearen Schätzfunktion: y= a+bx
- Ermittlung der Koeffizienten a und b zur möglichst guten Anpassung der Regressionsgeraden
- Minimierungsproblem
Güte der Regressionsfunktion
Variation der abhängigen Variablen= erklärte + nicht erklärte Streuung
-Wertebereich (0;1)
Multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen x auf eine abhängige Variable y
Logik:
- Ermittlung einer linearen Schätzfunktion y= a+ b1x1 + … + bjxj + e
- Schätzung der Regressionskoeffizienten die den relativen Einfluss der unabhängigen auf die abhängigen Variablen ausdrücken
Standardisierung der Regressionskoeffizienten
Um die Wirkungsstärke der einzelnen Variablen vergleichen zu können, müssen diese standardisiert werden
–> Beta-Koeffizient (standardisierter Koeffizient): unabhängig von der Skalierung
Clusteranalyse
Fasst Objekte auf Basis von ausgewählten Variablen zu Gruppen/ Clustern zusammen
Vorgehen:
- Auswahl Clustervariablen, Aufstellen Datenmatrix
- Aufstellen Distanzmatrix (Berechnung der quadrierten euklidischen Distanz D(A,B))
- Auswahl des Clusteralgorithmus
(hier: Zusammenfassung der beiden Objekte mit der geringsten Distanz (Single Linkage) und Aufstellen einer neuen Distanzmatrix) - Bestimmung der Clusterzahl (“Elbow” Methode)
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte