4. Datenanalyse Flashcards
Arithmetisches Mittel
x = 1/n *(x(1)+x(2)+…+x(n))
Median
Diejenige Merkmalsausprägung, die im einer der Größe nach geordneten Reihe von Beobachtungswerten in der Mitte steht
Varianz
Quadrierte Abweichung der Beobachtungswerte vom arithmetischen Mittel * 1/n-1
Standardabweichung
Quadratwurzel aus der Varianz
- Korrelationsanalyse
Verfahren zur Bestimmung der Stärke linearer Zusammenhänge zwischen zwei metrischen skalierten Variablen
1.2 Logik der Korrealtionsanalyse
- Der Korrelationskoeffizient kann Werte von -1 bis +1 annehmen
- Positive Werte beschreiben einen gleichgerichteten Zusammenhang, negative Werte einen gegenläufigen Zusammenhang
- Einen fehlenden Korrelation deutet auf eine Unabhängigkeit der variablen hin
- Regressionsanalyse
Analyse einer einseitigen Abhängigkeit zwischen einer unabhängigen Variablen (x) und einer abhängigen Variablen (y)
2.1 Logik der Regressionanalyse
- Ermittlung einer linearen Schätzfunktion
- Ermittlung der Koeffizienten a und b zur möglichst guten Anpassung der Regressionsgeraden an die empirischen Daten
- Minimierungsproblem : Quadratische Abweichung der y Werte vom arithmetischen Mittel => min!
- Multiple Regressionsanalyse
Analysiert den einseitigen Einfluss mehrerer unabhängiger Variablen x auf eine abhängige Variable y
3.1 Logik der multiplen Regressionsanalyse
- Ermittlung einer linearen Schätzfunktion
- Schätzung der Regressionskoeffizienten, die den relativen Einfluss der unabhängigen Variablen auf die abhängige Variable ausdrücken
- Clusternalayse
Die Clusteranalyse fast Objekte auf Basis ausgewählter Variablen zu Gruppen/Clustern zusammen
4.1 Vorgehen der Clusteranalyse
- Auswahl der Clustervariablen und Aufstellen der DatenMatrix
- Aufstellen einer Distanzmatrix
- Clusteralgorithmus
- Bestimmung der Clusterzahl
- Interpretation und Benennung der Cluster anhand der Merkmalsmittelwerte