2. Regressionsanalyse Flashcards
Regression?
=die Schätzung einer numerischen Zielvariable (z.B. das Gewicht einer Person) basierend auf mehrere Prädiktorvariablen.
Nicht hingegen einer nominalen Zielvariable wie Kreditwürdig ja /nein
Lineare Regression?
=wird ein linearer Zusammenhang zwischen einer Inputgröße X und einer Outputgröße Y unterstellt.
Beispiel für die Lineare Regression
Die Größe einer Person und das Gewicht einer Person stehen um Zusammenhang.
Lineare Regression Grafik?
Graphisch lässt sich der Zusammenhang als Gerade darstellen
Wieso liegen nicht alle Punkte auf der Geraden?
Das Epsilon ist der Fehler bzw. Das Residium. Dies liegt daran, dass die Punkte ja leider nicht auf der Geraden liegen. Damit also die Gleichung für alle tatsächlichen Punkte gilt muss das Residium angegeben werden. Desto kleiner das Residium desto besser.
Dürfen weitere Attribute der Linearen Regression hinzugefügt werden?
weitere Attribute dürfen bei der Regression nicht mitbrachtet werden, da es zu einer Verzerrung des Ergebnisses führt.
Ergebnis Lineare Regression? (Beispiel Zuckergehalt)
Koeffizient = -2,1 = Mit Jedem Gramm Zucker sinkt das Rating um 2,1
Squared Correlation = 0,45 = Zwischen 0-1, 45% der Variation im Rating wird erklärt durch die Variation des Zuckergehalts
Wann Polynomregression?
Ist der Zusammenhang zwischen Input und Zielvariable definitiv nicht linear
–> polynomiale Regression
Polynomregressionsgleichung?
Die Regressionsgleichung beinhaltet Polynome n-ter Ordnung. Die Ordnung bestimmt hierbei die Komplexität des Modells.
Logistische Regression?
ist eine Klassifikation, bei der zunächst eine lineare Regression durchgeführt wird und das Ergebnis dann auf zwei Klassen abgebildet wird
–> zu welcher von zwei Klassen gehört ein Datenpunkt
Welchen Einfluss hat die Ordnung?
Das bedeutet, dass über die Veränderung der Ordnung, die Modellkomplexität angepasst werden kann.
Dadurch kann Overfitting und Underfitting vermieden werden.
Ordnung 1 ist beispielsweise dann eine Lineare Regression die in diesem Fall natürlich fehlerhaft sein würde.
Bei einer zu hohen Ordnung entsteht Overfitting.
Schritt 1 Logistische Regression?
Lineare Näherung der Beziehung zwischen Eingabevariablen und (numerischer) Zielvariable durch lineare Regression.
Bei der Kreditwürdigkeit könnte dies bedeuten, dass wir anhand verschiedener Faktoren (wie Einkommen, Schulden, usw.) eine Punktzahl von 0 bis 100 berechnen, die die Kreditwürdigkeit darstellt –> Schwellenwert bsp 50
Schritt 2 Logistische Regression?
Um im zweiten Schritt die Wahrscheinlichkeit pro Klasse präziser zu berechnen, wird mit der logistischen/SIGMOID Funktion gearbeitet
–> wandelt die lineare Regressionsergebnisse in Wahrscheinlichkeiten um, die zwischen 0 und 1 liegen
–> Die Sigmoid-Funktion nimmt den linearen Regressionswert und wandelt ihn in eine Wahrscheinlichkeit um, die ausdrückt, wie wahrscheinlich es ist, dass ein Datenpunkt zu einer bestimmten Klasse gehört (z.B. “kreditwürdig”).
Fazit zur Regression?
Mithilfe der Regression lassen sich aus vorhandenen Daten Modelle erstellen, die in der Lage sind für neue Datensätze Vorhersagen zu treffen
–> In der Praxis müssen deshalb Ausreißer erkannt werden und viele verschiedene Modelle angewandt werden.