Linear Regression Flashcards
Was ist das Ziel der linearen Regression
Das Ziel der linearen Regression ist es, eine lineare Beziehung zwischen Eingabevariablen und einer kontinuierlichen Ausgabevariable zu bestimmen.
Wie wird die Methode der kleinsten Quadrate in der linearen Regression eingesetzt
Die Methode der kleinsten Quadrate minimiert die Summe der quadrierten Abweichungen zwischen den beobachteten Werten und den durch das Modell vorhergesagten Werten.
Was versteht man unter dem Gradientenabstieg in der linearen Regression
Der Gradientenabstieg ist ein Optimierungsverfahren, das durch iterative Anpassung der Modellparameter die Verlustfunktion minimiert.
Was ist die Designmatrix in der linearen Regression
Die Designmatrix ist eine Matrix, die die Eingabedaten in einer strukturierten Form darstellt, wobei jede Zeile einen Datenpunkt und jede Spalte ein Merkmal repräsentiert.
Wie werden die Parameter in der linearen Regression geschützt
Die Parameter werden durch Minimierung der Verlustfunktion geschätzt, wobei die Normalgleichung oder Methoden wie der Gradientenabstieg genutzt werden können.
Was ist die Normalgleichung und wie wird sie in der linearen Regression verwendet
Die Normalgleichung ist eine analytische Lösung zur Bestimmung der Parameter des linearen Modells, indem sie das System der linearen Gleichungen direkt löst.
Was ist der Hauptunterschied zwischen dem Batch-Gradientenabstieg und dem stochastischen Gradientenabstieg
Der Batch-Gradientenabstieg aktualisiert die Parameter nach Betrachtung aller Datenpunkte, während der stochastische Gradientenabstieg nach jedem einzelnen Datenpunkt aktualisiert.
Wie beeinflusst der Lernratenparameter den Prozess des Gradientenabstiegs
Der Lernratenparameter α bestimmt die Schrittgröße bei der Aktualisierung der Parameter und beeinflusst die Konvergenzgeschwindigkeit des Algorithmus.
Was sind Residuen in der linearen Regression
Residuen sind die Differenzen zwischen den beobachteten Werten und den vom Modell vorhergesagten Werten.
Wie funktioniert die Residuenquadratsumme (RSS) als Verlustfunktion in der linearen Regression
Die Residuenquadratsumme misst die Summe der quadrierten Differenzen zwischen den vorhergesagten und den tatsächlichen Werten und wird zur Beurteilung der Modellgüte verwendet.
Was versteht man unter Überanpassung (Overfitting) in der linearen Regression und wie kann man es vermeiden
Überanpassung tritt auf, wenn das Modell zu stark an die Trainingsdaten angepasst ist und bei neuen Daten schlecht generalisiert; vermeidbar durch Regularisierung oder Validierung.
Wie trägt die Lernrate zur Effizienz des Gradientenabstiegs bei
Eine angemessene Lernrate α hilft, die Konvergenz zu optimieren, indem sie zu große oder zu kleine Schritte im Optimierungsprozess verhindert.
Wie wird die Leistung eines linearen Regressionsmodells bewertet
Die Leistung wird oft durch den mittleren quadratischen Fehler (Mean Squared Error, MSE) oder den Bestimmtheitsmaß (R²) bewertet.
Welche Rolle spielt die Feature-Selektion in der linearen Regression
Die Auswahl relevanter Merkmale verbessert die Modellgenauigkeit und verhindert Überanpassung.
Was ist die Bedeutung von Multikollinearität in der linearen Regression
Multikollinearität beschreibt eine Situation, in der mindestens ein Prädiktor durch einen oder mehrere andere Prädiktoren im Wesentlichen vorhergesagt werden kann.
Problem - Führt zu höheren Standardfehlern, erschwert die Suche nach signifikanten Effekten, weniger verlässlich
Wie wirkt sich die Heteroskedastizität auf lineare Regressionsmodelle aus
Heteroskedastizität, bei der die Varianz der Residuen nicht konstant ist, kann zu ineffizienten Schätzungen und irreführenden Inferenzstatistiken führen.
Was ist der Unterschied zwischen einfacher und multipler linearer Regression
Einfache lineare Regression verwendet einen Prädiktor, während multiple lineare Regression mehrere Prädiktoren zur Vorhersage der Zielvariable verwendet.
Wie kann Regularisierung in der linearen Regression Overfitting entgegenwirken
Regularisierung, wie L1 (Lasso) oder L2 (Ridge), fügt der Verlustfunktion einen Strafterm hinzu, der die Komplexität des Modells reduziert und Overfitting verhindert.
Was ist der VIF (Variance Inflation Factor) und wie wird er in der linearen Regression verwendet
Der VIF misst, wie viel die Varianz eines Regressionskoeffizienten durch Kollinearität erhöht wird, und hilft, problematische Variablen zu identifizieren.
Was ist der Zweck der Kreuzvalidierung in der linearen Regression
Die Kreuzvalidierung wird verwendet, um die Generalisierungsfähigkeit des Modells zu bewerten, indem es auf verschiedenen Teilmengen der Daten trainiert und getestet wird.
Wie beeinflussen Ausreißer die lineare Regression
Ausreißer können die Schätzungen der Regressionskoeffizienten verzerren und die Genauigkeit des Modells verringern.
Wie wird die lineare Regression in der Zeitreihenanalyse verwendet
In der Zeitreihenanalyse wird die lineare Regression eingesetzt, um Trends zu identifizieren und zukünftige Werte basierend auf vergangenen Daten vorherzusagen.
Was versteht man unter dem Autokorrelationsproblem in der linearen Regression
Autokorrelation tritt auf, wenn die Residuen nicht unabhängig sind, was zu irreführenden Standardfehlern und Signifikanztests führen kann.