Einfache Lineare Regression Flashcards
Was ist eine einfache lineare Regression?
Eine Methode, um den Zusammenhang zwischen zwei Variablen zu analysieren.
Was ist das Ziel der einfachen linearen Regression?
Vorhersage der abhängigen Variablen anhand einer unabhängigen Variablen.
Was ist die Regressionsgerade?
Die Linie, die den besten linearen Zusammenhang zwischen Prädiktor und Kriterium beschreibt.
Wie lautet die Grundformel der Regressionsgeraden?
y = a + bx.
Was stellt y in der Regressionsgleichung dar?
Die vorhergesagte abhängige Variable.
Was stellt x in der Regressionsgleichung dar?
Die unabhängige Variable.
Was bedeutet a in der Regressionsgleichung?
Der Achsenabschnitt, d.h., wo die Gerade die y-Achse schneidet.
Was bedeutet b in der Regressionsgleichung?
Die Steigung, die den Anstieg oder Abfall der Linie pro Einheit von x zeigt.
Was beschreibt die Steigung b?
Wie stark sich y ändert, wenn x um eine Einheit zunimmt.
Wie wird die beste Regressionsgerade bestimmt?
Mit dem Kriterium der kleinsten Fehlerquadrate.
Was sind Residuen?
Die Differenz zwischen den beobachteten und den vorhergesagten Werten.
Was ist der Regressionskoeffizient b?
Er zeigt, wie sich y ändert, wenn x um eine Einheit zunimmt.
Was ist der standardisierte Regressionskoeffizient β?
Der Regressionskoeffizient, nachdem die Variablen z-standardisiert wurden.
Was beschreibt der Determinationskoeffizient R^2?
Wie viel Varianz der abhängigen Variablen durch die unabhängige erklärt wird.
Was bedeutet ein R^2-Wert von 0?
Kein Zusammenhang zwischen den Variablen.
Was bedeutet ein R^2-Wert von 1?
Die unabhängige Variable erklärt die gesamte Varianz der abhängigen Variablen.
Was ist der Unterschied zwischen R^2 und β?
R^2 gibt die erklärte Varianz an, β den Einfluss von x auf y.
Welche Annahmen gelten für die lineare Regression?
Lineare Beziehung, Homoskedastizität, Normalverteilung der Residuen.
Was bedeutet Homoskedastizität?
Die Varianz der Residuen ist für alle Werte von x gleich.
Wie testet man Homoskedastizität?
Mit einem Residualplot (Fitted vs. Residuals).
Was ist der Durbin-Watson-Test?
Ein Test auf Autokorrelation der Residuen.
Was ist ein p-Wert in der Regression?
Er zeigt, ob der Regressionskoeffizient signifikant von null verschieden ist.
Wann ist der p-Wert signifikant?
Wenn er kleiner als 0,05 ist.
Was passiert, wenn die Annahmen der Regression verletzt werden?
Die Schätzungen könnten verzerrt oder ineffizient sein.
Wie wird die Signifikanz der Regressionsgerade getestet?
Mit einem F-Test in der Varianzanalyse.
Was zeigt der F-Test in der Regression?
Ob die Regressionsgerade signifikant von null verschieden ist.
Was ist ein Streudiagramm?
Eine grafische Darstellung des Zusammenhangs zwischen zwei Variablen.
Wofür wird ein Streudiagramm in der Regression verwendet?
Zur Überprüfung des linearen Zusammenhangs.
Was zeigt eine perfekte lineare Beziehung im Streudiagramm?
Alle Punkte liegen auf einer Linie.
Was sind Ausreißer in der Regression?
Werte, die stark von der Regressionslinie abweichen.
Wie werden Ausreißer in der Regression behandelt?
Mit Verfahren wie dem Cook’s Distance.
Was ist Cook’s Distance?
Ein Maß für den Einfluss eines Ausreißers auf die Regressionsgerade.
Was passiert, wenn die Residuen nicht normalverteilt sind?
Die Schätzungen sind möglicherweise nicht effizient.
Wie testet man die Normalverteilung der Residuen?
Mit dem Shapiro-Wilk-Test oder einem Q-Q-Plot.
Was zeigt ein Q-Q-Plot?
Ob die Residuen normalverteilt sind.
Was passiert bei Multikollinearität?
Die Regressionskoeffizienten können unzuverlässig werden.
Kann eine lineare Regression mit kategorialen Variablen durchgeführt werden?
Ja, mittels Dummy-Kodierung.
Was ist eine Dummy-Variable?
Eine binäre Variable, die Gruppen in einer Regression repräsentiert.
Was ist die Einschränkung einer einfachen linearen Regression?
Sie kann nur den Zusammenhang zwischen zwei Variablen analysieren.
Was bedeutet der Residualstandardfehler?
Ein Maß für die Genauigkeit der Vorhersagen der Regressionslinie.
Was zeigt der t-Wert eines Regressionskoeffizienten?
Ob der Regressionskoeffizient signifikant von null verschieden ist.
Was bedeutet es, wenn der t-Wert hoch ist?
Der Prädiktor hat einen starken Einfluss auf die abhängige Variable.
Was passiert, wenn der t-Wert nahe null ist?
Der Prädiktor hat wenig Einfluss auf die abhängige Variable.
Kann die einfache lineare Regression Kausalität beweisen?
Nein, sie zeigt nur Korrelation, nicht Kausalität.
Was bedeutet eine negative Steigung b?
Ein negativer Zusammenhang zwischen den Variablen.
Was bedeutet eine positive Steigung b?
Ein positiver Zusammenhang zwischen den Variablen.
Was ist das Konfidenzintervall eines Regressionskoeffizienten?
Ein Bereich, in dem der wahre Wert des Koeffizienten mit hoher Wahrscheinlichkeit liegt.
Was zeigt ein schmales Konfidenzintervall an?
Genaue Schätzungen des Koeffizienten.
Was zeigt ein breites Konfidenzintervall an?
Unsichere Schätzungen des Koeffizienten.
Was ist eine Vorhersage in der Regression?
Die Schätzung der abhängigen Variable basierend auf der unabhängigen.
Was bedeutet extrapolieren in der Regression?
Vorhersagen außerhalb des Bereichs der beobachteten Daten.
Warum ist Extrapolation problematisch?
Die Beziehung zwischen den Variablen könnte sich außerhalb des Datenbereichs ändern.
Was ist Interpolation in der Regression?
Vorhersagen innerhalb des Bereichs der beobachteten Daten.
Was ist eine Korrelation?
Ein Maß für die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen.
Was ist der Unterschied zwischen Korrelation und Regression?
Korrelation misst den Zusammenhang, Regression sagt Werte vorher.
Was ist der Korrelationskoeffizient?
Ein Wert zwischen -1 und 1, der die Stärke und Richtung des Zusammenhangs angibt.
Was bedeutet eine Korrelation von 1?
Perfekter positiver Zusammenhang.
Was bedeutet eine Korrelation von -1?
Perfekter negativer Zusammenhang.
Was bedeutet eine Korrelation von 0?
Kein Zusammenhang zwischen den Variablen.
Was ist eine Partielle Korrelation?
Der Zusammenhang zwischen zwei Variablen unter Kontrolle anderer Variablen.
Wie hängen Korrelation und Regression zusammen?
Eine starke Korrelation kann auf eine nützliche Regressionsbeziehung hinweisen.
Was ist ein Standardfehler in der Regression?
Ein Maß für die Genauigkeit der Schätzungen der Regressionskoeffizienten.
Was passiert, wenn der Standardfehler groß ist?
Die Schätzungen der Koeffizienten sind weniger genau.
Was ist ein Residualplot?
Ein Diagramm, das Residuen gegen die vorhergesagten Werte darstellt.
Warum sind Residualplots wichtig?
Sie helfen, Annahmen der Regression zu überprüfen, wie Homoskedastizität.
Was sind Prädiktoren?
Die unabhängigen Variablen in einer Regressionsanalyse.
Was sind Zielvariablen?
Die abhängigen Variablen in einer Regressionsanalyse.
Was ist der Unterschied zwischen erklärender und abhängiger Variable?
Die erklärende Variable ist die unabhängige, die abhängige ist die zu prognostizierende Variable.
Was ist ein Regressionstest?
Ein statistischer Test, um zu prüfen, ob die unabhängige Variable die abhängige signifikant beeinflusst.
Was ist der Unterschied zwischen linearer und nichtlinearer Regression?
Die lineare Regression modelliert eine lineare Beziehung, die nichtlineare eine kurvige.
Wann ist eine lineare Regression nicht geeignet?
Wenn der Zusammenhang zwischen den Variablen nicht linear ist.
Was ist eine logarithmische Transformation in der Regression?
Eine Methode, um nicht-lineare Beziehungen zu linearisieren.
Was ist der Adjusted R^2?
Ein korrigierter R^2, der die Anzahl der Prädiktoren berücksichtigt.
Warum wird der Adjusted R^2 verwendet?
Um den Erklärungswert der Regression besser einzuschätzen, wenn mehrere Prädiktoren im Spiel sind.
Was bedeutet ein hoher Adjusted R^2?
Die unabhängigen Variablen erklären einen großen Teil der Varianz.
Was passiert, wenn der Adjusted R^2 sinkt?
Ein zusätzlicher Prädiktor bringt keine Verbesserung in der Erklärung der Varianz.
Was bedeutet multivariate Regression?
Eine Regression mit mehr als einer unabhängigen Variablen.
Was ist der Unterschied zwischen einfacher und multipler Regression?
Die einfache Regression hat nur eine unabhängige Variable, die multiple mehrere.
Was ist Multikollinearität?
Wenn unabhängige Variablen stark miteinander korrelieren.
Warum ist Multikollinearität ein Problem?
Sie führt zu instabilen Schätzungen der Regressionskoeffizienten.
Wie kann man Multikollinearität erkennen?
Durch den Variance Inflation Factor (VIF).
Was ist der Variance Inflation Factor (VIF)?
Ein Maß dafür, wie stark die Multikollinearität die Varianz der Schätzungen erhöht.
Was ist eine signifikante Regressionsbeziehung?
Wenn der p-Wert kleiner als 0,05 ist.
Was passiert, wenn der p-Wert nicht signifikant ist?
Es gibt keinen Hinweis auf eine Beziehung zwischen den Variablen.
Was bedeutet eine p-Wert von 0,001?
Sehr starker Beweis, dass die Beziehung signifikant ist.
Was ist ein Dummy-Prädiktor?
Eine kategoriale Variable, die in einer Regression verwendet wird, indem sie in binäre Variablen umgewandelt wird.
Was bedeutet Overfitting?
Wenn ein Modell zu gut auf die Trainingsdaten passt, aber schlecht auf neue Daten übertragbar ist.
Wie kann man Overfitting vermeiden?
Durch Regularisierung oder Kreuzvalidierung.
Was ist Kreuzvalidierung?
Eine Methode, um die Vorhersagekraft eines Modells zu testen, indem es auf verschiedenen Datensätzen trainiert und getestet wird.
Was ist Regularisierung?
Eine Methode, um zu große Koeffizienten in der Regression zu verhindern.
Was ist das Lasso-Verfahren in der Regression?
Eine Regularisierungstechnik, die Koeffizienten verkleinert oder auf null setzt.
Was ist das Ridge-Verfahren in der Regression?
Eine Regularisierungstechnik, die zu große Koeffizienten bestraft, um Overfitting zu verhindern.
Was ist eine Normalisierung in der Regression?
Eine Transformation der Variablen, um sie auf eine ähnliche Skala zu bringen.
Wann verwendet man die Ridge-Regression?
Wenn Multikollinearität ein Problem ist.
Was ist der Unterschied zwischen Ridge und Lasso?
Ridge verringert Koeffizienten, Lasso kann sie ganz auf null setzen.
Was ist ein out-of-sample Fehler?
Der Vorhersagefehler auf Daten, die nicht im Trainingsdatensatz enthalten sind.
Was ist das Akaike Informationskriterium (AIC)?
Ein Maß zur Modellbewertung, das sowohl die Anpassungsgüte als auch die Komplexität berücksichtigt.
Was ist das Bayesianische Informationskriterium (BIC)?
Ähnlich wie AIC, aber strenger in der Bestrafung komplexer Modelle.
Was ist der Unterschied zwischen AIC und BIC?
BIC bestraft komplexe Modelle stärker als AIC.
Wie wählt man das beste Modell in der Regression?
Durch Vergleichen von AIC, BIC oder durch Kreuzvalidierung.