Multiple Lineare Regression Flashcards
Was ist eine multiple lineare Regression?
Eine Regression, bei der mehr als ein Prädiktor verwendet wird, um das Kriterium vorherzusagen.
Was versteht man unter dem Prädiktor in der multiplen Regression?
Eine unabhängige Variable, die zur Vorhersage des Kriteriums verwendet wird.
Was ist das Kriterium in der multiplen Regression?
Die abhängige Variable, deren Werte vorhergesagt werden sollen.
Was ist das Ziel der multiplen linearen Regression?
Das Vorhersagen des Werts einer abhängigen Variable basierend auf mehreren unabhängigen Variablen.
Welche Voraussetzungen müssen für eine multiple lineare Regression erfüllt sein?
Lineare Beziehung, keine Multikollinearität, Normalverteilung der Residuen, Homoskedastizität.
Was ist Multikollinearität?
Wenn zwei oder mehr Prädiktoren hoch miteinander korrelieren und somit redundant sind.
Was ist Homoskedastizität?
Die Residuen sollten über alle Prädiktoren hinweg gleiche Varianzen haben.
Was ist die Gleichung der multiplen linearen Regression?
Y = b_0 + b_1X_1 + b_2X_2 + … + b_nX_n + ε.
Was bedeutet R^2 in der multiplen Regression?
Der Anteil der Varianz im Kriterium, der durch die Prädiktoren erklärt wird.
Was ist der Adjusted R^2?
Ein korrigierter R^2-Wert, der die Anzahl der Prädiktoren berücksichtigt.
Was bedeutet ein signifikanter F-Test in der multiplen Regression?
Dass mindestens einer der Prädiktoren signifikant zur Vorhersage des Kriteriums beiträgt.
Wie wird die Signifikanz der Prädiktoren in der multiplen Regression getestet?
Mit einem t-Test für jeden Prädiktor.
Was zeigt ein hoher t-Wert bei einem Prädiktor an?
Dass der Prädiktor signifikant zur Vorhersage des Kriteriums beiträgt.
Was ist der standardisierte Regressionskoeffizient β?
Ein Koeffizient, der die Stärke des Effekts eines Prädiktors in z-standardisierten Einheiten angibt.
Was ist der unstandardisierte Regressionskoeffizient b?
Ein Koeffizient, der angibt, wie stark sich das Kriterium ändert, wenn der Prädiktor um eine Einheit steigt.
Was sind Residuen?
Die Differenz zwischen den beobachteten und den vorhergesagten Werten.
Was ist der Durbin-Watson-Test?
Ein Test, der prüft, ob die Residuen unabhängig voneinander sind.
Wie wird Multikollinearität in der multiplen Regression diagnostiziert?
Mit dem Variance Inflation Factor (VIF).
Was zeigt ein hoher VIF-Wert an?
Dass Multikollinearität vorliegt.
Was bedeutet es, wenn der VIF größer als 10 ist?
Es liegt eine problematische Multikollinearität vor.
Wie wird die Vorhersagegenauigkeit der multiplen Regression gemessen?
Mit dem R^2-Wert.
Was passiert, wenn Multikollinearität vorliegt?
Die Schätzungen der Regressionskoeffizienten werden ungenau.
Was ist die Partielle Korrelation in der multiplen Regression?
Die Korrelation zwischen einem Prädiktor und dem Kriterium, nachdem die anderen Prädiktoren kontrolliert wurden.
Was ist eine Schrittweise Regression?
Ein Verfahren, bei dem Prädiktoren schrittweise in das Modell aufgenommen oder entfernt werden.
Was ist eine Vorwärtsselektion in der multiplen Regression?
Ein Verfahren, bei dem der Prädiktor mit dem höchsten Beitrag zuerst in das Modell aufgenommen wird.
Was ist eine Rückwärtselimination in der multiplen Regression?
Ein Verfahren, bei dem der Prädiktor mit dem geringsten Beitrag zuerst entfernt wird.
Wann wird die standardisierte Version der Koeffizienten verwendet?
Wenn man die Stärke der Prädiktoren miteinander vergleichen möchte.
Was ist die Dummy-Kodierung?
Eine Methode, um nominalskalierte Variablen in eine binäre Form zu überführen.
Was ist der Unterschied zwischen einfacher und multipler linearer Regression?
Bei der einfachen Regression gibt es nur einen Prädiktor, bei der multiplen mehrere.
Was zeigt ein negativer Regressionskoeffizient an?
Dass der Prädiktor eine negative Beziehung zum Kriterium hat.
Was zeigt ein positiver Regressionskoeffizient an?
Dass der Prädiktor eine positive Beziehung zum Kriterium hat.
Was ist eine Interaktion in der multiplen Regression?
Wenn der Effekt eines Prädiktors auf das Kriterium von einem anderen Prädiktor abhängt.
Was ist die Methode der kleinsten Quadrate?
Ein Verfahren zur Schätzung der Regressionskoeffizienten, das die Summe der quadrierten Residuen minimiert.
Warum sollte Multikollinearität vermieden werden?
Sie erschwert die Interpretation der Prädiktoren und führt zu unzuverlässigen Ergebnissen.
Was ist eine Moderation in der multiplen Regression?
Ein dritter Prädiktor, der den Zusammenhang zwischen zwei Variablen verändert.
Wie überprüft man die Normalverteilung der Residuen?
Mit einem Q-Q-Plot oder dem Shapiro-Wilk-Test.
Was ist Heteroskedastizität?
Wenn die Varianz der Residuen nicht konstant ist.
Wie kann Heteroskedastizität entdeckt werden?
Durch einen Residual-Plot.
Was ist der Zweck einer Regressionsdiagnose?
Sicherzustellen, dass die Annahmen der Regression nicht verletzt werden.
Wie kann eine multiple Regression mit nominalen Prädiktoren durchgeführt werden?
Durch die Dummy-Kodierung der Prädiktoren.
Was ist ein Residualplot?
Ein Diagramm, das die Residuen gegenüber den vorhergesagten Werten darstellt.
Was ist der Unterschied zwischen F-Test und t-Test in der Regression?
Der F-Test prüft das Gesamtmodell, der t-Test prüft einzelne Prädiktoren.
Was ist eine exponentielle Transformation in der Regression?
Eine Methode, um nichtlineare Zusammenhänge zu linearisieren.
Was bedeutet es, wenn der F-Test nicht signifikant ist?
Das Modell erklärt die Variation im Kriterium nicht besser als der Zufall.
Wie interpretiert man den p-Wert eines Prädiktors?
Ein p-Wert kleiner als 0.05 deutet darauf hin, dass der Prädiktor signifikant ist.
Was ist eine Varianzanalyse in der multiplen Regression?
Eine Methode, um die erklärte und unerklärte Varianz zu zerlegen.
Was ist ein globales Modell?
Ein Modell, das alle verfügbaren Prädiktoren verwendet.
Was ist ein reduziertes Modell?
Ein Modell, das nur einen Teil der Prädiktoren verwendet.
Wann wird ein Prädiktor als irrelevant betrachtet?
Wenn er keinen signifikanten Einfluss auf das Kriterium hat.
Wie wird das Standardfehler des Koeffizienten interpretiert?
Es zeigt die Genauigkeit der Schätzung des Regressionskoeffizienten an.
Was zeigt ein hoher Standardfehler des Koeffizienten an?
Dass der Regressionskoeffizient ungenau geschätzt wird.
Was ist eine Kreuzvalidierung in der multiplen Regression?
Eine Methode, um die Generalisierbarkeit des Modells zu überprüfen.
Was ist Overfitting in der multiplen Regression?
Wenn das Modell zu spezifisch auf die Trainingsdaten angepasst ist und auf neuen Daten schlecht funktioniert.
Wie wird Overfitting in der Regression vermieden?
Durch die Verwendung von Kreuzvalidierung oder Regularisierung.
Was ist eine Regularisierung in der Regression?
Eine Methode, die Bestrafungen für hohe Koeffizienten einführt, um Overfitting zu vermeiden.
Was ist Ridge Regression?
Eine Art der Regularisierung, bei der eine Strafe für große Regressionskoeffizienten hinzugefügt wird.
Was ist Lasso Regression?
Eine Regularisierungsmethode, die einige Regressionskoeffizienten auf Null setzt, um irrelevante Prädiktoren zu eliminieren.
Was ist der Unterschied zwischen Ridge und Lasso Regression?
Ridge bestraft hohe Koeffizienten, setzt sie aber nicht auf Null; Lasso kann Koeffizienten komplett eliminieren.
Wann wird eine logarithmische Transformation in der Regression verwendet?
Wenn die Beziehung zwischen Prädiktoren und Kriterium nicht linear ist.
Was zeigt ein hoher Durbin-Watson-Wert an?
Dass die Residuen wahrscheinlich eine positive Autokorrelation aufweisen.
Was ist ein Vorhersageintervall in der Regression?
Ein Bereich, der den wahrscheinlichen Wert einer zukünftigen Beobachtung angibt.
Wie unterscheidet sich das Konfidenzintervall vom Vorhersageintervall?
Das Konfidenzintervall gibt die Unsicherheit der Schätzung des Mittelwerts an, das Vorhersageintervall die Unsicherheit einer einzelnen Vorhersage.
Was ist ein Dummy-Variable-Trap?
Eine Situation, in der durch Überkodierung von kategorialen Prädiktoren Multikollinearität entsteht.
Wie wird der Dummy-Variable-Trap vermieden?
Durch das Entfernen einer Kategorie als Referenz.
Was ist eine Spline-Regression?
Eine Methode, um lineare und nichtlineare Beziehungen zu kombinieren.
Was ist die Hauptannahme der Linearität in der multiplen Regression?
Dass die Beziehung zwischen den Prädiktoren und dem Kriterium linear ist.
Was sind Outlier in der multiplen Regression?
Beobachtungen, die extrem weit von den vorhergesagten Werten entfernt sind.
Wie werden Ausreißer in der Regression erkannt?
Mit Hilfe von Residualplots oder der Cook’s Distanz.
Was ist die Cook’s Distanz?
Ein Maß, das zeigt, wie stark eine einzelne Beobachtung die Regressionslinie beeinflusst.
Wann sollte eine Beobachtung basierend auf der Cook’s Distanz entfernt werden?
Wenn der Wert größer als 1 ist, kann dies auf einen starken Einfluss hinweisen.
Was ist ein Einflusspunkt in der Regression?
Eine Beobachtung, die einen disproportionalen Einfluss auf die Schätzung der Regressionskoeffizienten hat.
Was sind Hebelwerte in der Regression?
Ein Maß dafür, wie weit eine Beobachtung von den anderen Beobachtungen abweicht.
Was ist der Unterschied zwischen Hebelwerten und Residuen?
Hebelwerte messen den Einfluss einer Beobachtung auf die unabhängigen Variablen, Residuen messen die Differenz zwischen beobachteten und vorhergesagten Werten.
Wann sollte man Residuen transformieren?
Wenn die Annahmen der Normalverteilung oder Homoskedastizität verletzt sind.
Was zeigt ein signifikanter F-Wert an?
Dass das Modell insgesamt signifikant ist.
Was ist eine quadratische Regression?
Eine Erweiterung der linearen Regression, bei der ein quadratischer Term hinzugefügt wird, um nichtlineare Beziehungen zu modellieren.
Wann wird eine Interaktion zwischen Prädiktoren in die Regression aufgenommen?
Wenn der Effekt eines Prädiktors von einem anderen abhängt.
Wie erkennt man Multikollinearität ohne VIF?
Durch hohe Korrelationen zwischen den Prädiktoren.
Was zeigt ein kleiner p-Wert für einen Prädiktor an?
Dass der Prädiktor signifikant zur Vorhersage des Kriteriums beiträgt.
Was ist eine polynomische Regression?
Eine Regression, bei der Polynomterme (z. B. X^2, X^3) hinzugefügt werden, um nichtlineare Beziehungen zu modellieren.
Wie ist der Ablauf des Wilcoxon-Vorzeichen-Rangtests?
Die Differenzen der Werte werden gebildet, rangiert und die positiven und negativen Ränge werden summiert.
Welche Datenart wird beim Kruskal-Wallis-Test verwendet?
Ordinalskalierte oder nicht normalverteilte intervallskalierte Daten.
Was ist der Nullhypothese beim Chi-Quadrat-Test?
Dass keine Abhängigkeit zwischen den Variablen besteht.
Wie wird die Effektgröße beim Kruskal-Wallis-Test berechnet?
Durch den Vergleich der Rangsummen und der Stichprobengrößen.
Wie wird beim Mann-Whitney-U-Test mit Bindungen umgegangen?
Es werden mittlere Ränge vergeben, um die Gleichheit der Verteilungen zu prüfen.
Was ist der kritische Wert im Kruskal-Wallis-Test?
Ein Wert aus der χ²-Verteilungstabelle, der mit dem H-Wert verglichen wird.
Was zeigt ein hoher H-Wert im Kruskal-Wallis-Test?
Dass es Unterschiede zwischen den Gruppen gibt.
Welche Skalenniveaus sind für den Friedman-Test geeignet?
Ordinalskalierte Daten oder intervallskalierte Daten, die nicht normalverteilt sind.
Was ist das Ziel des Chi-Quadrat-Tests?
Zu prüfen, ob die beobachteten Häufigkeiten von den erwarteten Häufigkeiten abweichen.
Wie unterscheidet sich der Wilcoxon-Test vom Mann-Whitney-U-Test?
Der Wilcoxon-Test wird für abhängige, der Mann-Whitney-U-Test für unabhängige Stichproben verwendet.
Welche Art von Daten benötigt der Wilcoxon-Vorzeichen-Rangtest?
Abhängige Stichproben mit ordinalskalierten Daten.
Welche Tests sind Alternativen zur ANOVA bei ordinalsalierten Daten?
Kruskal-Wallis-Test und Friedman-Test.
Was zeigt ein signifikantes Ergebnis im Friedman-Test an?
Dass es signifikante Unterschiede zwischen den Gruppen gibt.
Was sind die Voraussetzungen für den Chi-Quadrat-Test?
Unabhängige Zufallsstichproben und ausreichend große erwartete Häufigkeiten.
Wie wird ein Ergebnis im Mann-Whitney-U-Test als signifikant interpretiert?
Wenn der U-Wert kleiner als der kritische Wert ist, ist das Ergebnis signifikant.
Was ist ein ungerichteter Test?
Ein Test, der in beide Richtungen prüft, ohne eine Richtung vorzuziehen.
Was ist ein gerichteter Test?
Ein Test, der nur in eine Richtung prüft, also nur positive oder negative Abweichungen.
Welche Art von Daten benötigt der Kruskal-Wallis-Test?
Ordinalskalierte oder nicht normalverteilte intervallskalierte Daten.
Wie wird Kendall’s W verwendet?
Es wird verwendet, um die Übereinstimmung zwischen mehreren Beurteilern zu bestimmen.
Was sind die Hauptvorteile von non-parametrischen Tests?
Sie erfordern weniger strikte Voraussetzungen und können bei kleineren Stichproben verwendet werden.