Overfitting und Modellwahl Kapitel 4 Flashcards

1
Q

Was bedeutet Überanpassung/overfitting?

A

Wenn ein Modell zu komplex ist, besteht die Gefahr, dass es sich zu stark an die vorliegenden Trainingsdaten anpasst und nicht mehr in der Lage ist, generalisierte Vorhersagen für neue, unabhängige Daten zu treffen. Das Modell “erinnert” sich an das Rauschen in den Trainingsdaten anstatt an die tatsächlichen Beziehungsmuster, was zu schlechten Vorhersagen führen kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was bedeutet BIAS?

A

Der Bias eines Modells ist der Unterschied zwischen dem erwarteten Vorhersagewert des Modells und dem tatsächlichen Wert in den Daten. Ein Modell mit einem hohen Bias neigt dazu, systematische Fehler zu machen, weil es zu vereinfacht ist und die tatsächliche Beziehung zwischen den Variablen nicht korrekt erfasst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was bedeutet Varianz eines Modells?

A

Die Varianz eines Modells misst, wie stark die Vorhersagen des Modells von einer spezifischen Datensatzkonfiguration zu anderen Datensatzkonfigurationen variieren. Ein Modell mit hoher Varianz reagiert empfindlich auf kleine Änderungen in den Trainingsdaten und neigt dazu, Overfitting zu zeigen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist das Bias-Varianz-Dilemma?

A

Mit zunehmender Komplexität eines Modells wird der Bias in der Regel kleiner, da das Modell in der Lage ist, komplexere Beziehungen zwischen den Variablen zu erfassen. Jedoch wird die Varianz der Vorhersagen mit zunehmender Komplexität des Modells in der Regel größer, weil das Modell empfindlicher auf die spezifischen Trainingsdaten reagiert und daher weniger generalisierbar wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Erkläre das Spannungsfeld zwischen Bias und Varianz

A

Es gibt also eine Art Spannungsfeld zwischen Bias und Varianz. Ein einfaches Modell mit niedriger Komplexität hat tendenziell einen höheren Bias und eine niedrigere Varianz, während ein komplexeres Modell mit höherer Komplexität einen niedrigeren Bias, aber eine höhere Varianz aufweist. Das Ziel besteht darin, das richtige Gleichgewicht zwischen Bias und Varianz zu finden, um ein Modell zu erstellen, das sowohl die zugrunde liegende Beziehung zwischen den Variablen korrekt erfasst als auch generalisierbare Vorhersagen für neue Daten liefert. Dies kann durch Techniken wie Cross-Validation, Modellselektion und Regularisierung erreicht werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Für was steht AIC und für was wird es verwendet?

A

Das Akaike Information Criterion ist ein Maß dafür, wie gut ein statistisches Modell die Daten passt, unter Berücksichtigung der Modellkomplexität. Die Idee hinter dem AIC ist, dass wir die Anpassung des Modells an die Daten (durch die Likelihood) mit der Modellkomplexität (durch den Strafterm 2p) ausbalancieren. Wenn das Modell zu komplex ist (viele Parameter), wird es mit einem höheren Strafterm belegt, was zu einem höheren AIC führt. Das präferierte Modell ist dann dasjenige mit dem kleinsten AIC-Wert, da es eine gute Balance zwischen Anpassung und Komplexität aufweist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Für was wird der adjusted R^2 verwendet?

A

Diese Grösse korrigiert ebenfalls für die Modellkomplexität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly