Week 5 Flashcards
M
The size of the hypothesis set H
What does sample complexity denote?
Denotes how many training examples N are needed to achieve a certain generalization performance.
What does the parameter epsilon denote?
the error tolerance, determines the allowed generalization error.
What does the parameter delta denote?
the confidence parameter, determines how often the error tolerance (epsilon) is violated.
Als dvc eindig is, dan is mH(N)…
mH(N) <_ N^(dvc + 1)
Bij een kleine dvc en een grote N is de kans groot dat…
Eout ~~ Ein
Kunnen verschillende hypothesen dezelfde dichotomie geven?
Ja, vaak zelfs.
Wat denoteert de VC-dimensie dvc?
Het is de grootste N zodat mH(N) = 2^N. Meet de complexiteit van hypotheseruimte H.
Wat is de formule voor het kleinste breekpunt van een hypotheseruimte H?
dvc+1
Wat is de Bias-variance analyse voor iets?
Een andere manier om naar het effect van model-complexiteit te kijken.
g(D)
de hypothese g die het algoritme zou kiezen bij data D.
Bias
Het kwadraat van de afstand tussen de gemiddelde hypothese -g- en de target functie f.
Waar kun je de groeifunctie en de VC-dimensie voor gebruiken?
Om te laten zien dat bij kleine dvc en grote N, de kans groot is dat E.in ~~ E.out.
Waar is de bias-variance analyse vooral goed voor?
Regressie met kwadratische fout.
Wat is de manier om E.out(g) op te splitsen in bias-variance analysis?
De afstand tussen f en de gemiddelde g, en de afstand tussen de gemiddelde g en g.
Wat is g(D) in bias-variance analysis?
De hypothese die ons algorithme zou kiezen bij dataset D.
Geef de formule voor de out-of-sample error bij kwadratische ruis:
E.out ( g(D) ) = E.x ( g(D)*x - f(x) ) ^2
Variance
Maat voor de gemiddelde afstand tussen hypothese g en de gemiddelde hypothese.
Wat is de bias-variance trade-off bij grotere hypotheseklasse?
Kleinere bias, maar grotere variance.
Welke twee eigneschappen tel je op als je wordt gevraagd: welke is beter in termen van kwadratische error?
Error = Bias + variance.
What is B(N,k) for k=1?
1
What is B(N,k) for N=1 and k>2?
2
What is a popular rule of thumb for the size of N in order to get a decent generalization?
N = 10 x dvc