Meervoudige & Logistische regressie Flashcards
Wat is het doel van meervoudige lineaire regressie?
Voorspellen of verklaren van een afhankelijke variabele op basis van één of meerdere onafhankelijke variabelen met zo min mogelijke error (methode van de kleinste kwadraten)
Wat zijn de parameters van een regressierechte?
Ŷ: Dit staat voor de voorspelde of geschatte waarde van de afhankelijke variabele Y op basis van de enkelvoudige regressieanalyse.
β0: Dit staat voor de intercept of de Y-intercept van de regressielijn. Het geeft de verwachte waarde van Y wanneer X gelijk is aan nul. Het is het punt waarop de regressielijn de Y-as snijdt.
β1: Dit staat voor de regressiecoëfficiënt of de helling van de regressielijn. Het geeft de verandering in de verwachte waarde van Y weer bij een eenheidstoename in X. Het geeft de richting en de mate van de lineaire relatie tussen X en Y aan.
ε: Dit staat voor de foutterm of residu. Het vertegenwoordigt het verschil tussen de werkelijke waarde van Y en de voorspelde waarde Ŷ op basis van de regressielijn. Het is een maat voor de onverklaarde variantie in het model.
Wat zijn SST, SSE en SSR
SST: Dit staat voor de som van de kwadraten van Y, dat wil zeggen de totale variantie in de afhankelijke variabele.
SSE: Dit staat voor de som van de kwadraten van de residuen, dat wil zeggen de som van de gekwadrateerde afwijkingen tussen de werkelijke waarden van Y en de voorspelde waarden Ŷ.
SSR: Dit staat voor de som van de kwadraten van de regressie, dat wil zeggen de som van de gekwadrateerde afwijkingen tussen de voorspelde waarden Ŷ en het gemiddelde van Y.
Wat is R² en adjusted R²?
**R²: ** Determinatiecoëfficiënt, een maat voor de proportie van de variantie in de afhankelijke variabele die wordt verklaard door de regressielijn. Het varieert tussen 0 en 1 en geeft de mate van fit van het enkelvoudige regressiemodel aan.
-R² is de fractie van de variantie in de verklaarde variabele y die wordt verklaard door de verklarende variabelen x1, x2, …, xp
▪ R² is de proportionele reductie van de fout bij de voorspelling van y ahv de regressievergelijking tov de fout gemaakt zonder kennis van de regressievergelijking
▪ R² wordt beïnvloed door het aantal verklarende variabelen in verhouding tot het aantal waarnemingen (de steekproefgrootte).
▪ Er bestaan vele vuistregels die stellen dat er per verklarende variabele tussen** 4 tot 15 waarnemingen **moeten zijn.
▪ Als er minder waarnemingen zijn kan een regressiemodel de data “overfitten (= modelleren met teveel factoren). De voorspellende kracht is schijnbaar heel hoog, maar ruis wordt mee gemodelleerd. Hierdoor worden te optimistische resultaten bekomen. Daarom wordt een “adjusted coefficient of determination” of “adjusted R²” gegeven.
**Adjusted R² = **
wordt kleiner naarmate er minder waarnemingen zijn.
▪ Aangepaste R-kwadraat (aangepaste R²): wordt gebruikt om de kwaliteit van een meervoudige lineaire regressie te evalueren
▪ Het doel van de aangepaste R² is om een betrouwbare schatting te geven van hoe goed het regressiemodel de variabiliteit in de afhankelijke variabele kan verklaren, rekening houdend met het aantal voorspellende variabelen in het model. Het is een schatting van de proportie van de variantie in de afhankelijke variabele die wordt verklaard door de voorspellende variabelen.
▪ De aangepaste R² houdt rekening met de vrijheidsgraden in het model, met name het aantal voorspellende variabelen en het aantal waarnemingen. Het corrigeert de R²-waarde voor de complexiteit van het model, zodat het niet onnodig wordt opgeblazen door het toevoegen van extra variabelen die weinig bijdragen aan de voorspelling.
Nadelen van R² :
❖ Er is overschatting bij een kleine N
❖ R² stijgt naarmate het aantal onafhankelijke variabelen stijgt
❖ Het specifiek voor het model
weet hoe je betrouwbaarheidsintervallen en significantietietsen opstelt voor β
(zie p22 “MDA -90p samenvatting”)
De β’s zijn gewichten die je geeft aan elk van de verklarende variabelen. De hoger deze beta, hoe meer deze bijdraagt.
Voor je een uitspraak kunt doen, moet je zorgen dat alle variabelen dezelfde meetschaal heeft. Dit doe je door te standaardiseren
Wat is een onafhankelijke variabele?
Een verklarende variabele die invloed uitoefent op de afhankelijke variabele.
wat is de fit van een regressierechte?
Dit zijn de voorspelde waarden van de afhankelijke variabele op basis van de regressievergelijking. De fit wordt berekend door de regressievergelijking toe te passen op de onafhankelijke variabele(n) en de geschatte regressiecoëfficiënt(en).
Verwijst naar hoe goed een regressielijn past bij de gegeven data. Dit wordt vaak beoordeeld met statistische maatstaven zoals:
𝑅-square (coëfficiënt van determinatie)
Geeft aan welk percentage van de variatie in de afhankelijke variabele (𝑌) wordt verklaard door de onafhankelijke variabele (𝑋).
Waarde tussen 0 en 1: Hoe dichter bij 1, hoe beter de fit.
Residual Sum of Squares (RSS)
De som van de gekwadrateerde verschillen tussen de waargenomen en de voorspelde waarden. Een lagere RSS betekent een betere fit.
Mean Squared Error (MSE) en Root Mean Squared Error (RMSE)
MSE: Gemiddelde van de gekwadrateerde residuen. RMSE: De wortel van de MSE, geeft een maat voor de gemiddelde fout.
P-waarden en t-toetsen
Worden gebruikt om te testen of de regressiecoëfficiënten significant verschillend zijn van nul.
Wat is een afhankelijke variabele?
De verklaarde variabele die het resultaat is van de onafhankelijke variabelen.
Wat betekent het dat verklaren impliceert voorspellen, maar niet omgekeerd?
Verklaren houdt in dat je de oorzaken van een variabele begrijpt, terwijl voorspellen kan plaatsvinden zonder de oorzaken te kennen.
Wat is de regressiecoëfficiënt (b1) in een regressiemodel?
De gemiddelde toe- of afname van de afhankelijke variabele wanneer de onafhankelijke variabele met één eenheid stijgt.
Wat is de constante (b0) in een regressiemodel?
De waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan 0.
Wat is de formule voor een enkelvoudige regressie?
ŷ = b1x + b0
Wat is de standaarddeviatie (σ) in regressieanalyse?
De spreiding rond de populatie regressievergelijking.
Wat is een residu?
Dit zijn de onverklaarde restwaarden tussen de geobserveerde gegevens en de voorspelde waarden (fit). Het residu geeft de mate aan waarin de regressie niet in staat is om alle variabiliteit in de gegevens te verklaren.
Wat is het doel van het minimaliseren van residuen in regressieanalyse?
Om de kleinste kwadraten (OLS) te bereiken, zodat de voorspellingen zo nauwkeurig mogelijk zijn.
Wat is de determinatiecoëfficiënt (R²)?
De fractie van de variantie in de afhankelijke variabele die wordt verklaard door de onafhankelijke variabelen.
Wat is de betekenis van het adjusted R²?
Een aangepaste versie van R² die rekening houdt met het aantal verklarende variabelen en steekproefgrootte.
Wat is de rol van de ANOVA-tabel in regressieanalyse?
Om de variantie tussen de modellen en de fout te analyseren en hypothesen te toetsen.
Wat zijn de hypothesen voor de t-toets in regressieanalyse?
H0: βi = 0; Ha: βi ≠ 0
Wat is het effect van het toevoegen van irrelevante onafhankelijke variabelen op R²?
R² stijgt, zelfs als de toegevoegde variabelen geen relevante informatie bieden.
vaarvoor dient variantieanalyse in regressie?
Wordt gebruikt om de kwaliteit van een regressiemodel na te gaan. Hierbij worden de afwijkingen tussen een observatie en het rekenkundig gemiddelde bekeken (y-𝒚̿). Dit kan worden toegeschreven aan twee factoren:
o Afwijking van de schatting tegenover het rekenkundig gemiddelde (𝑦̅𝑖− 𝑦)̅̅̅
o Afwijking van de observatie tegenover de schatting (yi - 𝑦𝑖̂)
Wat betekent het als een regressiemodel de data ‘overfit’?
dat het model te nauwkeurig de specifieke details en ruis van de trainingsdata heeft geleerd, in plaats van de algemene patronen die op nieuwe, onbekende data van toepassing zijn. Dit leidt vaak tot een model dat uitstekend presteert op de trainingsdata, maar slechter generaliseert naar nieuwe data, omdat het zich te veel aanpast aan toevallige fluctuaties of irrelevante variaties in de gegevens. Overfitting gebeurt meestal wanneer het model te complex is in verhouding tot de hoeveelheid beschikbare data.
Hoe ga je de kwaliteit van een regressiemodel na?
via een variantieanalyse (ANOVA) (zie aparte “Statistiek IV volledige samenvatting -laatste pagina” voor MSR en R² te berekenen)
Wat is de betekenis van de term ‘uitbijter’ in de context van dataverkenning?
Een waarneming die significant afwijkt van andere gegevenspunten.