Meervoudige & Logistische regressie Flashcards

1
Q

Wat is het doel van meervoudige lineaire regressie?

A

Voorspellen of verklaren van een afhankelijke variabele op basis van één of meerdere onafhankelijke variabelen met zo min mogelijke error (methode van de kleinste kwadraten)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat zijn de parameters van een regressierechte?

A

Ŷ: Dit staat voor de voorspelde of geschatte waarde van de afhankelijke variabele Y op basis van de enkelvoudige regressieanalyse.

β0: Dit staat voor de intercept of de Y-intercept van de regressielijn. Het geeft de verwachte waarde van Y wanneer X gelijk is aan nul. Het is het punt waarop de regressielijn de Y-as snijdt.

β1: Dit staat voor de regressiecoëfficiënt of de helling van de regressielijn. Het geeft de verandering in de verwachte waarde van Y weer bij een eenheidstoename in X. Het geeft de richting en de mate van de lineaire relatie tussen X en Y aan.

ε: Dit staat voor de foutterm of residu. Het vertegenwoordigt het verschil tussen de werkelijke waarde van Y en de voorspelde waarde Ŷ op basis van de regressielijn. Het is een maat voor de onverklaarde variantie in het model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat zijn SST, SSE en SSR

A

SST: Dit staat voor de som van de kwadraten van Y, dat wil zeggen de totale variantie in de afhankelijke variabele.

SSE: Dit staat voor de som van de kwadraten van de residuen, dat wil zeggen de som van de gekwadrateerde afwijkingen tussen de werkelijke waarden van Y en de voorspelde waarden Ŷ.

SSR: Dit staat voor de som van de kwadraten van de regressie, dat wil zeggen de som van de gekwadrateerde afwijkingen tussen de voorspelde waarden Ŷ en het gemiddelde van Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat is R² en adjusted R²?

A

**R²: ** Determinatiecoëfficiënt, een maat voor de proportie van de variantie in de afhankelijke variabele die wordt verklaard door de regressielijn. Het varieert tussen 0 en 1 en geeft de mate van fit van het enkelvoudige regressiemodel aan.
-R² is de fractie van de variantie in de verklaarde variabele y die wordt verklaard door de verklarende variabelen x1, x2, …, xp

▪ R² is de proportionele reductie van de fout bij de voorspelling van y ahv de regressievergelijking tov de fout gemaakt zonder kennis van de regressievergelijking

▪ R² wordt beïnvloed door het aantal verklarende variabelen in verhouding tot het aantal waarnemingen (de steekproefgrootte).

▪ Er bestaan vele vuistregels die stellen dat er per verklarende variabele tussen** 4 tot 15 waarnemingen **moeten zijn.

▪ Als er minder waarnemingen zijn kan een regressiemodel de data “overfitten (= modelleren met teveel factoren). De voorspellende kracht is schijnbaar heel hoog, maar ruis wordt mee gemodelleerd. Hierdoor worden te optimistische resultaten bekomen. Daarom wordt een “adjusted coefficient of determination” of “adjusted R²” gegeven.

**Adjusted R² = **
wordt kleiner naarmate er minder waarnemingen zijn.

▪ Aangepaste R-kwadraat (aangepaste R²): wordt gebruikt om de kwaliteit van een meervoudige lineaire regressie te evalueren

▪ Het doel van de aangepaste R² is om een betrouwbare schatting te geven van hoe goed het regressiemodel de variabiliteit in de afhankelijke variabele kan verklaren, rekening houdend met het aantal voorspellende variabelen in het model. Het is een schatting van de proportie van de variantie in de afhankelijke variabele die wordt verklaard door de voorspellende variabelen.

▪ De aangepaste R² houdt rekening met de vrijheidsgraden in het model, met name het aantal voorspellende variabelen en het aantal waarnemingen. Het corrigeert de R²-waarde voor de complexiteit van het model, zodat het niet onnodig wordt opgeblazen door het toevoegen van extra variabelen die weinig bijdragen aan de voorspelling.

Nadelen van R² :
❖ Er is overschatting bij een kleine N
❖ R² stijgt naarmate het aantal onafhankelijke variabelen stijgt
❖ Het specifiek voor het model

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

weet hoe je betrouwbaarheidsintervallen en significantietietsen opstelt voor β

A

(zie p22 “MDA -90p samenvatting”)

De β’s zijn gewichten die je geeft aan elk van de verklarende variabelen. De hoger deze beta, hoe meer deze bijdraagt.
Voor je een uitspraak kunt doen, moet je zorgen dat alle variabelen dezelfde meetschaal heeft. Dit doe je door te standaardiseren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is een onafhankelijke variabele?

A

Een verklarende variabele die invloed uitoefent op de afhankelijke variabele.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

wat is de fit van een regressierechte?

A

Dit zijn de voorspelde waarden van de afhankelijke variabele op basis van de regressievergelijking. De fit wordt berekend door de regressievergelijking toe te passen op de onafhankelijke variabele(n) en de geschatte regressiecoëfficiënt(en).
Verwijst naar hoe goed een regressielijn past bij de gegeven data. Dit wordt vaak beoordeeld met statistische maatstaven zoals:

𝑅-square (coëfficiënt van determinatie)
Geeft aan welk percentage van de variatie in de afhankelijke variabele (𝑌) wordt verklaard door de onafhankelijke variabele (𝑋).
Waarde tussen 0 en 1: Hoe dichter bij 1, hoe beter de fit.

Residual Sum of Squares (RSS)
De som van de gekwadrateerde verschillen tussen de waargenomen en de voorspelde waarden. Een lagere RSS betekent een betere fit.

Mean Squared Error (MSE) en Root Mean Squared Error (RMSE)
MSE: Gemiddelde van de gekwadrateerde residuen. RMSE: De wortel van de MSE, geeft een maat voor de gemiddelde fout.

P-waarden en t-toetsen
Worden gebruikt om te testen of de regressiecoëfficiënten significant verschillend zijn van nul.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is een afhankelijke variabele?

A

De verklaarde variabele die het resultaat is van de onafhankelijke variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat betekent het dat verklaren impliceert voorspellen, maar niet omgekeerd?

A

Verklaren houdt in dat je de oorzaken van een variabele begrijpt, terwijl voorspellen kan plaatsvinden zonder de oorzaken te kennen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat is de regressiecoëfficiënt (b1) in een regressiemodel?

A

De gemiddelde toe- of afname van de afhankelijke variabele wanneer de onafhankelijke variabele met één eenheid stijgt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat is de constante (b0) in een regressiemodel?

A

De waarde van de afhankelijke variabele wanneer de onafhankelijke variabele gelijk is aan 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is de formule voor een enkelvoudige regressie?

A

ŷ = b1x + b0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is de standaarddeviatie (σ) in regressieanalyse?

A

De spreiding rond de populatie regressievergelijking.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wat is een residu?

A

Dit zijn de onverklaarde restwaarden tussen de geobserveerde gegevens en de voorspelde waarden (fit). Het residu geeft de mate aan waarin de regressie niet in staat is om alle variabiliteit in de gegevens te verklaren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is het doel van het minimaliseren van residuen in regressieanalyse?

A

Om de kleinste kwadraten (OLS) te bereiken, zodat de voorspellingen zo nauwkeurig mogelijk zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is de determinatiecoëfficiënt (R²)?

A

De fractie van de variantie in de afhankelijke variabele die wordt verklaard door de onafhankelijke variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Wat is de betekenis van het adjusted R²?

A

Een aangepaste versie van R² die rekening houdt met het aantal verklarende variabelen en steekproefgrootte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Wat is de rol van de ANOVA-tabel in regressieanalyse?

A

Om de variantie tussen de modellen en de fout te analyseren en hypothesen te toetsen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wat zijn de hypothesen voor de t-toets in regressieanalyse?

A

H0: βi = 0; Ha: βi ≠ 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Wat is het effect van het toevoegen van irrelevante onafhankelijke variabelen op R²?

A

R² stijgt, zelfs als de toegevoegde variabelen geen relevante informatie bieden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

vaarvoor dient variantieanalyse in regressie?

A

Wordt gebruikt om de kwaliteit van een regressiemodel na te gaan. Hierbij worden de afwijkingen tussen een observatie en het rekenkundig gemiddelde bekeken (y-𝒚̿). Dit kan worden toegeschreven aan twee factoren:
o Afwijking van de schatting tegenover het rekenkundig gemiddelde (𝑦̅𝑖− 𝑦)̅̅̅
o Afwijking van de observatie tegenover de schatting (yi - 𝑦𝑖̂)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Wat betekent het als een regressiemodel de data ‘overfit’?

A

dat het model te nauwkeurig de specifieke details en ruis van de trainingsdata heeft geleerd, in plaats van de algemene patronen die op nieuwe, onbekende data van toepassing zijn. Dit leidt vaak tot een model dat uitstekend presteert op de trainingsdata, maar slechter generaliseert naar nieuwe data, omdat het zich te veel aanpast aan toevallige fluctuaties of irrelevante variaties in de gegevens. Overfitting gebeurt meestal wanneer het model te complex is in verhouding tot de hoeveelheid beschikbare data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hoe ga je de kwaliteit van een regressiemodel na?

A

via een variantieanalyse (ANOVA) (zie aparte “Statistiek IV volledige samenvatting -laatste pagina” voor MSR en R² te berekenen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wat is de betekenis van de term ‘uitbijter’ in de context van dataverkenning?

A

Een waarneming die significant afwijkt van andere gegevenspunten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Wat is het belang van de normaliteit van de variabelen in meervoudige regressie?
Normaliteit is geen vereiste voor de onafhankelijke variabelen; enkel voor de afwijkingen tussen de waarnemingen en hun verwachtingen (residuen).
26
Wat zijn de vrijheidsgraden in de ANOVA-tabel?
n - (aantal te schatten β's + intercept)
27
Wat zijn de standaarddeviaties van de residuals?
De standaarddeviatie van de schattingsfouten in het model.
28
Wat kan een meervoudige lineaire regressie weergeven?
o De **richting en sterkte** van de relatie tussen de afhankelijke variabele en elke onafhankelijke variabele te bepalen. o De **individuele bijdrage** van elke onafhankelijke variabele aan de voorspelling van de afhankelijke variabele te analyseren. o Een **voorspellend model op te stellen** om waarden van de afhankelijke variabele te schatten op basis van waarden van de onafhankelijke variabelen. o **Hypothesen te testen **over de significante effecten van de onafhankelijke variabelen op de afhankelijke variabele. o De **nauwkeurigheid en validiteit** van het regressiemodel te beoordelen aan de hand van statistische maatstaven zoals de R-kwadraat, de gecorrigeerde R-kwadraat, de F-test en de p-waarden.
29
Ken de begrippen **endogene var., exogene var., verklaarde var. en verklarende var.**
Endogene (afhankelijke) variabelen Exogene (onafhankelijke) variabelen Verklaarde (afhankelijke) variabelen Verklarende (onafhankelijke) variabelen
30
Wat is de rol van de correlatiematrix in het regressiemodel?
Geeft de intercorrelaties tussen voorspellers weer.
31
Wat is de betekenis van R² in regressieanalyse?
Geeft de proportie van de variantie in de afhankelijke variabele aan die verklaard wordt door de onafhankelijke variabelen.
32
Wat is multicollineariteit?
Wanneer verklarende variabelen sterk gecorreleerd zijn, wat problemen kan veroorzaken bij het bestuderen van hun impact.
33
Wat zijn de implicaties van een hoge multicollineariteit?
* De geschatte waarden van de **parameters** kunnen **onbetrouwbaar** en wisselend zijn. * Het wordt lastig om de **impact** van **afzonderlijke variabelen **te begrijpen, omdat ze sterk met elkaar samenhangen. * De **voorspellingen** kunnen **minder nauwkeurig en minder betrouwbaar** worden door deze onderlinge samenhang tussen variabelen.
34
Wat is de tolerantie in de context van multicollineariteit?
De proportie van de variantie van een onafhankelijke variabele die niet verklaard wordt door andere onafhankelijke variabelen. Hoe groter, hoe beter. Als TOL < 0.5; kans op multicollineariteit 𝑅² is de proportie die je wel kan verklaren TOL = 1 – R² is de hoeveelheid variantie in de ene OV ze niet kunnen verklaren door kennis in andere variabelen (R² = een speciale vorm)
35
Waarvoor dient VIF (variantie-inflatiefactor)
Dient om multicollineariteit te meten, net zoals * de correlatiematrix tussen voorspellende variabelen, * de determinant van de correlatiematrix, * de conditionele index
36
Wat is de formule voor de Variance Inflation Factor (VIF)?
VIF = 1/Tolerantie.
37
Wat is een binair logistisch regressiemodel?
Een model waarbij de afhankelijke variabele categorisch is, met twee mogelijke uitkomsten (bijv. ja/nee).
38
Wat betekent odds in de context van logistische regressie?
De verhouding tussen de kans op succes en de kans op mislukking.
39
Wat is een odds-ratio?
De verhouding van de odds van twee groepen. o De kans op "succes" (p) is gelijk en consistent voor elke waarneming. o Het aantal "successen" (Y) volgt een binomiale verdeling met parameters n (aantal pogingen) en p (kans op succes bij elke poging).
40
Wat is het verschil tussen kansen en odds?
Kans is de waarschijnlijkheid van een gebeurtenis, terwijl odds de verhouding van kansen zijn.
41
ODDS verhouding vs kans verhouding
***(zie p32 MDA 90p samenvatting)*** ▪ **Doel** = samenhang nagaan tussen de odds (kansverhouding) en een verklarende variabele x ▪ De kansverhouding is een directe maat voor de relatieve kans of het risico op de gebeurtenis in beide groepen. ▪ De odds is de verhouding van de kans op het optreden van de gebeurtenis ten opzichte van de kans op het niet optreden van de gebeurtenis. ▪ In tegenstelling tot de kansverhouding is de oddsverhouding geen directe maat voor het risico, maar een maat voor de associatie tussen blootstelling en gebeurtenis.
42
Wat geeft een normaal-kwantiel-diagram aan in regressieanalyse?
Of de residuen normaal verdeeld zijn.
43
44
Wat is de betekenis van de term 'significant' in regressieanalyse?
Dat de variabele een statistisch relevante bijdrage levert aan het model.
45
Wat is een dummy-variabele?
Een variabele die een categorische waarde omzet in een numerieke waarde (bijv. man/vrouw).
46
Wat is de rol van betrouwbaarheidsintervallen (BI) in regressieanalyse?
Ze geven een bereik aan waarbinnen de werkelijke waarde van een parameter met een bepaalde waarschijnlijkheid ligt.
47
Hoe wordt de kans op succes in logistische regressie berekend?
Als de verhouding van het aantal successen tot het aantal pogingen.
48
Wat is de impact van het toevoegen van verklarende variabelen aan een regressiemodel?
Het kan de regressiecoëfficiënten en hun significantietoetsen veranderen.
49
Wat betekent 'statistisch significant' in de context van regressieanalyse?
Dat de kans dat het effect door toeval is veroorzaakt zeer klein is.
50
Wat is het belang van het onderzoeken van residuen?
Om de geschiktheid van het regressiemodel voor de data te controleren.
51
Wat is een voorbeeld van een afhankelijke variabele in logistische regressie?
Of een patiënt blijft leven (ja/nee).
52
Wat zijn de twee soorten logistische regressie?
* Binair * Multinomiaal
53
Wat is de betekenis van 'kansverhouding' in de context van odds?
De verhouding van de kans op een bepaalde uitkomst ten opzichte van een andere uitkomst.
54
Wat houdt de term 'verfijning van het model' in?
Het proces waarbij het model wordt aangepast door variabelen toe te voegen of te verwijderen.
55
Wat geeft de Pearson Correlatie aan?
De sterkte en richting van de lineaire relatie tussen twee variabelen.
56
Wat is de hypothese H0 in het significante toetsingsproces voor de odds ratio?
H0: ODDS ratio = 1 ## Footnote Dit betekent dat er geen verschil is in odds/kansverhoudingen.
57
Wat is de rol van de onafhankelijke variabele (OV) in de context van de odds ratio?
De OV helpt niet om de odds te voorspellen ## Footnote Dit is de hypothese die wordt getest.
58
Wat is de formule voor de z-toets in het betrouwbaarheidsinterval?
z ≈ N(0,1) ## Footnote Dit is de transformatie van het betrouwbaarheidsinterval voor de helling β1.
59
Wat betekent een significant resultaat in de context van logistische regressie?
Het model vertoont een significant betere fit dan het nulmodel ## Footnote Dit wordt vaak getest met een χ²-toets.
60
Wat is de betekenis van de term Pseudo R² in logistische regressie?
Geeft de kwaliteit van het model aan ## Footnote Het is een maat voor de hoeveelheid variantie die door het model wordt verklaard.
61
Wat zijn de voordelen van logistische regressie?
Beperkte assumpties: * IV hoeven niet normaal verdeeld te zijn * Homoscedasticiteit wordt niet verondersteld * Niet-lineaire effecten kunnen onderzocht worden * IV mogen op meetniveau lager dan interval zijn * IV mogen ook begrensd zijn ## Footnote Dit maakt logistische regressie flexibeler in gebruik.
62
Wat zijn de nadelen van logistische regressie?
* Vereist relatief veel data (±50 cases per IV (= onafh var)) * Beperkt tot binaire uitkomsten: Als de uitkomst meer dan twee categorieën heeft, moet een uitbreiding van logistische regressie, zoals multinomiale logistische regressie, worden gebruikt. * Logistische regressie kan gevoelig zijn voor multicollineariteit ## Footnote Dit kan een beperking zijn in studies met een klein aantal deelnemers.
63
Wat is de softmax-functie in de context van multinomiale logistische regressie?
Transformeert log-odds naar kansen die optellen tot 1 ## Footnote Elke categorie krijgt een eigen logistische regressie, behalve de referentiecategorie.
64
Wat is de referentiecategorie in een multinomiaal model?
De laatste categorie ## Footnote Dit is de categorie waartegen andere categorieën worden vergeleken.
65
Wat is de interpretatie van een -2 Log Likelihood waarde?
Hoe goed het model past (lager = beter) ## Footnote Dit helpt bij het vergelijken van modellen.
66
Wat is de kans dat een waarneming in de referentiecategorie valt?
Wordt berekend als de restwaarde van het totaal ## Footnote Dit is het complement van de kansen van andere categorieën.
67
Hoe detecteer en corrigeer je multicollineariteit?
**Detectie**: * **VIF** (Variance Inflation Factor): Een VIF-waarde hoger dan 10 wijst op ernstige multicollineariteit. * **Correlatiematrix**: Hoge correlaties (r > 0.8) tussen onafhankelijke variabelen kunnen een teken zijn. * **Eigenwaarden** en condition index: Een hoge condition index (>30) duidt op multicollineariteit. **Correctie:** 1. Een van de sterk gecorreleerde variabelen verwijderen. 2. Variabelen combineren (bijvoorbeeld door hoofdcomponentenanalyse - PCA). 3. Gebruik van regularisatietechnieken zoals Ridge Regression.
68
Wat zijn assumpties van meervoudige lineaire regressie?
1. Lineariteit: De relatie tussen onafhankelijke en afhankelijke variabelen is lineair. 2. Geen multicollineariteit: Onafhankelijke variabelen mogen niet sterk met elkaar correleren. 3. Homoscedasticiteit: De variantie van de residuen moet constant zijn. 4. Normaliteit van de residuen: Residuen moeten normaal verdeeld zijn. 5. Onafhankelijkheid van observaties: Residuen mogen geen autocorrelatie vertonen (bijv. geen patroon in tijdreeksen).
69
Wat zijn de assumpties van logistische regressie?
o **Lineaire** **relatie**: er wordt **geen** aanname gemaakt van een lineaire relatie tussen de onafhankelijke variabelen en de logaritme van de kans op succes. In plaats daarvan wordt de relatie gemodelleerd met behulp van logaritmische transformaties en logistische functies. o **Normaal verdeelde fouten**: maakt **geen** aanname van normaal verdeelde fouten, zoals bij lineaire regressie het geval is. Dit komt doordat de uitkomstcategorieën binair zijn en niet voldoen aan de aannames van een normale verdeling. o **Homoscedasticiteit**: vereist **geen** homoscedasticiteit, wat betekent dat de variantie van de fouttermen niet constant hoeft te zijn over verschillende waarden van de onafhankelijke variabelen. o **Onafhankelijkheid van de fouten**: Hoewel logistische regressie de aanname van onafhankelijkheid van de fouten deelt met lineaire regressie, is deze aanname **minder kritisch** in logistische regressie vanwege de manier waarop de kansverhoudingen worden geschat. → Het verminderen van deze aannames maakt **logistische regressie flexibeler en breder toepasbaar **bij het modelleren van categorische uitkoms
70
Op welke soort data worden Logistische en meervoudige lineaire regressie uitgevoerd?
**Meervoudige lineaire regressie** * Afhankelijke variabele (Y): Continu (interval of ratio) → Bijvoorbeeld inkomen, temperatuur, bloeddruk. * Onafhankelijke variabelen (X): Continu of categorisch → Bijvoorbeeld leeftijd (continu), geslacht (dummyvariabele: 0 = man, 1 = vrouw). **Voorbeeld**: Voorspellen van huizenprijzen op basis van vierkante meters, aantal kamers en de locatie (dummyvariabele). **Logistische regressie** * Afhankelijke variabele (Y): Binaire of categorische variabele → Bijvoorbeeld ziek/niet ziek, gekocht/niet gekocht (0 of 1). * Onafhankelijke variabelen (X): Continu of categorisch → Bijvoorbeeld leeftijd, geslacht, inkomen. **Voorbeeld**: Voorspellen of een klant een product koopt (1 = ja, 0 = nee) op basis van leeftijd, geslacht en marketinguitgaven.
71
rapportage van meervoudige regressie
Een meervoudige lineaire regressie werd uitgevoerd met ... als verklaarde variabele en ..., ..., ... en ... als verklarende variabelen. Het model geeft aan dat minstens 1 verklarende variabele significant bijdraagt in het verklaren van ...(verklaarde variabele) (F(..., ...) = ..., p < ..., R² = ...). De andere onafhankelijke variabelen dragen niet significant bij aan de verklaring van ... (verklaarde variabele).