Andy Field forelesninger i regresjon Flashcards
Hva er likningen i en lineær modell?
Hva er b1?
Beta1 er verdien/parameteret til prediktorvariabel 1 (X1)
b1 representerer styrken og retningen av relasjonen mellom prediktor 1 og Y
Den bestemmer skråningen til regresjonslinjen ettersom den
Hva er b0?
beta0 er verdien av utfallsvariabelen (Y) når X/prediktor er lik null
Den bestemmer hvor regresjonslinjen skal krysse Y-aksen (skjæringspunktet), og refereres til som interseptet.
Hva har b0 og b1 til felles?
De er begge betaer, og er parametre som representerer ulike ting.
De er med på å forme regeresjonslinjen/modellen og definerer hvordan den ser ut
Parameterne (beta-ene) er med på å konstruere en modell som lar oss skape prediksjoner som går ut over vår data.
Kan man ha flere prediktorer?
Vi kan ha flere enn en, men da kalles det for en multippel regresjons modell.
Hva har b1, b2, b3 ovs. til felles?
De er estimater av populasjonsparameterne
Hva må du se på når du tolker beta-er?
Konfidensintervaller
Signifikans-nivå
Dens verdi
Hvorfor må du se på CI til en beta?
Dersom tallet 0 er en del av betaens CI er det en sannsynlighet for at det er slik i populasjons parameteret er 0 og at det ikke er noen effekt.
Hvorfor må du se på signifikans-nivået til en beta og hvordan kan du gjøre dette?
Du kan sig-teste en beta gjennom en t-test.
T-testen sammenlikner verdien av betaen og null
Tallet null representerer på en måte null hypotesen ettersom denne verdien vi gi en horisontal regresjonslinje og da ingen effekt.
T-test verdien gir en p-verdi som sier sannsynligheten for at parameter verdien er større enn 0.
En signifikant p-verdi her betyr at prediktoren er signifikant forskjellig fra 0, og bidrar signifikant til modellen
Dersom vi får en ikke-signifikant p-verdi betyr det at parameteret er lik 0, noe som vil gi en flat regresjonslinje, og vil tyde på at det ikke er noen effekt av dette parameteret
Hvorfor må du se på betaens verdi?
Beta-verdien er en effekt størrelse i seg selv som kvantifiserer relasjonen mellom b1 og Y
Når er parameterne optimale?
Når residualene er normalfordelt og når vi har homoskedastisitet (lik varians).
Hvilke assumptions være oppfylt for at vi skal kunne stole på betaens signifikans test og CI?
Utvalget må være normalfordelt
Homoskedastisitet
Uavhengige observasjoner
Hva kan vi gjøre dersom vi har brutt noen av assumptionsene, og vi føler at vi ikke kan stole på CI eller t-testen?
Da kan vi gjøre noe som kalles for bootstrapping i SPSS
Dersom assumptions er brutt for parameterne skal du se på verdiene i output for “Bootstrap for coefficents” i stedet for vanlig “coefficents”
Hva er bootstrapping?
Bootstrapping er en prosess der vi kan generere robuste estimater basert på utvalgets data.
Denne metoden er upåvirket av fordelingen av skårer og bryr seg ikke om assumptions er brutt.
Hvordan er prosessen i bootstrapping?
Om vi er interessert i parameteret “gjennomsnitt” så må vi konstruere et bootstrap utvalg (SPSS gjør dette).
Dette gjøres ved at en data (tilfeldig i utvalgt av alle data) velges ut og memorieres av SPSS og settes tilbake med de andre. Denne utvalgsprosessen repeteres flere ganger. Dette kalles “re-sampling”. På denne måten kan de samme skårene bli tatt flere ganger.
De tilfeldig utvalgte data kalles da for bootstrap utvalg. Basert på dette utvalget regner SPSS ut et gjennomsnitts parameter.
Deretter repeteres HELE denne prosessen på nytt 1000 ganger - og du får 1000 gjennomsnitts parameter.
Om vi vil vite bootstrap/den robuste gjennomsnitt estimatet så tar vi bare gjennomsnittet av disse 1000.
Hva er model Sum of Squares (SSm)?
Varians som modellen forklarer
Forskjellen mellom det gjennomsnittet predikerer (grand mean) og det som linjen/modellen predikerer.
Forskjellen mellom de to linjene.
Hva er Total Sum of Squares (SSt)?
Den viser til den totale variansen
Forskjellen mellom det gjennomsnittet predikerer (grand mean) og den faktiske data
Hva er Residual Sum of Squares (SSr) ?
Den viser til feilvarians og er forskjellen mellom regresjonslinjen (modellen) og de faktiske data.
Dersom modellen resulterer i bedre prediksjoner enn å bruke gjennomsnittet (grand mean), hvordan bør forholdet mellom SSm og SSr være?
Da bør SSm være større enn SSr
Dette er fordi SSm viser til hvor mye forbedring det har skjedd på grunn av modellen, og SSr viser til feil i modellen
Hva er formelen til f-verdien og hva sier den noe om?
Den sier hvor mye modellen er forbedret delt på hvor mye feil den har
Hva er R^2, og hva er dens formel?
Den sier hvor stor andel av variansen som forklares av modellen
Den sier altså noe om hvor godt modellen passer data
R^2= 0.3, dette betyr at vår modell forklarer 30% av variansen
Den kan også regnes ut ved å ta korrelsasjonskoeffisenten mellom observert og predikert skår opphøyet i andre
Hva er justert R^2?
Justert R2 er et estimat av hva R2 vil være i populasjonen, ofte er den derfor mindre.