Begreper ( start + avansert) Flashcards
Statistisk inferens (slutningsstatistikk):
Trekke slutninger om en bakenforliggende populasjon basert på et utvalg. - Estimering og hypotesetesting
Statistic practioner
En person som anvender statistiske teknikker på en korrekt utført måte.
Forskjell mellom statistisk signifikans og økonomisk signifikans
Med nok data blir selv den minste forskjell statistisk signifikant, men hva betyr estimatet? Er forskjellen viktig?
Hva er en teoretisk modell?
Forenklet bildet av virkeligheten. Inneholder begreper og påstår sammehenger mellom disse. Eks. Monopolistens tilpasning Sannsynlighetsmodell for en terning
Deduktiv forskning
Fra teori til empiri - Setter opp hypoteser som testes.
‘Induktiv forskning
Fra empiri til teori - Kartlegger regularitetr i dataene og prøver å forklare disse ved å sette opp en modell
Reaktivitet
Aktørene som studeres, eagerer på at de blir studert, slik at atferden blir utypisk
Refleksivitet
Den kunnskapen som genereres, preges av forskerens bakgrunn, erfaringer, referanserammer og metoder.
Hva handler økonometri om?
Handler om å trekke kausale slutninger på bakgrunn av øknomiske observasjonsdata og er derfor noe mer enn statistikk.
Hva er de tre hovedoppgavene for samfunnsvitenskapen (samfunn kan byttes ut med bedrift eller økonomi, osv)
Analytisk oppgave: Drøfting av ulike typer samfunnsforhold med utgangspunkt i mer generelle samfunnsvitenskapelige begreper, teorier og innsikter. Kritisk oppgave: Problematisering og kritiske drøftinger av etablerte ordninger og mønstre i samfunnet, sett i forhold til ulike verdier og modeller for sosial samhandling og samfunnsmessig organisering. Konstruktiv oppgave: Studier av ulike samfunnsmessige problemer med sikte på å initiere og fremme bestemte løsninger av disse problemene.
Hva er metode?
Teknikker og prosedyrer som brukes for å samle inn data og hente informasjon ut av dem
Ontologi
(styrer hva som kan studeres) Læren om tingenes eksistens Hva er virkelig, hva eksisterer? - Individualisme vs kollektivisme - Er menneske rasjonelt eller styrt av følelser og normer? - Finnes det lover i samfunnsvitenskapen? (positivisme)
Epistemologi
styrer valg av metode) - Hvordan kan vi få kunnskap om virkeligheten? - Hva er forholdet mellom data og virkeligheten? - Er det det som skjer som er viktig (da kan vi måle) eller er det hva det betyr for dem det gjelder? (da må vi fortolke - hermeneutikk)
Hva er Data?
Registreringer av virkeligheten. - Virkeligheten er mangfoldig, kompleks og oppleves ulikt av ulike personer. – Slik at virkeligheten er mer en data. Data er mer enn tall. I samfunssvitenskapelig metode benyttes derfor både kvantitative og kvalitative metoder. Valg av metode og hva slags data som samles inn avhenger av problemstilling og tilgjengelige ressurser Empirisk forskning avhenger av data.
Kvalitative metoder
Data tekst og lyd. Kvantitative data består av tall. Kvalitative metoder kan utdype det vi lærer fra kvantitative metoder eller peke ut redningen for hvordan kvantitative studier bør legges opp Eks på kvalitative metoder er observasjon og intervju.
Metodetriangulering
Kvalitativ og kvantitativ metode utfyller hverandre, og kan ofte brukes sammen i en undersøkelse. Det er problemstillingen som avgjør hvilke data man trenger og hvilken metode man må bruke for å samle inn data. Validiteten til en undersøkelse øker om man studerer problemstillingen med flere innfallsvinkler - Bruk flere metoder - Flere datasett - Flere teoretiske perspektiver - Flere forskere Begrepet kommer fra landmåling - Observasjoner fra to punkter brukes til å beregne avstanden til et tredje Hjelper oss å motstå fristelsen til å velge metoder som gir oss de resultatene vi vil ha …
Populasjon
Alle enhetene som en problemstilling gjelder for.
Utvalg
Den delmengden av populasjonen som blir undersøkt.
Tilfeldig utvalg
Alle enheter i populasjonen har samme sannsynlighet for å komme med i utvalget. Et tilfeldig utvalg sikrer representativitet og mulighet for å generalisere fra utvalget til populasjonen
Parameter
En tallstørrelse som beskriver en eller annen egenskap ved en populasjon, f.eks. forventningen Dette er «sanne», men ofte ukjente størrelser
Observator (“Statistic”)
En observator er en tallstørrelse som beskriver en egenskap ved utvalget, f.eks. gjennomsnitt
Hva gir observatoren informasjon om?
Observatoren gir oss informasjon om den bakenforliggende parameteren Presisjonen avhenger av utvalget og variasjonen i populasjonen
Primærdata
Data som vi samler inn selv.. Direkte observasjon(f.eks. registrere kjøp) Eksperimenter Spørreundersøkelser/oppgaveinnhenting Eks. Markedsundersøkelser
Sekundærdata
Data som andre har samlet inn Eksempler: Statistiske oversikter (Eks. makrodata fra SSB eller OECD) Generelle databaser (Eks. Atekst, Yr) Data fra tidligere studier (Eks. NSD og grunnlagsdata fra SSB) Registerdata (Eks. Brønnøysund, Skatteetaten) Bedriftsinterne databaser (Eks. NHHs karakterdatabase)
Enkel tilfeldig trekning (Utvalgsplan i spørreundersøkelser)
Trekker tilfeldig fra hele populasjonen Alle mulige utvalg av samme størrelse har samme sannsynlighet for å bli trukket
Proporsjonal stratifisering
Deler populasjonen inn i separate strata: Eks. kjønn, alder og landsdel for individer; næring og sysselsetting for foretak Trekker like mange fra hvert strata som deres andel av populasjonen tilsier Øker presisjonen, men man må i utgangspunktet kjenne noen egenskaper ved observasjonene
Disproporsjonal stratifisering
Definerer strata Bruker høyere trekksannsynlighet (opp til 100 %) for små strata eller strata som er viktige for formålet Må vekte gruppene for å konstruere riktige estimater for totalpopulasjonen
Klyngeutvelgelse
Trekker hele grupper basert på deres lokasjon, f.eks. alle arbeidere i utvalgte bedrifter Taper presisjon, men trenger ikke kjenne alle enkeltenheter i populasjonen for å gjøre trekningen eller dekke store geografiske områder
Hva avgjør presisjonen ved en undersøkelse?
Det er den absolutte størrelsen på utvalget som avgjør presisjonen, ikke den relative.
Svarprosent og bortfallsanalyse
Det er nesten alltid frafall av observasjoner Frafallet trenger ikke være tilfeldig! Viktig å legge opp undersøkelsen slik at frafallet blir minst mulig Formål, lengde, tillit, «bry» … Kan rette opp noe utvalgsskjevhet med vekting, men man kan sjelden være trygg på at de man sitter igjen med er representative
Hva er viktig ved utforming av spørreskjema?
Vær kort! Gjør det lett for respondenten: å tolke spørsmålet å hente fram relevant informasjon å forstå målestokken i svaralternativene å formulere svar Ja/nei, ferdige svaralternativer hvis mulig Linkertskala (4 til 7 gradskategorier, 5 vanligst) Start med enkle demografiske spørsmål Unngå ledende spørsmål Test ut spørreskjemaet i forkant
Reliabilitet
Målesikkerhet, dataenes pålitelighet Vil vi få det samme om vi måler på nytt eller andre gjentar undersøkelsen? Eks. IQ-tester
Validitet
Måler vi det vi tror vi måler? Er det samsvar mellom data og problemstilling? Eks. Lærerkvalitet - IQ Reliabilitet er en nødvendig, men ikke tilstrekkelig forutsetning for å få valide (gyldige) resultater Teoretiske begreper har ikke alltid en enkel og entydig korrespondanse i målbare variabler
Hva omfatter forskningsetikken?
Forskningsetikk omfatter etiske aspekter ved forskerrollen og utøvelsen av forskningsarbeidet - Redelighet, habilitet og uavhengighet osv. Forskningsetikken har en formell, juridisk side og en «personlig» side - Forskning skal være etterprøvbar, men det er oftest vanskelig å etterprøve om forskeren var i «god tro» - Etikk er ikke vanskelig før man står overfor et etisk dilemma Generell test: Tåler valgene dine «dagens lys»? Gjelder også studentinnleveringer og masteroppgaver!
Hvor robuste skal resultatene være før vi påstår en sammenheng?
God forskning krever at man er åpen om usikkerhetsmomenter og tar nødvendige forbehold God formidling krever at man er tydelig, tar stilling og spisser budskapet
Hva gjør beskrivende studier?
Bearbeider og presenterer data for å belyse faktiske forhold
Hva gir beskrivende kvantitative studer en analytisk oversikt over?
Fordelinger (f.eks. karakterer eller lønn) - Sentraltendens - Variasjon Sammenhenger (f.eks. mellom karakter og lønn) - Korrelasjon - Regresjon Strukturelle mønstre (f.eks. styrenettverk) Slike oversikter kan også omfatte sammnelikninger og endringer
Rensing av rådata
Håndtere manglende variabler ved å fjerne observasjoner eller imputere manglende informasjon Ta bort eller justere «uteliggere» Eks. «Trimme» halene av fordelingen eller «winsorise» Datarensingen må dokumenteres og rapporteres
Variablers målenivå Hvilke to hovedkategorier kvantitative data har vi?
Hvilke analyser som er mulige eller meningsfylte avhenger av målenivået 1. Kategoridata (inkl. rangeringsdata) 2. Måledata
Kategoridata (inkl. rangeringsdata)
Diktotome (dummy, indikator) Nominale variabler Ordinale data(rangeringsdata)
Diktotome (dummy, indikator)
To kategorier Eksempel: Ja, nei; Mann, kvinne; Drift, konkurs Kan representeres med 0/1
Nominale variabler
Dikotome variabler er et spesialtilfelle av nominale Kategorier som ikke kan rangeres Eksempel: Utdannelser, varemerker Mulige regneoperasjoner: ≠
Ordinale data (rangeringsdata)
Grupper som kan ordnes i en rekkefølge Eksempel: Rangeringer, data fra spørreskjema med linkert-skala, karakterer - Kan si at B er bedre enn E, men kan ikke si at det er dobbelt så bra. Kan heller ikke si at forskjellen mellom B og E tilsvarer forskjellen mellom C og F. (Gjelder også om det var tallkarakterer.) - Regner vi ut gjennomsnittskarakter legger vi på forutsetninger det strengt tatt ikke er dekning for - Vanlig «feil» og kan fungere som en forenkling Kan bruke metoder for nominale data, men taper informasjon Mulige regneoperasjoner: ≠ < >
Målevariabler
Intervalldata(avstand mellom verdier) Forholdsdata (forhold mellom verdier) For vårt formål er skille mellom intervall- og forholdsdata ikke viktig. Boken snakker kun om intervalldata Kan bruke metoder for ordinale data, men mister informasjon.
Intervalldata (avstand mellom verdier)
Eksempel: IQ, Temperatur i ºC Mulige regneoperasjoner: ≠ < > + -
Forholdsdata (forhold mellom verdier)
En forholdsskala har et absolutt nullpunkt Eksempel: kg, meter, sekund, kroner, antall ansatte Mulige regneoperasjoner: ≠ < > + - • ÷
Beskrivende sentraltendens
Gjennomsnitt Median Typetall(mode)
Gjennomsnitt
Kun relevant for målevariabler Aritmetisk Geometrisk (vekstrater)
Median
Relevant for målevariabler og ordinale variabler Informativt når utvalget ikke kommer fra en symmetrisk fordeling eller inneholder ekstremobservasjoner
Typetall (mode)
Typetallet i et utvalg er den vanligste verdien Kan også beregnes for nominale variabler, men representerer da ikke noe «sentrum»
Sannsynlighetsfordelinger
Hvordan kommer Gjennomsnitt median og mode frem?

Variansen til populasjonen
Variansen til populasjonen
Merk: Vi deler på utvalgsstørrelsen (n) minus 1!

Variasjonskoeffisientene
Tolkning av standardavviket
Bilde 1: Ca 68% av observasjonene ligger
mindre enn ett standardavvik fra
gjennomsnittet
Bilde 2: Ca 95% av observasjonene ligger
mindre enn to standardavvik fra gjennomsnittet
Bilde 3: Ca 99,7% av observasjonene ligger
mindre enn tre standardavvik fra
gjennomsnittet

Formel for korrelasjon mellom to variabler

Formel for enkel regresjon
a

Formel for enkel regresjon
Beta

Forventning og varians til et gjennomsnitt
Altså: Forventet utvalgsfeil(presisjonen) påvirkes av størrelsen på utvalget.

Forventning og varians til hver enkelt observasjon når man ønsker å finne fordelingen til en andel. (Nominale data).
EIj = p·1+(1-p) ·0 = p
Var(Ij) = E(Ij2)-(EIj)2 = E(Ij)-(EIj)2 = p-p2 = p(1-p)
Antall suksesser i et utvalg på n
Regneregler for summer av stoakstiske variabler?
Xn = =∑
Forventning og varians for andelen suksesser,
(
Korreksjonsfaktor ved inferens om endelige populasjoner
Det kommer inn en korreksjonsfaktor (bilde) i uttrykket for variansen, der n er utvalget og N er populasjonsstørrelsen
Dette kalles lotterimodellen
Når utvalget er lite i forhold til populasjonene kan vi ignorere denne korreksjonsfaktoren
Når utvalget er stort i forhold til populasjonen går variansen mot null fordi all usikkerhet elimineres

HVa kan vi si om Z-verdien når X’ene er normalfordelte?

HVa kan vi si om t-verdien når X’ene er normalfordelte?

Sammenligning av to gjennomsnitt fra to uavhengige utvalg (toutvalgsmodellen)
Hvis de to populasjonene er normalfordelte er
(bilde).
Z er en standard normalfordelt variabel som kan brukes som testobservator.
Denne testobservatoren ahr midilertid liten praktisk nytte fordi standardavvikene vanligvis er ukjente og må estimers med utgangspunkt i de to utvalgene.

Sammenligning av gjennomsnitt fra to uavhengige utvalg. Hvis vi antar lik varians, hvordan kan vi estimere variansen?

Med henhold til en sammenligning av to gjennomsnitt fra to uavhengige utvalg med lik varians. Hvordan ser t-observatoren ut? Hvordan blir det med frihetsgradene?
En kan vise at testobservatoren (bilde) er t-fordelt med v = n1+n2 - 2 frihetsgrader.

Hvordan ser testobservatoren ut dersom vi har ulik varians ved sammenligning av to utvalg med to uavhengige utvalg?

Hvordan ser frihetsgradene ut ved en tilnærmet t-fordelt testobservator med ulik varians, når vi skal sammenligne gjennomsnitt for to uavhengige utvalg.

Forholdet mellom to kjikvadratfordelte variabler delt på deres respektive frihetsgrader
F-fordelt med v1=(n1-1) og v2=(n2-1) frihetsgrader

Sammenligning av to andeler. Hva blir nullhypotesen? Hvordan ser den standardiserte variabelen ut?
Vi kan konstruere en standardsiert variabel (bilde). Her er var(p’1 - p’2) være tallene under roten.

SST
Står for Sum of Squares Treatment. Dvs den variasjonen som kan forklares med “treatment-kategori”.
Det utgjør variasjonen mellom gruppene.

SSE
SSE står for “Sum of Squares Error” dvs. den variasjonen som ikke kan forklares.
Dette utgjør variasjonen innen gruppene.

SS
Utgjør Totalvariasjonen (SS(Total)). Den er gitt ved (bilde), og vi har at SS(Total) = SST + SSE

Hva kan vi si om SST og SSE i forhold til fordeling?
Gitt normalfordelte responser og nullhypotesen om like forventninger kan en vise at SST og SSE er kjikvadratfordelte med hhv (k-1) og (n-k) frihetsgrader.
Da er (bilde)
Dersom variasjonen mellom gruppene er stor relativt til variasjonen innen gruppene, er det lite sannsynlig at observasjonene i de ulike gruppene kommer fra en felles fordeling med samme forventning

Hva er SSE et mål for?
Hvordan kan den totale variasjonen skrives?
Kvadratsummen av alle slike avvik er et mål for samlet uforklart variasjon:
Den totale variasjonen kan skrives som: SS(Total) = SS(A) + SS(B) + SSE
Vi kan bruke forholdstall mellom disse komponentene til å teste hypoteser om hvilke faktorer som har betydning.

Hvordan kan vi teste om en hypotese om at en av to faktorer ikke har innvirkning på forventningen?
Vi kan kjøre en F-test mhp den aktive faktoren, eks. (bilde)
Vi forkaster hypotesen om ingen faktor av faktor A for stor FA.

Hvordan ser mu og std ut for wilcoxon-rank-sum test?

Hvordan ser mu og std ut for wilcoxon-signed-rank-sum test?

Hva kan vi vise med Kruskal-Wallis-testen?
Vi kan vise at (bilde) er tilnærmet kjikvadratfordelt med k-1 frihetsgrader hvis H0 er riktig (der k er antall grupper)
Oppsummering: Hvilke tester kan vi benytte ved sammenligning av median eller gjennomsnitt for to grupper?

Oppsummering: Hvilke tester kan vi benytte ved sammenligning av median eller gjennomsnitt for flere grupper?

Hva blir et mål for det samlede avviket mellom faktisk antall observasjoner og forventet antall observasjoner (fi-ei) ved en kjikvadrattest for tilpasning til en diskret modell?
Et mål for det samlede avviket er (bilde).
En kan vise at Ec2 = k-1 og at c2 er tilnærmet kjikvadratfordelt med k-1 frihetsgrader
Tilnærmingen er god når ei er større enn 5 for alle i
Intuisjon for antall frihetsgrader: Antall frie parametre (pi) er k-1
Vi forkaster modellen når c2 blir større enn en kritisk verdi

Hva blir testobservatoren ved Kjikvadrattest for uavhengighet?
Testobservatoren for uavhengighetstesten blir (bilde), som er tilnæmet kjikvadratfordelt med v=(r-1)(s-1) frihetsgrader.
Intuisjon: Ved uavhengighet er det (r-1)(s-1) fri parametre.

Samvariasjon mellom målevariable
Vi har tidligere lært om et mål for lineær samvariasjon for kontinuerlige variable, nemlig den empiriske korrelasjonskoeffesienten.
Hvis vi antar at (X,Y) er uavhengig binormalt fordelt, kan det vises at (bilde)
er t-fordelt med n-2 frihetsgrader. Se kapittel 16.4, s. 642.
Dette kan brukes til å teste hypotesen ρ(X,Y)=0 med (observert korrelasjon(rho’) = r)

Sum of Squared Errors (ved en regresjonsmodell) (minste kvadraters metode)

Hvordan regnes standardavviket til residualene, Sε?
For ikke-stokastiske forklaringsvariabler er Sε også anslaget for standardavviket til Y, for stokastiske forklarende variable kun betinget gitt X

Hvordan regner vi SS(Total) i en regresjonsmodell?

Hvordan regner vi SSE(“Sum of Squared Error”) i en regresjonsmodell?

Hvordan ser et typisk bilde av heteroskedastisitet ut?

Et annet bilde med heteroskedastisitet ( Residuals Versus the fitted values)

Hvordan kan tidsseriedata uten autokorrelasjon se ut?

Hvordan kan tidsseriedata med autokorrelasjon se ut?

Hvordan kan et bilde av tidsserie med negativ autokorrelasjon se ut?

Hvordan regner vi testobservatoren T når vi skal teste en hypotese om stigningstallet beta1?
En egnet testobservator er (bilde), som er t-fordelt med n-2 frihetsgrader under Ho.

Hvordan regnes standardavviket til b1 når man skal teste en hypotese for regresjonslinjen b1.
Hvordan påvirkes standardavviket med endringer i de ulike underliggende variablene?
Vi ser at standardavviket
- Øker med variansen til ε
- Avtar med antall observasjoner, n
- Avtar med variasjonen til forklaringsvariabelen X

Konfidensintervall for EY
Et 95% konfidensintervall for E(Y|X) kan konstrueres som (bilde), der t- er kritisk grense fra en t-fordeling. For stor n og 95% CI er t ~1,96.

Hva er formelen for S(Y’)?
Hva sier den?
Formelen for S(Y’) er (bilde), der de to leddene har med usikkerhet i hhv konstantleddet og stigningstallet å gjøre.
- Merk at første leddet er identisk med uttrykket for variansen til et gjennomsnitt i målemodellen, og at usikkerheten til det estimerte stigningstallet (b1) gjør at konfidensintervallet til Ŷ vider seg ut jo lengre X-verdiene ligger fra sitt gjennomsnitt.
- Vi kan tenke på S(Ŷ) som usikkerheten til vårt estimat for gjennomsnittet av mange Y-verdier for gitt X

Hvordan finner vi standardavviket mellom den nye Y-verdien og dets estimerte forventning (S(Y-Ŷ))?(Estimert standardavvik til prediksjonsfeilen)
Generelt har vi at (bilde).
Et 95% prediksjonsintervall til Y er for stor n
Ŷ +- 1,96*S(Y-Ŷ)

Hvordan kan innflytelsesrike observasjoner påvirke et diagnoseplott, og dermed regresjonslinjen?
Blå uten, rød med innflytelsesrik observasjon.

Kapitalverdimodellen
Hva er grunnideen?
CAPM er en modell for hvordan et perfekt kapitalmarked priser en risikabel investering.
Grunnideen er at risikoen til en aksje (eller annen investering) består av to komponenter
- Usystematisk eller bedriftsspesifikk risiko:
- Denne kan diversifiseres bort siden summen av mange “usystematiske plusser og minuser” blir null
- Fordi man kan unngå denne risikoen ved å spre investeringene på mange prosjekter, kan en investor ikke regne med å bli belønnet for å ta på seg slik risiko
- Systematisk risiko:
- Dette er svinginger i avkastning pga. konjunkturer og makrosjokk som preger hele markedet og som man derfor ikke kan bli kvitt ved å diversifisere
- En risikoavers investor vil kreve kompenasjon for å bære slik risiko
- Jo mer følsom en aksje er for konjunkturer og makrosjokk, desto mer risikabel er den, og desto høyere avkastning bør den gi

Hvordan ser en multippel regresjonsmodell ut?
Den enerelle lineære regresjonsmodellen er (bilde)

Hvordan skriver vi den multiple regresjonsmodellen gitt n sammenhørende observasjonssett?
