statistik Flashcards
Deskriptiv statistik
Deskriptiv statistik handlar om att beskriva och summera data från ett stickprov på ett sätt som ger en översiktlig bild av dess egenskaper. Det fokuserar på att ge en översikt av datans centrala egenskaper och spridning.
Inferentiell statistik
Inferentiell statistik används för att dra slutsatser om en population baserat på data från ett stickprov. Det handlar om att generalisera resultaten från stickprovet till hela populationen och att bedöma osäkerheterna i dessa generaliseringar.
Parameter
En parameter är ett mått på en egenskap i populationen. Till exempel kan medelvärdet för alla högskolestudenter i Sverige betraktas som en parameter.
Estimat
Ett estimat är det värde eller den uppskattning som beräknas från ett stickprov och som används för att försöka närma sig eller uppskatta en parameter i populationen. Till exempel kan medelvärdet för de studenter du faktiskt har mätt betraktas som ett estimat av det sanna medelvärdet i populationen.
T-test
T-test är en statistisk metod som används för att jämföra medelvärdena mellan två grupper och avgöra om skillnaden mellan grupperna är statistiskt signifikant. Det används ofta när man vill utvärdera om en intervention har haft en signifikant effekt på en mätbar variabel.
Vad händer med influensen vid låg representativt ?
Om ditt stickprov inte är representativt för den population du försöker dra slutsatser om kan det leda till osäkerheter och felaktiga inferenser. En hög grad av representativitet är viktig för att kunna generalisera resultaten från stickprovet till hela populationen. Om ditt stickprov inte är representativt, kan du inte vara säker på att de slutsatser du drar gäller för hela populationen.
Vad händer med deskriptiv statistik vid mätfel ?
Mätfel, som inkluderar fel i datainsamling och mätningar, kan påverka kvaliteten på deskriptiv statistik. Om mätfel inträffar kan medelvärden, standardavvikelser och andra deskriptiva mått bli missvisande. Det är därför viktigt att minimera mätfel i stickprovet för att få noggranna deskriptiva resultat.
vad är Z-värden ?
Z-värden är ett mått som används inom statistik för att kvantifiera avvikelsen mellan en specifik datapunkt och medelvärdet i en datamängd, uttryckt i termer av standardavvikelsen. Z-värdet används i samband med normalfördelningen (även känd som Gaussisk fördelning) och är en viktig komponent inom statistik och inferentiell statistik. Det hjälper oss att förstå hur avlägsen en observation är från genomsnittet i termer av standardavvikelsen och ger oss ett sätt att jämföra observationer på olika skalor.
Barplot (stapeldiagram):
En barplot används främst för att visualisera kategoriska variabler, där varje stapel representerar en unik kategori eller grupp. Varje stapel sträcker sig vertikalt uppåt och dess höjd representerar antalet observationer eller frekvensen av den kategorin.
Det är särskilt användbart för att jämföra frekvenser eller andelar mellan olika kategorier.
Histogram:
Ett histogram används för att visualisera fördelningen av kontinuerliga variabler. Istället för att dela in i diskreta kategorier, delas datan in i intervall (bin) på den kontinuerliga skalan.
På x-axeln finns de olika intervallen och på y-axeln representeras frekvensen eller antalet observationer som faller inom varje intervall.
Ett histogram ger en bild av hur datan är fördelad över det kontinuerliga spannet.
Boxplot (lådagram):
En boxplot ger en grafisk representation av kvartilerna (Q1, Q2 eller medianen, och Q3) samt eventuella utliggare i datan.
Det används för att visualisera fördelningen och spridningen av data och hjälper till att identifiera potentiella outliers (värden som är betydligt avvikande från resten av datan).
Boxens längd representerar interkvartilavståndet (Q3 - Q1), och linjen inuti rutan är medianen. Eventuella utliggare representeras som punkter utanför “whiskers” som sträcker sig från boxen.
Scatterplot (punktdiagram):
Ett scatterplot används för att visualisera sambandet mellan två kontinuerliga variabler. Den ena variabeln placeras på x-axeln och den andra på y-axeln.
Scatterplot är användbara för att identifiera mönster, samband och outliers i datan och ger en visuell representation av hur de två variablerna relaterar till varandra.
Korrelation:
Korrelation är ett mått på hur två variabler relaterar till varandra. Det används för att kvantifiera graden och riktningen av sambandet mellan två variabler.
Två vanliga mått på korrelation är Pearsons produktmomentkorrelation och Spearmans rangkorrelationskoefficient.
Pearsons produktmomentkorrelation:
Mäter styrkan och riktningen av ett linjärt samband mellan två kontinuerliga variabler.
Kan variera från -1 (perfekt negativ korrelation) till +1 (perfekt positiv korrelation), med 0 som ingen korrelation.
Känslig för extremvärden och kräver normalfördelade variabler.
Spearmans rangkorrelationskoefficient:
Mäter graden av monoton (icke-linjär) samband mellan två variabler.
Använder rankade värden istället för de faktiska observationerna, vilket gör den mindre känslig för extremvärden.
Mindre kraftfull än Pearsons korrelation för att upptäcka linjära samband men mer flexibel för att identifiera andra typer av samband.