20/4 - data dugga Flashcards
Arithmetic mean, median
mitten vs ta allt/antal observationer
Sample size
Samle size: Number of observations
Degrees of freedom (oklar)
Freedom: the number of values in the final calculation of a statistic that are free to vary - n-1: frihetsgrad I svenska - mäta expected variation in an experiment
Standardavvikelse
tandardavvikelseeller standarddeviation är ett statistiskt mått på hur mycket de olika värdena för en population avviker från medelvärdet - räknades ut genom att ta alla värden, kola ut hur mycket som skilljer mellan dem och medelvärdet för att den dela på antal observationer = +/-2
Standard error
Standardfelellerstandardmätosäkerhetär ett mått på osäkerheten i enpunktskattning. Det kan beskrivas som ettspridningsmåttpå hurmedelvärdenavviker frånväntevärdet. - hur skiljer sig detta från standardavvileksen hur mycket meanet I ditt sampel skilljer sig från hela population - vill ha en lågt tal - högt n (sample size) ger mindre standarderror
p-value
signifikans är inom statistiken ett begrepp för att ange att ett observerat värde i en undersökning avviker från ett hypotetiskt värde eller annat jämförelsevärde så pass mycket att det inte beror på den statistiska osäkerheten (slumpen). “hur hög sanorlikheten är att vi fått det här svaret” -
Visar på troligheten att et beror på något random - därav ska det vara lågt
Statistically significant result: a result that follows the above?
t-test:
t-testellerStudents t-testär inomstatistikenbeteckningen på enhypotesprövningdär man vill jämföra om skillnad föreligger mellan tvånormalfördeladepopulationerdär man inte känner det exakta värdet påstandardavvikelsen. - får ut p värde ur detta - test unknown population, o ej vet expected value
ANOVA
ariansanalys(ellerANOVAfrån engelskansanalysis of variance) är en samlingstatistiskametoder förhypotesprövning. - om har mer än 2 treatments/popuation - en annan metod till t test
Correlation
Korrelationanger inomstatistikenstyrkan och riktningen av ett samband mellan två eller fleravariabler. Korrelationen anges ofta med enkorrelationskoefficient. En metod för att bestämma korrelationen mellan två variabler ärbivariat analys. - eroende av varamdra
Regression: Regressionsanalys
egression, är en gren inomstatistikdär målet är att skapa enfunktionsom bäst passar observeraddata. Get the value of correlation
Parametric/non-parametric:
Parametric model, a family of distributions that can be described using a finite number of parameters - asume they are dependent and normalfördelad
Nonparametric statistics is based on either being distribution-free or having a specified distribution but with the distribution’s parameters unspecified.
Can calculate both
You have data on harvest indices of three wheat varieties grown in a field experiment, sample size is 30. Mention at least two statistical tests that could be used to test if there is a difference in harvest index between the wheat varieties.
3 varies
Sample size 30 = 10 var
Check korrelation mellan veat varietys and avkastning
Anova
T-Test - more times
Blanda ej ihop reaktion på factor - responsor - tillväxt och faktor - gödsel
2) A newly introduced leaf-mining moth (Microlepidoptera) has started to becomea problem in Salix-crops grown in southern Sweden. High abundance of leaf mines reduces the growth of individual plants significantly. It seems that the egg-laying female has a preference for one genotype of Salix viminalis called “Energy” while another genotype called “Ava” is less preferred.
2a) The moth has a natural enemy called the “moth spider”. You are interested in knowing whether there is a correlation between the number of moths and the number of moth spiders present in the Salix fields. The study is performed in two study areas and the figures below show the plots for each area. Each data point represents the number of moths and moth spiders on one Salix individual (stool). You perform a Pearson product moment correlation test and the results are shown below the figures.
Questions:
How do you interpret the results? What does the r and p values tell you?
Why do the p-values differ between the two study areas, whereas the r-values are the same?
Lucas:
R = the angel of the korrelation (typ samma som k) - styrka på korrelation can be -1 to 1
P= samma som innan - den med hög säger att linjen beror på random eller sambandet
Skillnad då den ena är som den borde och den andra är inte det
Skillnad med 3an: skilladen på r och r2 = är en regression - linje men finns inget samband på det sättet - year of introduction beror ej på harvest därmed ingen korrelation
2)A newly introduced leaf-mining moth (Microlepidoptera) has started to becomea problem in Salix-crops grown in southern Sweden. High abundance of leaf mines reduces the growth of individual plants significantly. It seems that the egg-laying female has a preference for one genotype of Salix viminalis called “Energy” while another genotype called “Ava” is less preferred.
2b) You are asked to investigate if the female moth has a preference for the genotype “Energy”. You luckily find a field (2 hectares) planted with the two genotypes in alternating rows and decide to carry out a pilot study. A Salix individual (stool) has 5-10 long shoots (stems). The money and time are limiting factors in this study and you and your colleague decide that you have time to sample approx. 200 shoots during one growing season.
Write an outline explaining how you plan to conduct your study. What are your hypotheses? How would you design your study? What data will you collect? How will you analyse the data (statistical tests)? What is your experimental unit (sampling unit) and sample size (n) when you perform your statistical test(s)?
20 E and 20 a
Count 5 shoots on each stool cound accurensyes on moth on them -
T-test
Hypotes: borde ha högre andel female på E - mer energy - e andra skriver ner en snyggare hypotes
Sampel unit: stool N= 40.
Random ej bra då kan missa den fläcke där insekterna är -
För att få jämt mellan dem tar man de parvis
Kolla på annat - kolla äggs
Lite svårt att inte få djuren att flyga iväg eller hoppa från en planta till den andra eller kolla consumer area på löven men svårt att veta om det är den som ätit
The figure below is taken from Hay & Porter: The Physiology of Crop Yield(course literature).
Questions:
What kind of statistical analysis has been used here? What is the null hypothesis?
Which variable is the independent (predictor) and dependent (response) variable?
What does the r2-value tell you?
What is the general equation describing the relationships? What do different slopes indicate?
Grupp: Regression analysis - har en line And a bit correlation Harvest index and year of introduction All dotts är när/var de introducerades
Nullhypotesen:
There is no realation between the two variabled
harvest is higher the later it is introduced
That it is random
R2: the higher the gooder - closer correlation
Högre less variation in the sampel
Ju bättre följer samples the equation
Generall: y= kx+m
Slope - dependence of variables
Visar även på hur mycket harvesten ökr då blivit introducerad
X är alltid den independent och tvärt om