Zusammenfassung Flashcards
Bestandteile der Grundgesamtheit
mehrere Stichproben und sich daraus ergebende
Variablen
- unabhängige Variable (Prädiktor)
- abhängige Variable (Response)
Was sind ökologische Daten?
Artentabelle und Umweltdaten,
werden miteinander verbunden über den identischen Zeilennahmen (rownames =1)
Deskriptive Statistik
Beschreibung, Zusammenfassung und Gruppierung von Variablen und ihren Zusammenhängen
Induktive (schließende) Statistik
- Verallgemeinerbare Aussagen über die Grundgesamtheit
- Testen von Hypothesen
-> Unterscheidung von zufälligen Beobachtungen
und systematischen Effekten
Nullhypothese
in der schließenden Statistik wird eine Theorie überprüft, die man hier als Hypothese bezeichnet
-> Nullhypothese als Gegenhypothese, die entweder unterstützt (p>0.05) oder abgelegt wird (p<0.05)
t-Test
Vergleich des empirisch gefundenen t Werts (p) mit der (theoretischen) t-Verteilung (z.B. Normalverteilung)
ordinale Gradienten
Faktoren mit sinnvoller Reihenfolge (Faktorstufen) und entsprechender metrischer Variable
Gruppen
Faktoren und Faktorstufen ohne metrische Variable
Wichtige Variablen-Skalen in R (3)
Numerische Variablen (num):
Verhältnisskala/ Metrisch
Ganzzahlen (int):
Intervalskala (sinnvolle Abstände zw. den Werten)/ Zähldaten
Faktoren (factor):
Nominalskala/Kategorien
Grundsätzliche Datenorganisation (3)
- jede Variable steht in einer Spalte
- Variablennamen stehen als Überschrift über der Spalte
- Faktoren werden ebenfalls in
EINER Spalte organisiert, die
Faktorstufen werden möglichst als Buchstabencode
verschlüsselt
Lagemaße (3)
arithmetischer Mittelwert:
Maß für das Zentrum der Verteilung
Median:
Wert, der genau in der Mitte des sortierten
Datensatzes liegt er teilt also den Datensatz in zwei gleich große Bereiche
Modalwert (Modus):
der am häufigsten auftretende Wert = Peak im Histogramm
Was ist Varianz?
ein Streuungsmaß für die mittlere Summe der quadrierten Abweichungen vom
Mittelwert
Sum of Squares / Freiheitsgrade (n-1)
Was ist Standardabweichung?
ist die mittlere Abweichung der Werte einer Variablen vom Mittelwert
Die Standardabweichung ist die Wurzel aus der Varianz und liegt damit wieder in der gleichen Maßeinheit vor.
Korrelationskoeffizent
Zeigt die Stärke eines Linearen Zusammenhangs, keine Geradensteigung !
liegt zw. -1 (negative Korrelation) und 1 (positive Korrelation)
Wie stark Punkte auf der Linie liegen oder um diese Linie herum streuen
zielt nur auf lineare Zusammehänge, kann andere mathematische Zusammenhänge wie Quadrierungen nicht besfchreiben
Parametrische und nicht parametrische Zusammenhänge/ Korrelation
Parametrisch = verteilungsabhängig, Normalverteilung
Berechnung des
Pearsons-
Korellationskoeffizient
nicht parametrische = verteilungsunabhängig
Ist keine Normalverteilung herstellbar, kann der Spearman-Rang-Korellationskoeffizient
cor (x, y, method=spearman)
Regressionsanalyse
- Eine Variable ist abhängig, die
andere unabhängig - Ursache-Wirkung-Beziehung
- y ist abhängig von x
Verteilungen von Daten (3)
Symmetrisch:
Median = Mittelwert, z.B. Normalverteilung
Linksgipflig, rechtsschief:
Median < Mittelwert
Rechtsgipflig, linksschief:
Mittelwert > Median
Simple random sampling
Randomisierte Verteilung der Untersuchungsplots
Nachteil: Ungünstig bei der Untersuchung von Landnutzung,
randomisierte Verteilung kann zu ungleichverteilung der Probflächen führen
Gegenmaßnahme von Ungleichverteilung durch simple random sampling
Stratifizieren:
Randomisierung wird auf bestimmte Gruppen beschränkt, bzw. manche Gruppen sind nur bis zu bestimmten Maß in dem Randomisierten Verfahren enthalten
Kontrolle störender Einflüsse
Blockdesign
Verfahren, wenn man mehrere Behandlungen hat, die man vergleiche möchte und sicherstellen muss, dass in einer Wiederholung die sonstigen Umweltbedingungen, die außerhalb der Behandlungswirkung liegen relativ homogen/ gering sind
räumliche Nähe der der Plots (in einem Block)
Besonders starker Umwelteffekt kann dann in einer Anova oder Ancova mit brücksischtigt werden
Mittelwertvergleiche 2 Gruppen
Parametrischer Test:
Intervall
Normalerteilt
-> t-Test
nicht parametrische Test:
Ordinal
oder Internvall nicht normalverteilt
-> Wilcoxon Test
Mittelwertsvergleich bei mehr als 2 Gruppen
Anova (parametrisch)
Kruskal-Wallis-Test (nicht parametrische)
Chi-Quadrat-Test
Test auf Unabhängigkeit zweier nominal skalierter Merkmale
Sehr Häufig bei der Auswertung von Befragungen
in R:
xtabs - Erstellung von Kreuztabellen
chisq.test - Durchführung eines Chi Quadrat Tests
Varianzanalyse
Varianzanalyse: Zerlegung der Varianz in erklärten und
unerklärten Anteil
erklärt: Streuung zwischen
den Gruppen (SSA)
durch das Modell erklärt
Anova
nicht erklärt: Streuung innerhalb der Gruppen (Residuum) (SSE)
R^2
Bestimmtheitsmaß bei Varianzanalyse
SSA/SST
Anteil der erklärten Varianz an der Gesamtvarianz
Anovatabelle Elemente
Links nach Rechts
1) Der untersuchte Faktor
2) Freiheitsgrade
Oben: Anzahl Faktorstufen
( k-1)
Unten: Stichprobenumfang (n) -Faktorstufen (k)
3) Sum of Squares
Oben: zwischen den Gruppen = erklärte Streuung
Unten: Innerhalb der Gruppen = Error
4) Mean sum of Squares
Sumof Squares geteilt
durch die Freiheitsgrade
5) F-Wert
die Teststatistik
Mean Sq (Faktor)/MeanSq (Residuen)
6) p-Wert
Mehr als 2 Faktorstufen / Gruppen
Anova
Das Ergebnis gibt zwar an, ob der Faktor insgesamt einen signifikanten Effekt auf die
Mittelwerte hat, davon weiß man aber noch nicht, welche Mittelwerte sich denn signifikant voneinander unterscheiden Lösung: Post-Hoc-Tests (Multiple Mittelwertsvergleiche)
Ergebnis meist als Buchstabencode
nicht parametrische Alternative zur Anova
Kruskal-Wallis Test:
Rangbasiertes Verfahren, für mehr als zwei Faktorstufen aber nur für einen Faktor
Nichtparametriche Post Hoc Test:
Paarweiser Wilcoxon Test
Dunn‘s Test bei unbalancierten Gruppen
Lineares Regressionsmodell - Gleichung
Abhängige Variable y=
ß0
y-Achsenabschnitt
+
ß1
Steigung, Regressionskoeffizent
*
x
+
error
Fehler, Abweichung
(Wird aber in der Regressionsgeraden nicht berücksichtig, GeradenGleichung tut so als wäre das Modell perfekt)
Anova & Regression
Allgemeine lineare Modelle (lm)
Unterscheiden sich in der Form der Modelldarstellung:
Regression -> Geraden
Anova -> Gruppen
Auch Anovatabelle für Regressionmodell durchführbar
erklärter Varianzanteil (durch das Modell erklärt)
+ nicht erklärter Varianzanteil/ error/ (Residuen)/ Abstand Punkte zum Modell
= Gesamtvarianz
Modellgüte R^2 Regression
R^2= 1- SSE (Quadratsumme Residuen) / SST (Quadratsumme Gesamtvarianz)
allgemeine lineare Modelle (3)
Kann mit mehreren
Prädiktorvariablen
unterschiedlicher Skalierung rechnen
mehrere kontinuierliche: Multiple Regression
mehrere Faktoren: Multifaktorielle ANOVA
kontinuierliche und Faktoren: ANCOVA
summary multiples Regressionsmodell
Estimate zeigt eine positiven oder negativen (-) Zusammenhang der Variablen auf die abhängie Variable und deren Signifikanz
Sowie güßtemaß des Regrssionsmodells (R-squared) und die Modell-Signifikanz
GLM
das verallgemeinernde lineare Modell
Ermöglicht die Modellierung von Response Variablen
unterschiedlicher Verteilungen
(z.B. nicht normalverteilt)
Art der Generalisierung, z.B. für Zähldaten die stark linksschief sind -> poisson
nur für Integer, Zahlen ohne Komma
famliy=poisson
Kann über link- Funktionen eine Beziehung zwischen Response und Modell herstellen
Logistische Regression
Logistische Regression: ein GLM mit Logit Link
family = binomial:
Response in Form von 0 = nicht vorkommen und 1 = vorkommen
S-Kurve modelliert die Vorkommenswahrscheinlichkeit in Abhängigkeit eines Prädiktors
2 Komponenten der Biodiversität
Artenreichtum (Species richness)
Gleichverteilung (Eveness)
Eveness
Beschreibt Gelchverteilung, Abundanzen über die versch. Arten einer Probefläche
-> spielen auch eine Rolle für die Diversität
Abundanzen -> Zähldaten oder Deckungsgrad
Artenakkumulationskurve
Grafische Darstellung des Artenreichtums einer Gemeinschaft
-> Sättigungskurve
Kumulierter Artenreichtum in Abhängigkeit von der. Stichprobenanzahl
je mehr Stichproben desto eher nähert man sich einer Sättigung an, alle Artenzaheln einer Gemeinschaft wurden erfasst
α-Diversität
Diversität an einem Probepunkt, Punktdiversität
Beschreiben durch:
Artenvielfahlt, oder Biodiversitätsindex wie z.B. Shanon Index
ß-Diversität
Veränderung entlang eines Gradienten
Unterschied in der Artenzusammensetzung zweier Probeflächen
ökologische Distanz
Unterschiede in Artenzusammensetzung
zwischen Gemeinschaften
Vergleich zwischen den Probeflächen, Unterschiedlichkeit der Artenzusammensetzungen (Distanz)
Jaccard-Index
Messung der Ähnlichkeit
Anteil der gemeinsamen Arten an allen vorkommendenm Arten der Probeflächen
J=1 -> nur gemeinsame Arten
1-J -> Unähnlichkeit, Distanz
Ordinationsverfahren
Darstellung der Unähnlichkeit in der multivariaten Statistik
Ähnlichkeit oder Unähnlichkeit der Aufnahmepunkte und/ oder der Arten vermessen
Komponenten von Ordinationsverfahren/ Diagramm:
Darstellung von Arten, Aufnahmeflächen und Umweltgradienten
Schrittweises Verfahren in der Auswertung ökologischer Daten
Vergleich von Unterschieden zwischen Gruppen?
-> Mittelwertvergleiche, ANOVA
Analyse von Zusammenhängen von Variablen?
-> Korrelation,
Regressionsmodelle
Analyse der Ursachen für Vorkommen/ Abundanz von Arten?
-> Habitatmodelle (Bsp.: Was beeinflusst Vorkommenswahrsch. vom Sperling in der Stadt? (0, 1) Logistische Regression, Ursachen für Vorkommenswahrsch.)
Analyse der Ursachen für Unterschiede der
Artenzusammensetzung
-> Multivariate Methoden
(Alle Arten auf einmal sind Response Variablen (es gibt nicht nur eine abhängige Variable))
Grundsätzliche Fragestellungen
Welche meiner Variablen ist die Responsevariable?
Gibt es mehr als eine Responsevariable?
-> univariate oder multivariate Statistik (Artenzusammensetzungen)
Welche Form hat die Responsevariable?
-> Beeinflusst die Wahl der statistischen Methoden
Welches sind die Prädiktorvariablen?
Sind die Prädiktorvariablen kontinuierlich oder kategorial oder beides?
Modellgleichungen
Modellgleichungen
Response und
Prediktor werden in Modellgleichungen und
Grafikbefehlen meist durch ~ verbunden:
plot (y~x ) : trägt x in Abhängigkeit von y auf
lm( y~x ): lineares Modell mit x als Response und y als Prediktorvariable
Funktion str
str (Name der Tabelle):
gibt eine Übersicht der Datenkategorien von Variablen in einem Datensatz
Datenkategorien in der Ausgabe:
num : numerische (metrische) Variable
int : Ganzzahlen ohne Kommastellen (meistens Zähldaten)
Factor : Faktor, kategoriale Variable
Funktion summary
summary (Name der Tabelle): gibt eine Tabelle mit Lagemaßen für jede Variable im Datensatz aus
Die Funktion plot
Universelle Graphikfunktion, die den Grafiktyp anhand der Datenkategorien der verwendeten Variablen auswählt
plot (pH~Biotop): erste Variable numerisch, zweite kategorial = Boxplot
plot(pH~CaGehalt): erste Variable numerisch, zweite auch = Scatterplot
Die Funktion hist
Erstellt ein Histogramm einer ausgewählten Variable des Datensatzes
Verteilung der Variable
hist ( pH): erstellt ein Histogramm der Variable pH
Subscripts (Indizierung von Tabellen)
Datenformat von Tabellen:
- matrix (nur für Zahlen, selten)
- dataframe (fast immer, wird über read.table erzeugt)
[1,3] -> Zeile, Spalte
Subscripts für Variablen
pH[ location ==”GB”]
location [pH>5]
logische Operanten zur Filterung von metrischen Variablen
Anova in R
Funktionen
aov (response~predictor)
oder
lm(response~predictor)
Für lineare Modelle, die metrische Prediktoren enthalten, ist aov nicht geeignet, lm aber schon
Bringt so aber nicht viel, sollte einem Objekt zugeordnet werden:
Model1<-aov(response
~predictor)
Ausgabe der ANOVA
Tabelle dann über:
anova (Model1)
Anova in R mit mehreren Prädiktorvariablen
aov(response~predictor1 + predictor2)
oder
aov(response~predictor1 *predicto2)
mit Interaktion
wird auch in der Anova Tabelle ausgegeben
Das allgemeine multiple lineare Modell
in R alles mit lm
lm (Response~ Variable1 + Variable2): Multiple Regression
-> metrische Variablen
lm(Response~ Faktor1 + Faktor2): Multifaktorielle ANOVA
-> Kategorielle Variablen
lm(Response~ Variable1 + Faktor1): ANCOVA
Ordinationsverfahren in R
Dirkete Ordination/ erzwungen
Das Ordinationsmodell wird bereits an die Umwelt angepasst (hier CCA):
dune.ca <- cca (dune~A1)
Der Artdatensatz als Response
Umweltvariablen als Prädiktoren
Indirekte Ordination
Das Ordinationsmodell wird nur aus der Distanzmatrix erstellt. (Unähnlichkeit der Zusammensetzung)
Für eine NMDS muss immer noch das Distanzmaß (hier “
bray “ für Bray Curtis) angegeben werden und die Anzahl der Dimensionen des Ordinationsmodells (k):
dune.nmds<-metaMDS(dune , distance = bray “, k =2)
Stresswert über 0.2 -> ggf. Anzahl der Achsen (k) erhöhen
Ordinationsplot erstellen in R
plot1 <- ordiplot (dune.nmds , choices =c(1,2))
Überlagern von Umweltvariablen: envfit
ef<-envfit (dune.nmds , dune.env , permu = 999)
permue -> bestimmt Genauigkeit des Ergebnisses
ef -> gibt eine Tabelle mit p Werten aus
Platten nur der signifikanten Umweltvariablen
plot(ef , p.max = 0.05, col=’black’, cex =0.6)
Manova
Erlaubt Hypothesentest
welche Prädiktoren haben einen Einfluss auf die
Artenzusammensetzung?
-> ANOVA-Tabelle als Output
Funktion in R:
adonis2 (package vegan)
adonis2(Com ~ Zn+location , method = “bray”, data =Env)