Zusammenfassung Flashcards

1
Q

Bestandteile der Grundgesamtheit

A

mehrere Stichproben und sich daraus ergebende
Variablen
- unabhängige Variable (Prädiktor)
- abhängige Variable (Response)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was sind ökologische Daten?

A

Artentabelle und Umweltdaten,
werden miteinander verbunden über den identischen Zeilennahmen (rownames =1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Deskriptive Statistik

A

Beschreibung, Zusammenfassung und Gruppierung von Variablen und ihren Zusammenhängen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Induktive (schließende) Statistik

A
  • Verallgemeinerbare Aussagen über die Grundgesamtheit
  • Testen von Hypothesen
    -> Unterscheidung von zufälligen Beobachtungen
    und systematischen Effekten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nullhypothese

A

in der schließenden Statistik wird eine Theorie überprüft, die man hier als Hypothese bezeichnet
-> Nullhypothese als Gegenhypothese, die entweder unterstützt (p>0.05) oder abgelegt wird (p<0.05)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

t-Test

A

Vergleich des empirisch gefundenen t Werts (p) mit der (theoretischen) t-Verteilung (z.B. Normalverteilung)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ordinale Gradienten

A

Faktoren mit sinnvoller Reihenfolge (Faktorstufen) und entsprechender metrischer Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Gruppen

A

Faktoren und Faktorstufen ohne metrische Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wichtige Variablen-Skalen in R (3)

A

Numerische Variablen (num):
Verhältnisskala/ Metrisch
Ganzzahlen (int):
Intervalskala (sinnvolle Abstände zw. den Werten)/ Zähldaten
Faktoren (factor):
Nominalskala/Kategorien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Grundsätzliche Datenorganisation (3)

A
  • jede Variable steht in einer Spalte
  • Variablennamen stehen als Überschrift über der Spalte
  • Faktoren werden ebenfalls in
    EINER Spalte organisiert, die
    Faktorstufen werden möglichst als Buchstabencode
    verschlüsselt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Lagemaße (3)

A

arithmetischer Mittelwert:
Maß für das Zentrum der Verteilung

Median:
Wert, der genau in der Mitte des sortierten
Datensatzes liegt er teilt also den Datensatz in zwei gleich große Bereiche

Modalwert (Modus):
der am häufigsten auftretende Wert = Peak im Histogramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist Varianz?

A

ein Streuungsmaß für die mittlere Summe der quadrierten Abweichungen vom
Mittelwert

Sum of Squares / Freiheitsgrade (n-1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was ist Standardabweichung?

A

ist die mittlere Abweichung der Werte einer Variablen vom Mittelwert

Die Standardabweichung ist die Wurzel aus der Varianz und liegt damit wieder in der gleichen Maßeinheit vor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Korrelationskoeffizent

A

Zeigt die Stärke eines Linearen Zusammenhangs, keine Geradensteigung !
liegt zw. -1 (negative Korrelation) und 1 (positive Korrelation)

Wie stark Punkte auf der Linie liegen oder um diese Linie herum streuen

zielt nur auf lineare Zusammehänge, kann andere mathematische Zusammenhänge wie Quadrierungen nicht besfchreiben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Parametrische und nicht parametrische Zusammenhänge/ Korrelation

A

Parametrisch = verteilungsabhängig, Normalverteilung
Berechnung des
Pearsons-
Korellationskoeffizient

nicht parametrische = verteilungsunabhängig

Ist keine Normalverteilung herstellbar, kann der Spearman-Rang-Korellationskoeffizient

cor (x, y, method=spearman)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regressionsanalyse

A
  • Eine Variable ist abhängig, die
    andere unabhängig
  • Ursache-Wirkung-Beziehung
  • y ist abhängig von x
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Verteilungen von Daten (3)

A

Symmetrisch:
Median = Mittelwert, z.B. Normalverteilung

Linksgipflig, rechtsschief:
Median < Mittelwert

Rechtsgipflig, linksschief:
Mittelwert > Median

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Simple random sampling

A

Randomisierte Verteilung der Untersuchungsplots
Nachteil: Ungünstig bei der Untersuchung von Landnutzung,
randomisierte Verteilung kann zu ungleichverteilung der Probflächen führen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Gegenmaßnahme von Ungleichverteilung durch simple random sampling

A

Stratifizieren:
Randomisierung wird auf bestimmte Gruppen beschränkt, bzw. manche Gruppen sind nur bis zu bestimmten Maß in dem Randomisierten Verfahren enthalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Kontrolle störender Einflüsse

A

Blockdesign
Verfahren, wenn man mehrere Behandlungen hat, die man vergleiche möchte und sicherstellen muss, dass in einer Wiederholung die sonstigen Umweltbedingungen, die außerhalb der Behandlungswirkung liegen relativ homogen/ gering sind
räumliche Nähe der der Plots (in einem Block)

Besonders starker Umwelteffekt kann dann in einer Anova oder Ancova mit brücksischtigt werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Mittelwertvergleiche 2 Gruppen

A

Parametrischer Test:

Intervall
Normalerteilt

-> t-Test

nicht parametrische Test:

Ordinal
oder Internvall nicht normalverteilt

-> Wilcoxon Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Mittelwertsvergleich bei mehr als 2 Gruppen

A

Anova (parametrisch)

Kruskal-Wallis-Test (nicht parametrische)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Chi-Quadrat-Test

A

Test auf Unabhängigkeit zweier nominal skalierter Merkmale
Sehr Häufig bei der Auswertung von Befragungen

in R:
xtabs - Erstellung von Kreuztabellen

chisq.test - Durchführung eines Chi Quadrat Tests

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Varianzanalyse

A

Varianzanalyse: Zerlegung der Varianz in erklärten und
unerklärten Anteil

erklärt: Streuung zwischen
den Gruppen (SSA)
durch das Modell erklärt
Anova

nicht erklärt: Streuung innerhalb der Gruppen (Residuum) (SSE)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

R^2

A

Bestimmtheitsmaß bei Varianzanalyse

SSA/SST

Anteil der erklärten Varianz an der Gesamtvarianz

26
Q

Anovatabelle Elemente

A

Links nach Rechts

1) Der untersuchte Faktor

2) Freiheitsgrade
Oben: Anzahl Faktorstufen
( k-1)
Unten: Stichprobenumfang (n) -Faktorstufen (k)

3) Sum of Squares
Oben: zwischen den Gruppen = erklärte Streuung
Unten: Innerhalb der Gruppen = Error

4) Mean sum of Squares
Sumof Squares geteilt
durch die Freiheitsgrade

5) F-Wert
die Teststatistik
Mean Sq (Faktor)/MeanSq (Residuen)

6) p-Wert

27
Q

Mehr als 2 Faktorstufen / Gruppen

A

Anova

Das Ergebnis gibt zwar an, ob der Faktor insgesamt einen signifikanten Effekt auf die
Mittelwerte hat, davon weiß man aber noch nicht, welche Mittelwerte sich denn signifikant voneinander unterscheiden Lösung: Post-Hoc-Tests (Multiple Mittelwertsvergleiche)
Ergebnis meist als Buchstabencode

28
Q

nicht parametrische Alternative zur Anova

A

Kruskal-Wallis Test:
Rangbasiertes Verfahren, für mehr als zwei Faktorstufen aber nur für einen Faktor

Nichtparametriche Post Hoc Test:
Paarweiser Wilcoxon Test
Dunn‘s Test bei unbalancierten Gruppen

29
Q

Lineares Regressionsmodell - Gleichung

A

Abhängige Variable y=

ß0
y-Achsenabschnitt

+

ß1
Steigung, Regressionskoeffizent

*

x

+

error
Fehler, Abweichung
(Wird aber in der Regressionsgeraden nicht berücksichtig, GeradenGleichung tut so als wäre das Modell perfekt)

30
Q

Anova & Regression

A

Allgemeine lineare Modelle (lm)

Unterscheiden sich in der Form der Modelldarstellung:
Regression -> Geraden
Anova -> Gruppen

Auch Anovatabelle für Regressionmodell durchführbar

erklärter Varianzanteil (durch das Modell erklärt)

+ nicht erklärter Varianzanteil/ error/ (Residuen)/ Abstand Punkte zum Modell

= Gesamtvarianz

31
Q

Modellgüte R^2 Regression

A

R^2= 1- SSE (Quadratsumme Residuen) / SST (Quadratsumme Gesamtvarianz)

32
Q

allgemeine lineare Modelle (3)

A

Kann mit mehreren
Prädiktorvariablen
unterschiedlicher Skalierung rechnen

mehrere kontinuierliche: Multiple Regression

mehrere Faktoren: Multifaktorielle ANOVA

kontinuierliche und Faktoren: ANCOVA

33
Q

summary multiples Regressionsmodell

A

Estimate zeigt eine positiven oder negativen (-) Zusammenhang der Variablen auf die abhängie Variable und deren Signifikanz

Sowie güßtemaß des Regrssionsmodells (R-squared) und die Modell-Signifikanz

34
Q

GLM

A

das verallgemeinernde lineare Modell

Ermöglicht die Modellierung von Response Variablen
unterschiedlicher Verteilungen
(z.B. nicht normalverteilt)

Art der Generalisierung, z.B. für Zähldaten die stark linksschief sind -> poisson
nur für Integer, Zahlen ohne Komma
famliy=poisson

Kann über link- Funktionen eine Beziehung zwischen Response und Modell herstellen

35
Q

Logistische Regression

A

Logistische Regression: ein GLM mit Logit Link

family = binomial:

Response in Form von 0 = nicht vorkommen und 1 = vorkommen

S-Kurve modelliert die Vorkommenswahrscheinlichkeit in Abhängigkeit eines Prädiktors

36
Q

2 Komponenten der Biodiversität

A

Artenreichtum (Species richness)

Gleichverteilung (Eveness)

37
Q

Eveness

A

Beschreibt Gelchverteilung, Abundanzen über die versch. Arten einer Probefläche
-> spielen auch eine Rolle für die Diversität

Abundanzen -> Zähldaten oder Deckungsgrad

38
Q

Artenakkumulationskurve

A

Grafische Darstellung des Artenreichtums einer Gemeinschaft
-> Sättigungskurve

Kumulierter Artenreichtum in Abhängigkeit von der. Stichprobenanzahl

je mehr Stichproben desto eher nähert man sich einer Sättigung an, alle Artenzaheln einer Gemeinschaft wurden erfasst

39
Q

α-Diversität

A

Diversität an einem Probepunkt, Punktdiversität
Beschreiben durch:
Artenvielfahlt, oder Biodiversitätsindex wie z.B. Shanon Index

40
Q

ß-Diversität

A

Veränderung entlang eines Gradienten

Unterschied in der Artenzusammensetzung zweier Probeflächen

41
Q

ökologische Distanz

A

Unterschiede in Artenzusammensetzung
zwischen Gemeinschaften

Vergleich zwischen den Probeflächen, Unterschiedlichkeit der Artenzusammensetzungen (Distanz)

42
Q

Jaccard-Index

A

Messung der Ähnlichkeit

Anteil der gemeinsamen Arten an allen vorkommendenm Arten der Probeflächen

J=1 -> nur gemeinsame Arten

1-J -> Unähnlichkeit, Distanz

43
Q

Ordinationsverfahren

A

Darstellung der Unähnlichkeit in der multivariaten Statistik

Ähnlichkeit oder Unähnlichkeit der Aufnahmepunkte und/ oder der Arten vermessen

Komponenten von Ordinationsverfahren/ Diagramm:
Darstellung von Arten, Aufnahmeflächen und Umweltgradienten

44
Q

Schrittweises Verfahren in der Auswertung ökologischer Daten

A

Vergleich von Unterschieden zwischen Gruppen?
-> Mittelwertvergleiche, ANOVA

Analyse von Zusammenhängen von Variablen?
-> Korrelation,
Regressionsmodelle

Analyse der Ursachen für Vorkommen/ Abundanz von Arten?
-> Habitatmodelle (Bsp.: Was beeinflusst Vorkommenswahrsch. vom Sperling in der Stadt? (0, 1) Logistische Regression, Ursachen für Vorkommenswahrsch.)

Analyse der Ursachen für Unterschiede der
Artenzusammensetzung
-> Multivariate Methoden
(Alle Arten auf einmal sind Response Variablen (es gibt nicht nur eine abhängige Variable))

45
Q

Grundsätzliche Fragestellungen

A

Welche meiner Variablen ist die Responsevariable?

Gibt es mehr als eine Responsevariable?
-> univariate oder multivariate Statistik (Artenzusammensetzungen)

Welche Form hat die Responsevariable?
-> Beeinflusst die Wahl der statistischen Methoden

Welches sind die Prädiktorvariablen?

Sind die Prädiktorvariablen kontinuierlich oder kategorial oder beides?

46
Q

Modellgleichungen

A

Modellgleichungen
Response und
Prediktor werden in Modellgleichungen und
Grafikbefehlen meist durch ~ verbunden:

plot (y~x ) : trägt x in Abhängigkeit von y auf

lm( y~x ): lineares Modell mit x als Response und y als Prediktorvariable

47
Q

Funktion str

A

str (Name der Tabelle):
gibt eine Übersicht der Datenkategorien von Variablen in einem Datensatz

Datenkategorien in der Ausgabe:
num : numerische (metrische) Variable
int : Ganzzahlen ohne Kommastellen (meistens Zähldaten)
Factor : Faktor, kategoriale Variable

48
Q

Funktion summary

A

summary (Name der Tabelle): gibt eine Tabelle mit Lagemaßen für jede Variable im Datensatz aus

49
Q

Die Funktion plot

A

Universelle Graphikfunktion, die den Grafiktyp anhand der Datenkategorien der verwendeten Variablen auswählt

plot (pH~Biotop): erste Variable numerisch, zweite kategorial = Boxplot

plot(pH~CaGehalt): erste Variable numerisch, zweite auch = Scatterplot

50
Q

Die Funktion hist

A

Erstellt ein Histogramm einer ausgewählten Variable des Datensatzes

Verteilung der Variable

hist ( pH): erstellt ein Histogramm der Variable pH

51
Q

Subscripts (Indizierung von Tabellen)

A

Datenformat von Tabellen:
- matrix (nur für Zahlen, selten)
- dataframe (fast immer, wird über read.table erzeugt)

[1,3] -> Zeile, Spalte

52
Q

Subscripts für Variablen

A

pH[ location ==”GB”]

location [pH>5]
logische Operanten zur Filterung von metrischen Variablen

53
Q

Anova in R

A

Funktionen

aov (response~predictor)

oder

lm(response~predictor)

Für lineare Modelle, die metrische Prediktoren enthalten, ist aov nicht geeignet, lm aber schon

Bringt so aber nicht viel, sollte einem Objekt zugeordnet werden:
Model1<-aov(response
~predictor)
Ausgabe der ANOVA
Tabelle dann über:
anova (Model1)

54
Q

Anova in R mit mehreren Prädiktorvariablen

A

aov(response~predictor1 + predictor2)

oder

aov(response~predictor1 *predicto2)
mit Interaktion
wird auch in der Anova Tabelle ausgegeben

55
Q

Das allgemeine multiple lineare Modell

A

in R alles mit lm

lm (Response~ Variable1 + Variable2): Multiple Regression
-> metrische Variablen

lm(Response~ Faktor1 + Faktor2): Multifaktorielle ANOVA
-> Kategorielle Variablen

lm(Response~ Variable1 + Faktor1): ANCOVA

56
Q

Ordinationsverfahren in R

A

Dirkete Ordination/ erzwungen

Das Ordinationsmodell wird bereits an die Umwelt angepasst (hier CCA):

dune.ca <- cca (dune~A1)

Der Artdatensatz als Response
Umweltvariablen als Prädiktoren

Indirekte Ordination

Das Ordinationsmodell wird nur aus der Distanzmatrix erstellt. (Unähnlichkeit der Zusammensetzung)
Für eine NMDS muss immer noch das Distanzmaß (hier “
bray “ für Bray Curtis) angegeben werden und die Anzahl der Dimensionen des Ordinationsmodells (k):

dune.nmds<-metaMDS(dune , distance = bray “, k =2)

Stresswert über 0.2 -> ggf. Anzahl der Achsen (k) erhöhen

57
Q

Ordinationsplot erstellen in R

A

plot1 <- ordiplot (dune.nmds , choices =c(1,2))

58
Q

Überlagern von Umweltvariablen: envfit

A

ef<-envfit (dune.nmds , dune.env , permu = 999)

permue -> bestimmt Genauigkeit des Ergebnisses

ef -> gibt eine Tabelle mit p Werten aus

59
Q

Platten nur der signifikanten Umweltvariablen

A

plot(ef , p.max = 0.05, col=’black’, cex =0.6)

60
Q

Manova

A

Erlaubt Hypothesentest
welche Prädiktoren haben einen Einfluss auf die
Artenzusammensetzung?
-> ANOVA-Tabelle als Output

Funktion in R:
adonis2 (package vegan)
adonis2(Com ~ Zn+location , method = “bray”, data =Env)