Zusammenfassung Flashcards
Bestandteile der Grundgesamtheit
mehrere Stichproben und sich daraus ergebende
Variablen
- unabhängige Variable (Prädiktor)
- abhängige Variable (Response)
Was sind ökologische Daten?
Artentabelle und Umweltdaten,
werden miteinander verbunden über den identischen Zeilennahmen (rownames =1)
Deskriptive Statistik
Beschreibung, Zusammenfassung und Gruppierung von Variablen und ihren Zusammenhängen
Induktive (schließende) Statistik
- Verallgemeinerbare Aussagen über die Grundgesamtheit
- Testen von Hypothesen
-> Unterscheidung von zufälligen Beobachtungen
und systematischen Effekten
Nullhypothese
in der schließenden Statistik wird eine Theorie überprüft, die man hier als Hypothese bezeichnet
-> Nullhypothese als Gegenhypothese, die entweder unterstützt (p>0.05) oder abgelegt wird (p<0.05)
t-Test
Vergleich des empirisch gefundenen t Werts (p) mit der (theoretischen) t-Verteilung (z.B. Normalverteilung)
ordinale Gradienten
Faktoren mit sinnvoller Reihenfolge (Faktorstufen) und entsprechender metrischer Variable
Gruppen
Faktoren und Faktorstufen ohne metrische Variable
Wichtige Variablen-Skalen in R (3)
Numerische Variablen (num):
Verhältnisskala/ Metrisch
Ganzzahlen (int):
Intervalskala (sinnvolle Abstände zw. den Werten)/ Zähldaten
Faktoren (factor):
Nominalskala/Kategorien
Grundsätzliche Datenorganisation (3)
- jede Variable steht in einer Spalte
- Variablennamen stehen als Überschrift über der Spalte
- Faktoren werden ebenfalls in
EINER Spalte organisiert, die
Faktorstufen werden möglichst als Buchstabencode
verschlüsselt
Lagemaße (3)
arithmetischer Mittelwert:
Maß für das Zentrum der Verteilung
Median:
Wert, der genau in der Mitte des sortierten
Datensatzes liegt er teilt also den Datensatz in zwei gleich große Bereiche
Modalwert (Modus):
der am häufigsten auftretende Wert = Peak im Histogramm
Was ist Varianz?
ein Streuungsmaß für die mittlere Summe der quadrierten Abweichungen vom
Mittelwert
Sum of Squares / Freiheitsgrade (n-1)
Was ist Standardabweichung?
ist die mittlere Abweichung der Werte einer Variablen vom Mittelwert
Die Standardabweichung ist die Wurzel aus der Varianz und liegt damit wieder in der gleichen Maßeinheit vor.
Korrelationskoeffizent
Zeigt die Stärke eines Linearen Zusammenhangs, keine Geradensteigung !
liegt zw. -1 (negative Korrelation) und 1 (positive Korrelation)
Wie stark Punkte auf der Linie liegen oder um diese Linie herum streuen
zielt nur auf lineare Zusammehänge, kann andere mathematische Zusammenhänge wie Quadrierungen nicht besfchreiben
Parametrische und nicht parametrische Zusammenhänge/ Korrelation
Parametrisch = verteilungsabhängig, Normalverteilung
Berechnung des
Pearsons-
Korellationskoeffizient
nicht parametrische = verteilungsunabhängig
Ist keine Normalverteilung herstellbar, kann der Spearman-Rang-Korellationskoeffizient
cor (x, y, method=spearman)
Regressionsanalyse
- Eine Variable ist abhängig, die
andere unabhängig - Ursache-Wirkung-Beziehung
- y ist abhängig von x
Verteilungen von Daten (3)
Symmetrisch:
Median = Mittelwert, z.B. Normalverteilung
Linksgipflig, rechtsschief:
Median < Mittelwert
Rechtsgipflig, linksschief:
Mittelwert > Median
Simple random sampling
Randomisierte Verteilung der Untersuchungsplots
Nachteil: Ungünstig bei der Untersuchung von Landnutzung,
randomisierte Verteilung kann zu ungleichverteilung der Probflächen führen
Gegenmaßnahme von Ungleichverteilung durch simple random sampling
Stratifizieren:
Randomisierung wird auf bestimmte Gruppen beschränkt, bzw. manche Gruppen sind nur bis zu bestimmten Maß in dem Randomisierten Verfahren enthalten
Kontrolle störender Einflüsse
Blockdesign
Verfahren, wenn man mehrere Behandlungen hat, die man vergleiche möchte und sicherstellen muss, dass in einer Wiederholung die sonstigen Umweltbedingungen, die außerhalb der Behandlungswirkung liegen relativ homogen/ gering sind
räumliche Nähe der der Plots (in einem Block)
Besonders starker Umwelteffekt kann dann in einer Anova oder Ancova mit brücksischtigt werden
Mittelwertvergleiche 2 Gruppen
Parametrischer Test:
Intervall
Normalerteilt
-> t-Test
nicht parametrische Test:
Ordinal
oder Internvall nicht normalverteilt
-> Wilcoxon Test
Mittelwertsvergleich bei mehr als 2 Gruppen
Anova (parametrisch)
Kruskal-Wallis-Test (nicht parametrische)
Chi-Quadrat-Test
Test auf Unabhängigkeit zweier nominal skalierter Merkmale
Sehr Häufig bei der Auswertung von Befragungen
in R:
xtabs - Erstellung von Kreuztabellen
chisq.test - Durchführung eines Chi Quadrat Tests
Varianzanalyse
Varianzanalyse: Zerlegung der Varianz in erklärten und
unerklärten Anteil
erklärt: Streuung zwischen
den Gruppen (SSA)
durch das Modell erklärt
Anova
nicht erklärt: Streuung innerhalb der Gruppen (Residuum) (SSE)