VL1 Einführung & Grundlagen Flashcards

1
Q

Was sind die zentralen Inhalte der Inferenzstatistik?

A

Rückschluss von Stichproben auf die Grundgesamtheit.
Bewertung, ob beobachtete Unterschiede zufällig oder systematisch sind.
Nutzung der Wahrscheinlichkeitstheorie zur Quantifizierung von Unsicherheit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was versteht man unter Wahrscheinlichkeiten?

A

Wahrscheinlichkeit ist eine Zahl zwischen 0 und 1, die das Eintreten eines Ereignisses beschreibt.
Die Wahrscheinlichkeiten aller möglichen Ereignisse summieren sich zu 1.
Beispiele: Münzwurf (0.5 für Kopf) oder Würfeln einer Sechs (1/6 ≈ 0.1667).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was ist der frequentistische Ansatz in der Statistik?

A

Wahrscheinlichkeit beschreibt die relative Häufigkeit eines Ereignisses bei vielen Wiederholungen eines Zufallsexperiments.
Wahrscheinlichkeiten werden durch Beobachtungen geschätzt.
Zentrale Aufgaben: Schätzen und Testen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was ist ein Signifikanzniveau, und warum ist es wichtig?

A

Grenze, ab der eine Beobachtung unter der Nullhypothese als unplausibel gilt.
Üblicherweise bei 5 % oder 1 % festgelegt.
Unterschreiten der Grenze führt zur Ablehnung der Nullhypothese.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie funktioniert ein Nullhypothesensignifikanztest?

A

Aufstellen von Null- und Alternativhypothese.
Festlegen des Signifikanzniveaus (z. B. 5 %).
Daten erheben und analysieren.
Berechnen des p-Werts und Vergleich mit dem Signifikanzniveau.
Entscheidung: Nullhypothese beibehalten oder ablehnen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was bedeutet ein „nicht-signifikantes“ Ergebnis?

A

Beobachtungen sind plausibel unter der Nullhypothese.
Beibehaltung der Nullhypothese bedeutet nicht, dass sie bewiesen ist.
Mögliche Gründe: Kein Effekt oder zu geringe Teststärke.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist eine Stichprobenkennwerteverteilung?

A

Verteilung von Kennwerten (z. B. Mittelwert) aus vielen Stichproben einer Population.
Hilft, die Präzision einer Schätzung zu beurteilen.
Streuung dieser Verteilung wird als Standardfehler bezeichnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist ein t-Test für unabhängige Stichproben?

A

Testet, ob sich die Mittelwerte zweier Gruppen signifikant unterscheiden.
Voraussetzungen: Normalverteilung und Homoskedastizität (Varianzgleichheit). (Auch möglich mit verschiedenen Varianzen –> Welch’s tTest)
Alternativhypothese: Mittelwerte der Gruppen sind unterschiedlich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wie wird die t-Statistik berechnet?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist der p-Wert, und wie wird er interpretiert?

A

Wahrscheinlichkeit, eine beobachtete (oder extremere) Abweichung zu finden, wenn die Nullhypothese wahr ist.

p<α: Nullhypothese wird abgelehnt
p größer gleich α: Nullhypothese wird beibehalten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Konfidenzintervalle, und was sagen sie aus?

A

Bereich, in dem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt (z. B. 95 %).
Wenn das Intervall die Null nicht enthält, ist der Unterschied signifikant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was ist der Standardfehler, und warum ist er wichtig?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Hypothesen können bei einem t-Test gerichtet oder ungerichtet sein?

A

Ungerichtet: Unterschied in beiden Richtungen möglich (μ1 ist ungleich μ2)
Gerichtet: Erwartung eines Effekts in eine spezifische Richtung (μ1 > μ2 oder μ1<μ2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche statistischen Modelle beschäftigen sich mit Unterschieden und Zusammenhängen?

A

Unterschiede: Vergleich von Mittelwerten zwischen Gruppen, Bedingungen oder über die Zeit.
Zusammenhänge: Beziehung zwischen Variablen, z. B. Korrelation oder Regression.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine Normalverteilung, und warum ist sie wichtig?

A

Definition: Symmetrische, glockenförmige Verteilung mit Mittelwert = Median = Modus.
Bedeutung: Viele statistische Tests basieren auf der Annahme der Normalverteilung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind die Eigenschaften einer Normalverteilung?

A

Symmetrisch um den Mittelwert.
68 % der Werte liegen innerhalb von ±1 Standardabweichung.
95 % der Werte liegen innerhalb von ±2 Standardabweichungen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist eine Effektstärke, und warum ist sie wichtig?

A

Definition: Maß für die Größe eines Effekts unabhängig von der Stichprobengröße.
Bedeutung: Ergänzt den p-Wert, um die praktische Relevanz eines Ergebnisses zu bewerten.
Beispiele: Cohen’s d, r², eta-quadrat (η²)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist Cohen’s d, und wie wird es berechnet?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist eine Varianzanalyse (ANOVA), und wann wird sie verwendet?

A

Definition: Testet Mittelwertsunterschiede zwischen mehr als zwei Gruppen.
Anwendung: Bei mehreren unabhängigen Gruppen oder Faktoren.
Nullhypothese: Alle Gruppenmittelwerte sind gleich.

20
Q

Was ist der F-Wert in der ANOVA?

21
Q

Was ist Homoskedastizität, und warum ist sie wichtig?

A

Definition: Annahme, dass die Varianzen der Gruppen gleich sind.
Bedeutung: Verletzung dieser Annahme kann zu verzerrten Testergebnissen führen.
Test auf Homoskedastizität: Levene-Test.

22
Q

Was ist der Unterschied zwischen parametrischen und nicht-parametrischen Tests?

A

Parametrische Tests: Erfordern bestimmte Annahmen (z. B. Normalverteilung, gleiche Varianzen). Beispiele: t-Test, ANOVA.
Nicht-parametrische Tests: Keine strengen Annahmen, geeignet für ordinale Daten oder Verteilungen ohne Normalität. Beispiele: Mann-Whitney-U-Test, Kruskal-Wallis-Test.

23
Q

Was ist ein Konfidenzintervall, und wie wird es interpretiert?

A

Definition: Bereich, in dem der wahre Populationsparameter mit einer bestimmten Wahrscheinlichkeit liegt (z. B. 95 %).
Interpretation: Ein 95%-Konfidenzintervall enthält in 95 von 100 Fällen den wahren Wert, wenn das Experiment wiederholt wird.

24
Q

Was ist der Unterschied zwischen deskriptiver und inferentieller Statistik?

A

Deskriptive Statistik: Beschreibung und Zusammenfassung von Daten (z. B. Mittelwert, Median, Standardabweichung).
Inferentielle Statistik: Rückschlüsse von Stichprobendaten auf die Population (z. B. Hypothesentests, Konfidenzintervalle).

25
Was sind Alpha- und Beta-Fehler?
Alpha-Fehler (Typ-I-Fehler): Fälschliches Ablehnen der Nullhypothese, obwohl sie wahr ist. Beta-Fehler (Typ-II-Fehler): Fälschliches Beibehalten der Nullhypothese, obwohl sie falsch ist.
26
Was beeinflusst die Teststärke (Power) eines Tests?
Stichprobengröße: Größere Stichproben erhöhen die Teststärke. Effektstärke: Größere Effekte sind leichter zu entdecken. Signifikanzniveau (𝛼): Höheres 𝛼 erhöht die Teststärke.
27
Was ist der Unterschied zwischen einem einseitigen und einem zweiseitigen Test?
Einseitiger Test: Prüft eine spezifische Richtung Zweiseitiger Test: Prüft auf einen Unterschied in beide Richtungen
28
Was ist der zentrale Grenzwertsatz?
Bei ausreichend großen Stichproben nähert sich die Verteilung des Mittelwerts einer Normalverteilung an, unabhängig von der Populationsverteilung. Grundlage für viele inferenzstatistische Verfahren.
29
Was ist der Unterschied zwischen einer Stichprobe und der Grundgesamtheit?
Stichprobe: Teilmenge der Grundgesamtheit, die untersucht wird. Grundgesamtheit: Gesamtheit aller möglichen Beobachtungen, die von Interesse sind. Ziel: Rückschlüsse von der Stichprobe auf die Grundgesamtheit.
30
Was versteht man unter Stichprobenfehler?
Definition: Abweichung zwischen dem Stichprobenkennwert (z. B. Mittelwert) und dem wahren Populationswert. Ursachen: Zufallsvariationen und Stichprobengröße.
31
Was ist eine Korrelation, und wie wird sie gemessen?
Definition: Maß für die Stärke und Richtung des Zusammenhangs zwischen zwei Variablen. Messung: Pearson’s 𝑟 (parametrisch) oder Spearman’s 𝜌 (nicht-parametrisch). Wertebereich: −1 (negativ) bis +1 (positiv), 0: kein Zusammenhang.
32
Was ist eine Regression, und wann wird sie verwendet?
Definition: Statistisches Verfahren zur Vorhersage einer abhängigen Variable (y) durch eine oder mehrere unabhängige Variablen (x). Anwendung: Analyse von Zusammenhängen und Vorhersagemodellen. Beispiel: Wie Einkommen (x) den Konsum (y) beeinflusst.
33
Was ist Multikollinearität in einer Regression?
Definition: Starke Korrelation zwischen den unabhängigen Variablen. Problem: Erschwert die Interpretation der Regressionskoeffizienten. Lösung: Variablenreduktion oder Einsatz von Regularisierungstechniken.
34
Was ist eine Standardabweichung, und wie wird sie interpretiert?
Definition: Maß für die Streuung der Werte um den Mittelwert. Interpretation: Kleine Standardabweichung: Werte liegen nah am Mittelwert. Große Standardabweichung: Werte sind stark gestreut.
35
Was ist ein Boxplot, und was zeigt er an?
Definition: Grafische Darstellung der Verteilung von Daten. Elemente: Median (mittlere Linie). Interquartilsabstand (Box). Ausreißer (Punkte außerhalb der "Whiskers").
36
Was ist eine Häufigkeitsverteilung?
Definition: Zeigt, wie oft jede Kategorie oder jeder Wert in einem Datensatz vorkommt. Visualisierung: Balkendiagramme, Histogramme oder Kreisdiagramme.
37
Was sind nominale, ordinale und metrische Skalen?
Nominal: Kategorien ohne Reihenfolge (z. B. Geschlecht). Ordinal: Geordnete Kategorien ohne gleiche Abstände (z. B. Schulnoten). Metrisch: Zahlen mit gleichen Abständen, z. B. Alter (intervall- und verhältnisskaliert).
38
Was ist der Unterschied zwischen deskriptiver und explorativer Datenanalyse?
Deskriptiv: Beschreibung der Daten durch Kennwerte und Visualisierungen. Explorativ: Suche nach Mustern, Zusammenhängen oder Hypothesen in den Daten.
39
Was sind unabhängige und abhängige Variablen?
Unabhängige Variable (UV): Wird manipuliert oder beobachtet, um ihre Wirkung zu untersuchen. Abhängige Variable (AV): Wird gemessen, um die Wirkung der UV zu beurteilen.
40
Was ist eine Scheinkorrelation?
Definition: Ein scheinbarer Zusammenhang zwischen zwei Variablen, der durch eine dritte Variable verursacht wird. Beispiel: Eiscreme-Verkauf und Ertrinken (gemeinsame Ursache: Sommer).
41
Was ist ein Histogramm, und wofür wird es verwendet?
Definition: Darstellung der Häufigkeitsverteilung metrischer Daten. Verwendung: Analyse der Verteilung (z. B. Normalverteilung, Schiefe).
42
Was ist ein Streudiagramm, und was zeigt es?
Definition: Zeigt den Zusammenhang zwischen zwei metrischen Variablen. Bedeutung: Visualisiert Muster, Korrelationen und Ausreißer.
43
Was ist eine Überprüfungshypothese, und wie wird sie formuliert?
Definition: Testbare Aussage, die eine Vermutung über einen Zusammenhang oder Effekt beschreibt. Formulierung: Nullhypothese (H0): Kein Effekt oder Zusammenhang. Alternativhypothese (H1): Effekt oder Zusammenhang existiert.
44
Voraussetzungen t-Test unabhängige Stichproben
45
T-Test