Statistik I Flashcards

1
Q

Welche Rolle spielt die Statistik in der Psychologie

A
  • Gehört zu den Grundlagen der Psychologie
  • Ermöglicht Erforschung beobachtbaren Verhaltens
  • Dient zur Feststellung ob beobachtete Daten einen Zusammenhang haben, ob Fehlschlüsse vorliegen
  • Bestimmung von Wahrscheinlichkeiten
  • Schließung von Teilmenge auf Gesamtmenge
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Unterschied Population und Stichprobe

A
  • Population ist die Gesamtheit aller statistischen Einheiten auf die sich die Fragestellung der Untersuchung richtet
  • Population ist aber meist zu groß, und dementsprechend gesamte Untersuchung zu Aufwendig
  • Daher zieht man Stichproben der Population, die möglichst genau sein sollen

-Stichprobenarten: einfache-, geschichtete-Stichproben und convenience sampling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Abgrenzung deskriptive- / Inferenzstatistik

A
  • deskriptive Statistik dient zur Beschreibung von einzelnen oder mehreren Datensätzen, auch Variablen genannt, die Ausprägungen / Beobachtungen bzw. Werte besitzen, die dann in Tabellen / Grafiken zusammengefasst werden können
  • Wichtige Statistiken sind z.B. Maße der zentralen Tendenz oder Streuung
  • deskriptiv: univariat (ein Merkmal) oder bivariat (mindestens zwei Merkmale)
  • Zusammengefasste Variablen können mit Hilfe der Inferenzstatistik von der Stichprobe auf die Population übertragen werden
  • So kann man Wahrscheinlichkeiten von Parametern bestimmen / schätzen und so aufgestellte Hypothesen testen
  • So kann von kleinen Gruppen (z.B. Labor) auf Population geschlossen werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Warum ist die Bestimmung des Skalenniveaus von Bedeutung?

A
  • Teilt die Variable anhand ihres Informationsgehalts ein
  • Bildet die Basis für die Auswahl der statistischen Verfahren, mit denen die erhobenen Daten ausgewertet werden
  • je höher der Informationsgehalt, desto mehr Transformationen sind erlaubt, aber desto höher ist Aussagekraft
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nominalskala

A

-R-I-O-N

  • niedrigster Informationsgehalt
  • unterschiedliche Werte repräsentieren Kategorien, die nicht sinnvoll in eine Reihe gebracht werden können (keine sinnvolle Rangfolge)
  • Zuordnung von Zahlen, Symbolen, Figuren, etc. zu den Werten
  • kein absoluter Nullpunkt
  • qualitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - nein
Differenzen bilden - nein
Quotienten bilden - nein

Psychologisch:
Geschlecht, Temperament, Konstitution

  • Beispiele:
  • Geschlecht
  • Studienfach
  • Wohnort
  • Augenfarbe
  • etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ordinalskala

A

-R-I-O-N

  • dritthöchster Informationsgehalt
  • Bildung von Rangfolgen, die sinnvoll interpretiert werden können
  • keine Bildung von sinnvollen Abständen möglich
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - nein
Quotienten bilden - nein

Psychologisch:
Noten, Arbeitszufriedenheit, Noten

  • Beispiele:
  • Umfragen Arbeitszufriedenheit:
  • Sehr zufrieden
  • Zufrieden
  • Mittelmäßig
  • Unzufrieden
  • Sehr Unzufrieden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Intervallskala

A

-R-I-O-N

  • zweit höchster Informationsgehalt
  • Bildung von Rangfolgen
  • Konstante Abstände
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - nein

Psychologisch:
IQ, Punkte Pisa-Studie

  • Beispiele:
  • kein natürlicher Nullpunkt
  • IQ
  • Temperatur
  • “heute ist es wärmer als gestern”
  • zwischen 5°C und 20°C gleicher Abstand wie zwischen 30°C und 45°C
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ratioskala

A

-R-I-O-N

  • höchster Informationsgehalt
  • Bildung von Rangfolgen
  • konstante Abstände
  • natürlicher Nullpunkt
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - ja

Psychologisch:
Alter, Körpergröße, Gewicht

  • Beispiele:
  • wie Intervallskala, nur mit Nullpunkt
  • Alter
  • Geschwindigkeit
  • Preis
  • Größe
  • Zeit
  • Gewicht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

qualitativ

A

qualitative Variablen besitzen unterschiedliche Ausprägungen, die verschiedene Eigenschaften der Variablen charakterisieren, sich jedoch nicht hinsichtlich qualitativer Aspekte wie z.B. der Intensität unterscheiden lassen

  • nicht in Zahlen ausdrückbar
  • Nominalskalierte Variablen sind immer qualitativ
  • z.B. Studienfach, Geschlecht
  • Frage: Was hat ihnen am besten gefallen?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

quantitativ

A

quantitative Variablen besitzen unterschiedliche Ausprägungen, die eine unterschiedliche Intensität eines Merkmals reflektieren

-in Zahlen ausdrückbar

  • mindestens Ordinalskalenniveau
  • Frage: Wie gut würden Sie das Produkt einschätzen (1-6)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

diskret

A

bei diskreten Variablen kann die Menge der Ausprägung durch natürlich endlich Abzählbare Zahlen repräsentiert werden
-z.B. Augenzahl beim Würfeln, Anzahl Personen in einer Gruppe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

stetig

A
  • die Menge der Ausprägungen ist nicht abzählbar
  • zwischen zwei Werten können unendlich viele andere Werte liegen (Intervalldenkweise)
  • z.B. Körpergröße, Länge, Temperatur, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Maße der Zentralen Tendenz und Skalenniveaus

A

Arithmetisches Mittel (y-quer):

  • Mittelwert für Metrische Variablen
  • empfindlich gegenüber Ausreißern

Median (y med):

  • mittlerer Wert der geordneten Urliste
  • robust gegenüber Ausreißern
  • mindestens Ordinalskalenniveau
  • n gerade -> aufrunden

Modalwert / Modus (y mod):

  • am häufigsten vorkommender Wert
  • Hochpunkt der Verteilung
  • mindestens Nominalskalenniveau
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Lageregeln

A

-Schiefe von Verteilungen metrischer Variablen empfindlich gegenüber Ausreißern

y mod > y med > y quer = linksschief / rechtsteil
y mod < y med < y quer = rechtsschief / linkssteil
y mod ca. y med ca. y quer = ungefähr symmetrisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standardisierung IQ-Wert

A

100 + 15z

-> z = (IQ-100) / 15

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standardisierung Z-Wert

A

100 + 10z

-> z = (Z-100) / 10

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Standardisierung T-Wert

A

50 + 10z

-> z = (T-50) / 10

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Standardisierung Stanine-Wert

A

5 + 2z

-> z = (Stanine-5) / 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Standardisierung PISA

A

500 + 10z

-> z = (PISA-500) / 100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Standardisierung Abiturnotenskala

A

8 + 3z

-> z = (ABI-8) / 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Standardisierung Schulnote

A

3 + z

-> z = (NOTE-3) / 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Standardisierung

A
  • Ziel: Angabe der relativen Lage von Messwerten in einer Verteilung
  • wenn in Beziehung gesetzt, erkennt man unter- / überdurchschnittliche Ergebnisse zur Referenzgruppe

-z Standardisierungen geben die Abweichung eines Wertes vom Mittelwert in der Einheit Standardabweichung an

z i = y i / s y - y quer / s y

  • mindestens Intervallskalenniveau
  • Mittelwert: z y = 0
  • Varianz: z s² = 1
  • Standardabweichung z s = 1
  • erhöht Informationsgehalt
  • > durch Standardisierung verlieren Messwerte ihre ursprünglichen (unterschiedlichen) Messeinheiten und erhalten einheitliche Messeinheiten: Standardabweichung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Nominalskaliert:

polytom

dichotom - natürlich / künstliche

A

polytom:
-mehr als 2 Ausprägungen (Familienstand: Ledig, Verheiratet, Verwitwet)

dichotom:
-genau 2 Ausprägungen (Geschlecht: Mann, Frau)

dichotom natürlich:
-von Natur aus 2 Ausprägungen (Geschlecht: Mann, Frau, Schwangerschaft: ja / nein)

dichotom künstlich:
-Bezug von Intervallskalierter Variable zu Grenzwert:
(Leute über 40 Jahre = 1 / Leute unter 40 Jahre = 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wertebereich der t-Verteilung

A
    • Bis + unendlich, da symmetrische Funktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Kovarianz

A

-beschreibt ein nicht normiertes Maß für Richtung und Stärke des Zusammenhangs zweier Variablen (x und y)
bei 0 = kein linearer Zusammenhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Varianz

A
  • Streuung der Messwerte einer metrischen Variablen
  • (Summe quadrierter Abweichungen - (Anzahl x Mittelwert²)) x 1/Anzahl-1
  • verliert Einheit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Variation

A
  • Streuung der Messwerte einer metrischen Variablen
  • SS (Summe quadrierter Abstände)
  • Behält Einheit bei
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Erklären Tau-b

A
  • Zusammenhangsmaß für Ordinalskalierte Variablen
  • Rangbindungen in den einzelnen Variablen werden berücksichtigt
  • bei ungleicher Anzahl an Ausprägungen der Variablen kann Tau-b nicht -1/1 annehmen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Erklären Tau-c

A
  • Zusammenhangsmaß für Ordinalskalierte Variablen
  • Differenz der Konkordanten und Diskonkordanten C/D in Beziehung gesetzt
  • bei mehr als 10 Paaren n>10 -> etwa normalverteilt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Standardschätzfehler

A

-positive Wurzel aus der Schätzfehlervarianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Standardabweichung

A
  • positive Wurzel aus der Varianz

- Entgegen der Varianz entspricht sie der Einheit, anhand derer die Variable gemessen wurde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Spezifität

A
  • Anzahl der positiven Testausgänge, die auch korrekt sind

- (Kranke, die auch wirklich krank sind)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Sensitivität

A
  • Anzahl der negativen Testausgänge, die auch korrekt sind

- (Gesunde, die auch wirklich gesund sind)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Was ist die lineare Regression?

A
  • Beschreibt Zusammenhang zwischen Kriterium (AV) und Prädiktor (UV)
  • einfache lineare Regression: nur eine AV durch UV -> wird durch Regressionsgerade dargestellt
  • multiple lineare Regression: mehrere AV durch UV vorhergesagt -> Regressionsebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Erklärte Varianz

A
  • Kriteriumsvariable (AV) besteht aus 2 Teilen:
  • den durch UV vorhergesagten Teil (erklärte Variation)
  • den durch UV nicht erklärten Teil (nicht erklärte Variation)

-um Güte der Prognose zu bestimmen wird die erklärte Variation ins Verhältnis zu Gesamtvariation gesetzt
(Gesamtvariation = erklärte + nicht erklärte Variation)

Relevante aufsummierte und quadrierte Abweichungen:

  • Abweichung eines beobachten Messwerts vom Mittelwert: Gesamtvariation
  • Abweichung eines vorhergesagten Wertes vom Mittelwert: erklärte Variation
  • Abweichung des beobachteten Werts zum Mittelwert: nicht erklärte Variation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Einfluss einer Beobachtung

A
  • Einflussreiche Beobachtungen sind Beobachtungen, die in besonderem Ausmaß die Schätzer der linearen Regression beeinflussen und somit die Regressionsgerade verschieben
  • trifft vor allem bei Hebelpunkten zu
  • sind meist Ausreißer, aber nicht immer
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Kohens K (Kappa)

A
  • Übereinstimmungsmaß, das zeigt wie gut 2 Urteile übereinstimmen / abweichen
  • berücksichtigt Anteil zufällig übereinstimmender Urteile
  • wird verwendet um zu prüfen ob Klassifikationsschemata, Ratingskalen hinreichend objektiv sind
  • Voraussetzung ist symmetrische Häufigkeitstabelle
  • Zwei Beurteiler sollen unter Zuhilfenahme gegebener Kriterien zum gleichen Ergebnis kommen -> Kappa gibt an wie gut Urteile übereinstimmen

Beispiel: 2 Gutachter diagnostizieren psychische Krankheiten

Beispiel: Bei Assesment Center sollen Beobachter einschätzen ob Bewerber z.B. Blickkontakt gehalten hat

K= -1 Übereinstimmungen kleiner als unter Zufallsbildung erwartete Zahl
K= 0 Beobachtungen = Anzahl zufälliger Urteile
K= 1 Beobachtungen größer als Zufälle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Korrelation

A
  • Pearson-Produkt-Moment-Korrelation
  • LINEARES Zusammenhangsmaß zwischen 2 Variablen
  • nur ab Intervallskala
  • je höher x, desto höher/niedriger y (-1;1)
  • je höher Maß ausfällt, desto häufiger treten Variablen zusammen auf
  • 0,1 schwach 0,3 mittel 0,5 stark
  • Nullkorrelation bedeutet nicht KEIN ZUSAMMENHANG, nur kein linearer!
  • sagt nichts über Zusammenhang aus! (A->B, B->A, C->A/B, A // B)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Platykurtische Verteilung

A
  • weißt eine geringere Wölbung auf als eine Normalverteilung mit gleicher Varianz
  • negative Kurtosis (Wölbung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Odds Ratio

A
  • Verhältnis von Chancen / Odds von zwei Gruppen

- z.b Verhöltnis P(erkrankt | risiko) zu P(erkrankt | kein risiko) ist

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
41
Q

Leptokurtische Verteilung

A
  • weißt eine größere Wölbung auf als eine Normalverteilung mit gleicher Varianz
  • positive Kurtosis (Wölbung)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
42
Q

Konkordanz / Diskonkordanz

A
  • bei zwei Wertepaaren

- Konkordanz liegt vor wenn xi > xj und yi > yj (und andersrum xj und yi < yj (und andersrum >)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
43
Q

Homoskedastizität

A

Fehlervarianzen einer Ausprägung für UV sind gleich

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
44
Q

Hebelpunkte

A

Beobachtungen, die von vornherein potenziell einflussreiche Beobachtungen darstellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
45
Q

Geschichtete Zufallsstichprobe

A

Population wird in Schichten eingeteilt und daraus werden Stichproben gezogen (Schüler in Bundesländern)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
46
Q

einfache Stichprobe

A

aus Population werden willkürlich Stichproben gezogen (alle gleiche Wahrscheinlichkeit)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
47
Q

Quotenstichprobe

A

Personen werden anhand speziellen Merkmals ausgesucht, sodass sie ein Abbild der Population ergeben (% Leute = Anteil Population)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
48
Q

convenience sampling

A
  • Personen, die einfach zu erreichen sind werden ausgesucht
  • Zwillingsstudie einige wenige Zwillingspaare

->zu prüfen ob Merkmale einer repräsentativen Stichprobe erfüllt

49
Q

Merkmale repräsentative Stichprobe

A

-Daten müssen angemessene Aussagen über zugrunde liegende Population erlauben, sodass Stichprobe ein verkleinertes Abbild der Population darstellt

50
Q

Vollerhebung

A
  • Alle Mitglieder der Population werden mit einbezogen
  • nur bei kleinen Populationen
  • z.B. Evaluation einer Vorlesung
51
Q

Dummykodierung

A
  • häufig verwendete Form der Kodierung von Nominalskalierten Variablen mit dichotomer Merkmalsausprägung
  • können so als Prädiktor in Regressionsanalyse aufgenommen werden
  • Dummyvariable erfasst die Differenz zwischen dem Mittelwert der ihr zugehörigen Gruppe zur Referenzgruppe
  • eine Gruppe Wert 1 eine Wert 0
52
Q

Determinationskoeffizient R²

A
  • bezeichnet den Anteil der durch die Regression erklärten Variation an der Gesamtvariation
  • PRE-Maß und stimmt im Fall der einfachen linearen Regressionen mit dem Quadrat der Korrelation überein
  • je höher R² desto höher ist erklärte Variation zur Gesamtvariation
  • je niedriger R² desto niedriger ist erklärte Variation
53
Q

Cramers V

A
  • Zusammenhangsmaß für Nominalskalierte Variablen
  • Chi² Statistik wird durch das theoretische Maximum dieser Statistik der zugrunde liegende Kontingenztabelle geteilt (mit r/c-1)
  • V = wurzel aus (X² / n * min (r/c-1)
54
Q

Chi²

A

-misst den Unterschied zwischen der Kontingenz- und Indifferenztabelle anhand eines Wertes der zwischen 0 und unendlich liegt

55
Q

Kontingenztabelle

A
  • bivariate Häufigkeitstabelle
  • enthält absolute oder relative Häufigkeiten der Wertepaare zweier Variablen
  • in einer Zelle steht Häufigkeit für X und Y
56
Q

Biseriale Korrelation

A

Zusammenhangsmaß für eine Intervallskalierte Variable und eine binäre Variable, die auf Dichotomisierung einer normalverteilten (metrischen) Variablen beruht

57
Q

bedingte Häufigkeitsverteilung

A

relative Häufigkeit einer Variable X unter der Bedingung, dass andere Variable Y eine bestimmte Ausprägung hat

58
Q

Indifferenztabelle

A

-enthält ausgehend von Randverteilungen einer Kontingenztabelle die aufgrund Unabhängigkeitsannahme zu erwartenden Häufigkeiten zweier Variablen X und Y

59
Q

A-posteriori-Verteilung

A

-empirisch ermittelte Wahrscheinlichkeit als Ergebnis der Anwendung des Satz des Bayes

  • Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden
  • > Ergebnis von Satz des Bayes
60
Q

A-priori-Verteilung

A
  • Inzidenzrate genannt
  • wird aufgrund Vorwissen definiert

-Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe zugewiesen werden kann, bevor Daten erfasst werden

61
Q

disjunkte Mengen

A
  • Schnittmengen sind leer

- elementfremd / durchschnittsfremd

62
Q

Eigenschaften der Standardnormalverteilung

A

Normalverteilung

  • eine der wichtigsten stetigen Normalverteilungen
  • Gauß-Verteilung
  • Erwartungswert müh, Varianz sigma
  • symmetrisch, unimodal, Maximum bei müh, Wendepunkt bei müh ± sigma
  • stetig ( + bis - unendlich)

Standardnormalverteilung

  • besondere Variante der Normalverteilung
  • mit müh = 0, sigma = 1
  • N(0,1)

-zwischen
müh = ±sigma = 68% der Werte
müh = ±2sigma = 95%
müh = ±3sigma = 99%

63
Q

z-Standardisierung

A
  • Standardisierter Messwert
  • gibt an wie viele Standardabweichungen und in welche Richtung ein Messwert in einer Stichprobe vom Mittelwert abweicht
  • durch Transformation werden Werte aus Verteilungen mit unterschiedlichen Mittelwerten und Streuungen in Bezug auf ihre relative Abweichung vom Mittelwert vergleichbar gemacht
  • überführt Verteilungen in Normalverteilungen
  • Werte von +/- 3 sind Wahrscheinlich
  • Mittelwert= 0 (fester Bezugspunkt)
  • Erwartungswert = 1
  • Standardabweichung = 1
64
Q

Spearmans rho

A
  • Zusammenhangsmaß für ordinalskalierte Variablen
  • beruht auf Rangtransformationen
  • invariant, normiert und robust ggü. Ausreißern
  • je stärker Zusammenhang, desto größer der Betrag
65
Q

Regressionsgleichung wünschenswerte Kriterien

A
  • eindeutige Bestimmung der Geraden
  • Gerade soll optimal Vorhersage des Kriteriums erlauben
  • Variation des Kriteriums sollte in zwei Teile aufgeteilt werden
66
Q

kleinste Quadrate Kriterium

A
  • die Gerade aus allen Gerade gewählt, die die Summe der quadratischen vertikalen Abstände (Abweichungen) der Beobachtung von der Geraden minimiert
  • Fehlerkriterium
  • Summe der quadrierten Differenzen zwischen vorhergesagten und beobachteten Werten

-> Regressionsgerade wird so bestimmt, dass die Summe der quadrierten vertikalen Abstände der Beobachtung von der Geraden minimiert wird

67
Q

Voraussetzung einfache lineare Regression

A
  • Linearität (AV und UV müssen durch Gerade beschrieben werden)
  • Homoskedastizität
  • Abwesenheit Einflussreicher Beobachtungen
  • Abwesenheit Ausreißer
  • Intervallskalenniveau der AV
68
Q

Ergebnisraum / Ereignisraum

A

Ergebnismenge = Ergebnisraum (alle möglichen Ergebnisse: Würfel {1,2,3,4,5,6}

Ereignisraum = Teilmengen bestimmter Ergebnisse

Ereignisse = Zusammenfassungen von Ergebnissen einen Zufallsvorgangs

69
Q

frequentistischer Wahrschreinlichkeitsbegriff vs klassischer Wahrscheinlichkeitsbegriff

A

frequentistisch:

  • basiert auf der relativen Häufigkeit
  • Experiment wird oft wiederholt und anhand dessen resultiert die Wahrscheinlichkeit
  • Gesetzt der großen Zahlen

klassisch:

  • Verhältnis von günstigen Ergebnisse zur Gesamtmenge der Ergebnisse
  • Durchgänge müssen undabhängig und unendlich oft wiederholbar sein
70
Q

stochastische (un-)abhängigkeit

A

Wirkt sich das Eintreten eines Ereignisses B nicht auf die Wahrscheinlichkeit eines Ereignisses A aus, so heißen A und B stochastisch unabhängig

P(A|B) = P(A)

71
Q

Satz des Bayes

A

-besagt, dass ein Verhältnis zwischen der bedingten Wahrscheinlichkeit zweier Ereignisse P(A|B) und der umgekehrten Form P(B|A) besteht

P(A|B) = (P(B|A) x P(A)) : P(B)

Beispiel: Drogentest mit gegebener Spezifität und Sensitivität:
-Wie hoch ist die Wahrscheinlichkeit, dass Personen, die positiv getestet wurde auch tatsächlich konsumiert?

-> A-posteriori Wahrscheinlichkeit ist Ergebnis
(Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden)

72
Q

Was ist eine Verteilung?

A
  • beschreibt die absolute und/oder relative Häufigkeit von Merkmalen
  • Durch sie werden statistische Daten beschrieben
  • Bezeichnung für eine empirische Häufigkeitsverteilung
  • wird angegeben durch Verteilungsfunktion, Dichtefunktion oder Wahrscheinlichkeitsfunktion
73
Q

Chi² Verteilung

A
  • Wahrscheinlichkeitsverteilung für die Summe von quadrierten standardnormalverteilten unabhängigen Zufallsvariablen
  • ermöglicht zu beurteilen ob ein theoretischer Zusammenhang mit empirisch ermittelten Messpunkten übereinstimmt
  • Schätzung des Vertrauensintervalls der unbekannten Varianz
  • asymmetrisch (rechtsschief)
  • mit v Freiheitsgraden
  • nicht negativ, reele Zahlen, bis unendlich
  • mit wachsenden n(=v) strebt die Form gegen Normalverteilung (n>100)

-z-Werte bilden, z-Werte quadrieren, anschließend aufsummieren
Basis: Normalverteilung

74
Q

t-Verteilung

A
  • Wahrscheinlichkeitsverteilung für das Verhältnis einer standardnormalverteilten Zufallsvariablen zur Wurzel aus einer X² verteilten Zufallsvariable
  • 1 unter der Kurve, symmetrisch zu Mittelwert, müh = 0
  • schmalgipfliger als Normalverteilung (in der Mitte etwas flacher, außen etwas breiter)
  • Anwendung: vergleich zum Mittelwert
  • ab ca. n=30 approximation an Normalverteilung
  • Wertebereich ±unendlich
75
Q

F-Verteilung

A
  • Wahrscheinlichkeitsverteilung für das Verhältnis von zwei X² verteilten Zufallsvariablen
  • Prüfverteilung
  • dient zur Prüfung ob 2 anhand von Stichprobendaten gewonnene Varianzen aus der selben Population stammen
  • > F-Test : Feststellung ob Unterschied zweier Stichprobenvarianzen auf statistischen Schwankungen beruhen oder es auf unterschiedliche Grundgesamtheit hinweist

-stetig, asymmetrisch

y1 (v1) -> Zählerfreiheitsgerade
y2 (v2) -> Nennerfreiheitsgerade
-> abhängig von Kombination dieser

76
Q

Stichprobenverteilung

A
  • kann analytisch bestimmt werden, wenn gilt, dass die Mitglieder einer Stichprobe unabhängig voneinander gezogen werden können
  • Gesamtpopulation, dessen Verteilung und Parameter in der Regel nicht bekannt und erkennbar sind: also Abschätzung von Stichproben
  • große Stichprobe = bessere Schätzung (Gesetz der großen Zahlen)
  • alle theoretisch möglichen Stichproben mit z.B. n=3 werden gezogen
  • Mittelwert wird erstellt und dann aufgelistet
  • Stichprobenverteilung hat gleichen Hochpunkt wie Originalverteilung
  • Streuung ist schmaler als Original
  • je geringer Streuung, desto genauer wird gesuchter Parameter geschätzt

Arten:

  • Mittelwerte
  • Antweilswerte (binominalverteil / approximativ Normalverteilt)
  • Varianz
77
Q

Was ist ein Schätzer?

A
  • auf Basis von Stichprobenverteilungen werden gesuchte Parameter einer Population abgeschätzt
  • Punktschätzer (Punktgenau z.B. ein Feld beim Dart)
  • Intervallschätzer (Bandbreite)
78
Q

Mittlere Korrelation berechnen

A
  • Fisher Z-Transformation der Korrelationskoeffizienten
  • Mittelwerte der Z Werte
  • Rücktransformation des neuen Mittelwertes
79
Q

Geschichtete Zufallsstichprobe

A

-erst in Schichten/Klassen z.b. Bundesländer einteilen und dann aus diesen zufallssstichproben ziehen

80
Q

nenne 4 Statistikmaße

A
  • Streuung
  • Wölbung
  • Modus
  • Median
  • zentrale Tendenz
  • Schiefe
  • Spannweite
  • Quartilskoeffizient
  • Varianz
  • Variation
81
Q

andere Maße als Statistikmaße

A

Quantile

Perzentile

82
Q

nenne 4 Streuungsmaße

A
  • Varianz
  • Standardabweichung
  • Variation
  • Spannweite (Range)
  • Interquartilsabstand
83
Q

Linearität und Kausalität

A

Linearität beschreibt, dass Variablenwerte in einer Linie liegen bzw. um eine herum
Ein Maß für lineare Zusammenhänge ist der Korrelationskoeffizient

Kausalität beschreibt die Beziehung zwischen Ursache und Wirkung, betrifft also die Abfolge aufeinander bezogener Ereignisse
Aus einer Korrelation kann nicht gefolgert werden ob eine Kausalität besteht

84
Q

Was bedeutet C, D, Tx und Ty?

A
C = Konkordante Paare
D = Diskonkordante Paare
Tx = Paare mit Rangbindung bei x
Ty = Paare bei Rangbindung bei y

Tx und Ty sind weder konkordant noch diskonkordant

85
Q

Nenne 2 Zusammenhangsmaße für nominalskalierte Variablen

A

Cramers V

Chi²

86
Q

Unterschied Spezifität und Sensitivität

A

Spezifität -> negative Testausgänge, die tatsächlich korrekt sind (krank)

Sensitivität -> positive Testausgänge, die tatsächlich korrekt sind (gesund)

87
Q

Welches Maß bei bestanden / nicht bestanden

A

(Punkt-) biserale Korrelation

Biseral = Zusammenhangsmaß für intervallskalierte Variable + binäre Variable (dichotomisierung Normalverteilung)

Punktbiseral = Maß für dichotome und metrische Variable und stimmt mit Betrag der Korrelation einer dichotomen mit metrischen Variable überein

88
Q

Unterschied Prädiktor / Kriterium

A
Prädiktor = Variable zur Vorhersage, UV
Kriterium = Variable die vorhergesagt wird, AV

-> es muss die Funktion gefunden werden, die den Zusammenhang zwischen x und y optimal beschreibt

89
Q

Warum können nicht lineare Transformationen von Variablen in der multiplen Regression nützlich sein?

A

Es besteht die Möglichkeit, dass ein nicht linearer Zusammenhang besteht und eine Regressionsgerade so mit kurvilinearen Koeffizienten die Regression besser beschreiben kann

90
Q

Regression

A

Regression

  • Methode mit der Erwartungen über eine AV gebildet werden soll
  • Aufgrund Informationen, die man aus UV hat
91
Q

Merkmale Regressionsgerade

A
  • mind. Intervallskaliert
  • Regressionsanalyse -> wie sieht Geradengleichung aus, die nah an allen Werten liegt?
  • eindeutig bestimmt, wenn b0 und b1 bekannt
  • soll optimale Vorhersage der AV erlauben
  • Fehlermenge ist gering
92
Q

Residuen

A

Differenz zwischen vorhergesagten und beobachteten Werten der AV (Kriterium)

93
Q

standardisierte / unstandardisierte Regressionskoeffizienten

A

unstandardisiert:
-beliebige Standardabweichung, da beteiligte Variablen nicht standardisiert sind

standardisiert:

  • wenn z-standardisierte Variablen vorliegen
  • stand. Regressionskoeffizient mit b0* und b1*

liegt zwischen -1 und 1

94
Q

Determinationskoeffizient erklären

A
  • Beurteilung der Güte der Regression durch Zerlegung der gesamten Variant (Variation) in erklärten / nicht erklärten Anteil
  • R² misst den % Anteil der erklärten Varianz an der Gesamtvarianz
  • R² entspricht dem quadrierten Korrelationskoeffizienten zwischen UV und AV
  • Wenn 1 / -1, dann perfekter linearer (negativer) Zusammenhang -> alle Punkte auf Regressionsgerade
95
Q

Gleichung multiple Regression

A

y = b0 + b1 * x1 + b2 * x2 + … + e

b0 = Achsenabschnitt
b1,2,... = Steigung
x = Prädiktor
e = Residuum
96
Q

Residualplots

A
  • erlauben häufig einfache Überprüfung der Voraussetzung
  • Überprüfen ob Voraussetzungen der einfachen linearen Regression erfüllt sind
  • Modifikation des Streudiagramms
97
Q

Was bedeutet n und phi bei der Binominalverteilung?

A
n = Anzahl Versuche / Stichprobengröße
phi = Treffer- / Erfolgswahrscheinlichkeit

Beispiel:
Münzwurf n = 10
k = 4 mal Kopf
phi = 1/2 Kopf oder Zahl

98
Q

Voraussetzung Binominalverteilung

A
  • Ergebnis A trifft in jedem Teilexperiment immer mit der gleichen Wahrscheinlichkeit p ein
  • Ergebnisse der einzelnen Teilexperimente sind voneinander unabhängig
  • Entweder Erfolg oder Misserfolg
99
Q

Erkläre die Binominalverteilung

A
  • eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen
  • beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils 2 mögliche Ergebnisse haben (Bernoulli-Experiment)
100
Q

Erkläre warum die Binominalverteilung bei kleinen Stichproben nicht verwendet werden kann und nenne Alternativen

A

-Merkmalausprägungen können sich immer verändern
-Alternative: hypergeometrische Verteilung
Beispiel: Lottomodell

101
Q

Erklären sie die Chi² Verteilung. Welche Parameter sind besonders?

A
  • Ist eine spezielle Art der gamma-Verteilung mit den Parametern alpha = 1/2 und r = n/2, wobei n = Anzahl der Freiheitsgeraden ist
  • Besonders, da Parameter festgelegt sind
  • Spielt eine große Rolle bei der Untersuchung normalverteilter Daten und bei der Reduzierung von großen Datenmengen auf normalverteilte Größen
102
Q

Welche Kriterien / Parameter bestimmen die F-Verteilung?

A
  • setzt sich aus Quotienten zweier X² verteilter Zufallsvariablen zusammen
  • Parameter: 2 unabhängige Freiheitsgerade
103
Q

Was ist die Stichprobenverteilung der Mittelwerte?

A
  • die Stichprobenverteilung dient der Abschätzung der Grundgesamtheitsparameter durch die Stichprobe
  • Entsteht durch unendliches Wiederholen des Ziehens einer Stichprobe eines bestimmten Umfangs aus einer Grundgesamtheit

-Stichprobenverteilung der Mittelwerte = Wahrscheinlichkeitsverteilung eines Stichprobenparameters

104
Q

Was ist eine Punktschätzung von (Populations-)parametern?

A
  • Schätzt man einen Parameter (z.b. Mittelwert) der Population mit Hilfe einer Stichprobe und es wird nur ein Wert angegeben (z.b. Mittelwert der Stichprobe)
  • je größer Stichprobe, desto präziser der Punktschätzer
  • ergibt den Schätzwert für einen Populationsparameter, der aus Stichprobendaten abgeleitet wird
  • Gütekriterien: Erwartungstreue, Konsistenz und Effizienz
105
Q

Was ist das Prinzip der Maximum-likelihood-Schätzung?

A
  • findet den Wert, für den die Auftretenswahrscheinlichkeit der Beobachtung X am größten ist
  • Parameter werden so geschätzt, dass die likelihood der Daten maximiert ist/wird
  • Likelihood = Wahrscheinlichkeit
106
Q

Was ist das Prinzip der kleinsten Quadrate?

A
  • ist eine Methode zur Schätzung unbekannter Parameter

- sorgt für Minimierung der Summe der quadrierten Abweichungen der beobachteten Messwerte vom gesuchten Schätzwert

107
Q

Wie bestimmt man das Konfidenzintervall einer normalverteilten Variable?

A
  • Intervallgrenzen sind abhängig von der Irrtumswahrscheinlichkeit x, der Streuung sowie dem Stichprobenumfang
  • untere Grenze < Parameter < obere Grenze
  • Konfidenzintervall muss gesuchten Parameter nicht enthalten
  • > 90 % KI = 10 % Chance, dass Parameter nicht im KI liegt
108
Q

Konfidenzintervalle für Erwartungswerte interpretieren

A
  • in einem realistischen KI kann keine Wahrscheinlichkeit zugeordnet werden
  • Parameter = Konstante -> stellt keine Zufallsvariable dar, wodurch keine Wahrscheinlichkeit zugeordnet werden kann

-> Aussage, dass Parameter eine bestimmt Wahrscheinlichkeit in einem KI zuliegen ist also falsch!, da Parameter eine Konstante ist

109
Q

Gegebenes Konfidenzintervall für Regressionskoeffizienten interpretieren

A

-Der “erwartete” Wert liegt mit 95% Sicherheit zwischen den Werten x1 und x2

110
Q

Bedeutung der Fisher-z-Transformation und Anwendung auf Koeffizienten

A
  • wird angewendet um zu einer symmetrischen und approximativ normalverteilten Stichprobenverteilung zu gelangen
  • ab n = 500 hinreichend normalverteilt, schief
  • Transformation der Korrelationskoeffizienten
    1. Fisher Z Transformation
    2. Mittelwerte der neuen Z Werte bilden
    3. Rücktransformation des neuen Mittelwertes
111
Q

Klausur:

Kann statt X² auch Kohens K auf Tabelle angewandt werden?

A
  • Nein, da Kohens K ein Übereinstimmungsmaß von Urteilen ist

- es wird zudem eine symmetrische Häufigkeitstabelle benötigt

112
Q

Klausur:

Wertebereich des Korrelationskoeffizienten nach Pearson

A

[-1;1]

113
Q

Klausur:

Zusammenhang zwischen Geschlecht und Reaktionszeit. Welches Verfahren?

A

Nominal (natürlich, dichotom) und Intervallskala

also: Punktbiseriale Korrelation

114
Q

Klausur:

Welchen Anteil der Varianz kann das Modell aufklären?

A

R² (Tabelle)

115
Q

Klausur:

Variablen Geschlecht und Ausbildungsdauer sind nicht korreliert. Welchen Anteil haben beide bei der Varianzaufklärung?

A
  • Bei unkorrelierten Prädiktoren entsprechen die standardisierten Regressionskoeffizienten den Korrelationen mit dem Kriterium
  • Standartisierten Koeffizienten für Kriterium in Tabelle suchen -> quadrieren
116
Q

Klausur:

Ist die Streuung der Verteilung der Stichprobenmittelwerte größer oder kleiner als die Streuung der Population?

A

Je größer die Stichprobe, desto kleiner ist die Streuung der Mittelwerte
Also: Streuung ist in der Stichprobe größer als in der Population

117
Q

Klausur:

Beschreibung der Verteilung der Stichprobenmittelwerte

A

Mittelwert (müh) betrachten, wenn etwa 100, dann annähernd normalverteilt

118
Q

Klausur:

Berechnung Freiheitsgrade

A

df = n-1