Statistik I Flashcards
Welche Rolle spielt die Statistik in der Psychologie
- Gehört zu den Grundlagen der Psychologie
- Ermöglicht Erforschung beobachtbaren Verhaltens
- Dient zur Feststellung ob beobachtete Daten einen Zusammenhang haben, ob Fehlschlüsse vorliegen
- Bestimmung von Wahrscheinlichkeiten
- Schließung von Teilmenge auf Gesamtmenge
Unterschied Population und Stichprobe
- Population ist die Gesamtheit aller statistischen Einheiten auf die sich die Fragestellung der Untersuchung richtet
- Population ist aber meist zu groß, und dementsprechend gesamte Untersuchung zu Aufwendig
- Daher zieht man Stichproben der Population, die möglichst genau sein sollen
-Stichprobenarten: einfache-, geschichtete-Stichproben und convenience sampling
Abgrenzung deskriptive- / Inferenzstatistik
- deskriptive Statistik dient zur Beschreibung von einzelnen oder mehreren Datensätzen, auch Variablen genannt, die Ausprägungen / Beobachtungen bzw. Werte besitzen, die dann in Tabellen / Grafiken zusammengefasst werden können
- Wichtige Statistiken sind z.B. Maße der zentralen Tendenz oder Streuung
- deskriptiv: univariat (ein Merkmal) oder bivariat (mindestens zwei Merkmale)
- Zusammengefasste Variablen können mit Hilfe der Inferenzstatistik von der Stichprobe auf die Population übertragen werden
- So kann man Wahrscheinlichkeiten von Parametern bestimmen / schätzen und so aufgestellte Hypothesen testen
- So kann von kleinen Gruppen (z.B. Labor) auf Population geschlossen werden
Warum ist die Bestimmung des Skalenniveaus von Bedeutung?
- Teilt die Variable anhand ihres Informationsgehalts ein
- Bildet die Basis für die Auswahl der statistischen Verfahren, mit denen die erhobenen Daten ausgewertet werden
- je höher der Informationsgehalt, desto mehr Transformationen sind erlaubt, aber desto höher ist Aussagekraft
Nominalskala
-R-I-O-N
- niedrigster Informationsgehalt
- unterschiedliche Werte repräsentieren Kategorien, die nicht sinnvoll in eine Reihe gebracht werden können (keine sinnvolle Rangfolge)
- Zuordnung von Zahlen, Symbolen, Figuren, etc. zu den Werten
- kein absoluter Nullpunkt
- qualitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - nein
Differenzen bilden - nein
Quotienten bilden - nein
Psychologisch:
Geschlecht, Temperament, Konstitution
- Beispiele:
- Geschlecht
- Studienfach
- Wohnort
- Augenfarbe
- etc.
Ordinalskala
-R-I-O-N
- dritthöchster Informationsgehalt
- Bildung von Rangfolgen, die sinnvoll interpretiert werden können
- keine Bildung von sinnvollen Abständen möglich
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - nein
Quotienten bilden - nein
Psychologisch:
Noten, Arbeitszufriedenheit, Noten
- Beispiele:
- Umfragen Arbeitszufriedenheit:
- Sehr zufrieden
- Zufrieden
- Mittelmäßig
- Unzufrieden
- Sehr Unzufrieden
Intervallskala
-R-I-O-N
- zweit höchster Informationsgehalt
- Bildung von Rangfolgen
- Konstante Abstände
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - nein
Psychologisch:
IQ, Punkte Pisa-Studie
- Beispiele:
- kein natürlicher Nullpunkt
- IQ
- Temperatur
- “heute ist es wärmer als gestern”
- zwischen 5°C und 20°C gleicher Abstand wie zwischen 30°C und 45°C
Ratioskala
-R-I-O-N
- höchster Informationsgehalt
- Bildung von Rangfolgen
- konstante Abstände
- natürlicher Nullpunkt
- quantitativ
-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - ja
Psychologisch:
Alter, Körpergröße, Gewicht
- Beispiele:
- wie Intervallskala, nur mit Nullpunkt
- Alter
- Geschwindigkeit
- Preis
- Größe
- Zeit
- Gewicht
qualitativ
qualitative Variablen besitzen unterschiedliche Ausprägungen, die verschiedene Eigenschaften der Variablen charakterisieren, sich jedoch nicht hinsichtlich qualitativer Aspekte wie z.B. der Intensität unterscheiden lassen
- nicht in Zahlen ausdrückbar
- Nominalskalierte Variablen sind immer qualitativ
- z.B. Studienfach, Geschlecht
- Frage: Was hat ihnen am besten gefallen?
quantitativ
quantitative Variablen besitzen unterschiedliche Ausprägungen, die eine unterschiedliche Intensität eines Merkmals reflektieren
-in Zahlen ausdrückbar
- mindestens Ordinalskalenniveau
- Frage: Wie gut würden Sie das Produkt einschätzen (1-6)
diskret
bei diskreten Variablen kann die Menge der Ausprägung durch natürlich endlich Abzählbare Zahlen repräsentiert werden
-z.B. Augenzahl beim Würfeln, Anzahl Personen in einer Gruppe
stetig
- die Menge der Ausprägungen ist nicht abzählbar
- zwischen zwei Werten können unendlich viele andere Werte liegen (Intervalldenkweise)
- z.B. Körpergröße, Länge, Temperatur, etc.
Maße der Zentralen Tendenz und Skalenniveaus
Arithmetisches Mittel (y-quer):
- Mittelwert für Metrische Variablen
- empfindlich gegenüber Ausreißern
Median (y med):
- mittlerer Wert der geordneten Urliste
- robust gegenüber Ausreißern
- mindestens Ordinalskalenniveau
- n gerade -> aufrunden
Modalwert / Modus (y mod):
- am häufigsten vorkommender Wert
- Hochpunkt der Verteilung
- mindestens Nominalskalenniveau
Lageregeln
-Schiefe von Verteilungen metrischer Variablen empfindlich gegenüber Ausreißern
y mod > y med > y quer = linksschief / rechtsteil
y mod < y med < y quer = rechtsschief / linkssteil
y mod ca. y med ca. y quer = ungefähr symmetrisch
Standardisierung IQ-Wert
100 + 15z
-> z = (IQ-100) / 15
Standardisierung Z-Wert
100 + 10z
-> z = (Z-100) / 10
Standardisierung T-Wert
50 + 10z
-> z = (T-50) / 10
Standardisierung Stanine-Wert
5 + 2z
-> z = (Stanine-5) / 2
Standardisierung PISA
500 + 10z
-> z = (PISA-500) / 100
Standardisierung Abiturnotenskala
8 + 3z
-> z = (ABI-8) / 3
Standardisierung Schulnote
3 + z
-> z = (NOTE-3) / 1
Standardisierung
- Ziel: Angabe der relativen Lage von Messwerten in einer Verteilung
- wenn in Beziehung gesetzt, erkennt man unter- / überdurchschnittliche Ergebnisse zur Referenzgruppe
-z Standardisierungen geben die Abweichung eines Wertes vom Mittelwert in der Einheit Standardabweichung an
z i = y i / s y - y quer / s y
- mindestens Intervallskalenniveau
- Mittelwert: z y = 0
- Varianz: z s² = 1
- Standardabweichung z s = 1
- erhöht Informationsgehalt
- > durch Standardisierung verlieren Messwerte ihre ursprünglichen (unterschiedlichen) Messeinheiten und erhalten einheitliche Messeinheiten: Standardabweichung
Nominalskaliert:
polytom
dichotom - natürlich / künstliche
polytom:
-mehr als 2 Ausprägungen (Familienstand: Ledig, Verheiratet, Verwitwet)
dichotom:
-genau 2 Ausprägungen (Geschlecht: Mann, Frau)
dichotom natürlich:
-von Natur aus 2 Ausprägungen (Geschlecht: Mann, Frau, Schwangerschaft: ja / nein)
dichotom künstlich:
-Bezug von Intervallskalierter Variable zu Grenzwert:
(Leute über 40 Jahre = 1 / Leute unter 40 Jahre = 0)
Wertebereich der t-Verteilung
- Bis + unendlich, da symmetrische Funktion
Kovarianz
-beschreibt ein nicht normiertes Maß für Richtung und Stärke des Zusammenhangs zweier Variablen (x und y)
bei 0 = kein linearer Zusammenhang
Varianz
- Streuung der Messwerte einer metrischen Variablen
- (Summe quadrierter Abweichungen - (Anzahl x Mittelwert²)) x 1/Anzahl-1
- verliert Einheit
Variation
- Streuung der Messwerte einer metrischen Variablen
- SS (Summe quadrierter Abstände)
- Behält Einheit bei
Erklären Tau-b
- Zusammenhangsmaß für Ordinalskalierte Variablen
- Rangbindungen in den einzelnen Variablen werden berücksichtigt
- bei ungleicher Anzahl an Ausprägungen der Variablen kann Tau-b nicht -1/1 annehmen
Erklären Tau-c
- Zusammenhangsmaß für Ordinalskalierte Variablen
- Differenz der Konkordanten und Diskonkordanten C/D in Beziehung gesetzt
- bei mehr als 10 Paaren n>10 -> etwa normalverteilt
Standardschätzfehler
-positive Wurzel aus der Schätzfehlervarianz
Standardabweichung
- positive Wurzel aus der Varianz
- Entgegen der Varianz entspricht sie der Einheit, anhand derer die Variable gemessen wurde
Spezifität
- Anzahl der positiven Testausgänge, die auch korrekt sind
- (Kranke, die auch wirklich krank sind)
Sensitivität
- Anzahl der negativen Testausgänge, die auch korrekt sind
- (Gesunde, die auch wirklich gesund sind)
Was ist die lineare Regression?
- Beschreibt Zusammenhang zwischen Kriterium (AV) und Prädiktor (UV)
- einfache lineare Regression: nur eine AV durch UV -> wird durch Regressionsgerade dargestellt
- multiple lineare Regression: mehrere AV durch UV vorhergesagt -> Regressionsebene
Erklärte Varianz
- Kriteriumsvariable (AV) besteht aus 2 Teilen:
- den durch UV vorhergesagten Teil (erklärte Variation)
- den durch UV nicht erklärten Teil (nicht erklärte Variation)
-um Güte der Prognose zu bestimmen wird die erklärte Variation ins Verhältnis zu Gesamtvariation gesetzt
(Gesamtvariation = erklärte + nicht erklärte Variation)
Relevante aufsummierte und quadrierte Abweichungen:
- Abweichung eines beobachten Messwerts vom Mittelwert: Gesamtvariation
- Abweichung eines vorhergesagten Wertes vom Mittelwert: erklärte Variation
- Abweichung des beobachteten Werts zum Mittelwert: nicht erklärte Variation
Einfluss einer Beobachtung
- Einflussreiche Beobachtungen sind Beobachtungen, die in besonderem Ausmaß die Schätzer der linearen Regression beeinflussen und somit die Regressionsgerade verschieben
- trifft vor allem bei Hebelpunkten zu
- sind meist Ausreißer, aber nicht immer
Kohens K (Kappa)
- Übereinstimmungsmaß, das zeigt wie gut 2 Urteile übereinstimmen / abweichen
- berücksichtigt Anteil zufällig übereinstimmender Urteile
- wird verwendet um zu prüfen ob Klassifikationsschemata, Ratingskalen hinreichend objektiv sind
- Voraussetzung ist symmetrische Häufigkeitstabelle
- Zwei Beurteiler sollen unter Zuhilfenahme gegebener Kriterien zum gleichen Ergebnis kommen -> Kappa gibt an wie gut Urteile übereinstimmen
Beispiel: 2 Gutachter diagnostizieren psychische Krankheiten
Beispiel: Bei Assesment Center sollen Beobachter einschätzen ob Bewerber z.B. Blickkontakt gehalten hat
K= -1 Übereinstimmungen kleiner als unter Zufallsbildung erwartete Zahl K= 0 Beobachtungen = Anzahl zufälliger Urteile K= 1 Beobachtungen größer als Zufälle
Korrelation
- Pearson-Produkt-Moment-Korrelation
- LINEARES Zusammenhangsmaß zwischen 2 Variablen
- nur ab Intervallskala
- je höher x, desto höher/niedriger y (-1;1)
- je höher Maß ausfällt, desto häufiger treten Variablen zusammen auf
- 0,1 schwach 0,3 mittel 0,5 stark
- Nullkorrelation bedeutet nicht KEIN ZUSAMMENHANG, nur kein linearer!
- sagt nichts über Zusammenhang aus! (A->B, B->A, C->A/B, A // B)
Platykurtische Verteilung
- weißt eine geringere Wölbung auf als eine Normalverteilung mit gleicher Varianz
- negative Kurtosis (Wölbung)
Odds Ratio
- Verhältnis von Chancen / Odds von zwei Gruppen
- z.b Verhöltnis P(erkrankt | risiko) zu P(erkrankt | kein risiko) ist
Leptokurtische Verteilung
- weißt eine größere Wölbung auf als eine Normalverteilung mit gleicher Varianz
- positive Kurtosis (Wölbung)
Konkordanz / Diskonkordanz
- bei zwei Wertepaaren
- Konkordanz liegt vor wenn xi > xj und yi > yj (und andersrum xj und yi < yj (und andersrum >)
Homoskedastizität
Fehlervarianzen einer Ausprägung für UV sind gleich
Hebelpunkte
Beobachtungen, die von vornherein potenziell einflussreiche Beobachtungen darstellen
Geschichtete Zufallsstichprobe
Population wird in Schichten eingeteilt und daraus werden Stichproben gezogen (Schüler in Bundesländern)
einfache Stichprobe
aus Population werden willkürlich Stichproben gezogen (alle gleiche Wahrscheinlichkeit)
Quotenstichprobe
Personen werden anhand speziellen Merkmals ausgesucht, sodass sie ein Abbild der Population ergeben (% Leute = Anteil Population)
convenience sampling
- Personen, die einfach zu erreichen sind werden ausgesucht
- Zwillingsstudie einige wenige Zwillingspaare
->zu prüfen ob Merkmale einer repräsentativen Stichprobe erfüllt
Merkmale repräsentative Stichprobe
-Daten müssen angemessene Aussagen über zugrunde liegende Population erlauben, sodass Stichprobe ein verkleinertes Abbild der Population darstellt
Vollerhebung
- Alle Mitglieder der Population werden mit einbezogen
- nur bei kleinen Populationen
- z.B. Evaluation einer Vorlesung
Dummykodierung
- häufig verwendete Form der Kodierung von Nominalskalierten Variablen mit dichotomer Merkmalsausprägung
- können so als Prädiktor in Regressionsanalyse aufgenommen werden
- Dummyvariable erfasst die Differenz zwischen dem Mittelwert der ihr zugehörigen Gruppe zur Referenzgruppe
- eine Gruppe Wert 1 eine Wert 0
Determinationskoeffizient R²
- bezeichnet den Anteil der durch die Regression erklärten Variation an der Gesamtvariation
- PRE-Maß und stimmt im Fall der einfachen linearen Regressionen mit dem Quadrat der Korrelation überein
- je höher R² desto höher ist erklärte Variation zur Gesamtvariation
- je niedriger R² desto niedriger ist erklärte Variation
Cramers V
- Zusammenhangsmaß für Nominalskalierte Variablen
- Chi² Statistik wird durch das theoretische Maximum dieser Statistik der zugrunde liegende Kontingenztabelle geteilt (mit r/c-1)
- V = wurzel aus (X² / n * min (r/c-1)
Chi²
-misst den Unterschied zwischen der Kontingenz- und Indifferenztabelle anhand eines Wertes der zwischen 0 und unendlich liegt
Kontingenztabelle
- bivariate Häufigkeitstabelle
- enthält absolute oder relative Häufigkeiten der Wertepaare zweier Variablen
- in einer Zelle steht Häufigkeit für X und Y
Biseriale Korrelation
Zusammenhangsmaß für eine Intervallskalierte Variable und eine binäre Variable, die auf Dichotomisierung einer normalverteilten (metrischen) Variablen beruht
bedingte Häufigkeitsverteilung
relative Häufigkeit einer Variable X unter der Bedingung, dass andere Variable Y eine bestimmte Ausprägung hat
Indifferenztabelle
-enthält ausgehend von Randverteilungen einer Kontingenztabelle die aufgrund Unabhängigkeitsannahme zu erwartenden Häufigkeiten zweier Variablen X und Y
A-posteriori-Verteilung
-empirisch ermittelte Wahrscheinlichkeit als Ergebnis der Anwendung des Satz des Bayes
- Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden
- > Ergebnis von Satz des Bayes
A-priori-Verteilung
- Inzidenzrate genannt
- wird aufgrund Vorwissen definiert
-Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe zugewiesen werden kann, bevor Daten erfasst werden
disjunkte Mengen
- Schnittmengen sind leer
- elementfremd / durchschnittsfremd
Eigenschaften der Standardnormalverteilung
Normalverteilung
- eine der wichtigsten stetigen Normalverteilungen
- Gauß-Verteilung
- Erwartungswert müh, Varianz sigma
- symmetrisch, unimodal, Maximum bei müh, Wendepunkt bei müh ± sigma
- stetig ( + bis - unendlich)
Standardnormalverteilung
- besondere Variante der Normalverteilung
- mit müh = 0, sigma = 1
- N(0,1)
-zwischen
müh = ±sigma = 68% der Werte
müh = ±2sigma = 95%
müh = ±3sigma = 99%
z-Standardisierung
- Standardisierter Messwert
- gibt an wie viele Standardabweichungen und in welche Richtung ein Messwert in einer Stichprobe vom Mittelwert abweicht
- durch Transformation werden Werte aus Verteilungen mit unterschiedlichen Mittelwerten und Streuungen in Bezug auf ihre relative Abweichung vom Mittelwert vergleichbar gemacht
- überführt Verteilungen in Normalverteilungen
- Werte von +/- 3 sind Wahrscheinlich
- Mittelwert= 0 (fester Bezugspunkt)
- Erwartungswert = 1
- Standardabweichung = 1
Spearmans rho
- Zusammenhangsmaß für ordinalskalierte Variablen
- beruht auf Rangtransformationen
- invariant, normiert und robust ggü. Ausreißern
- je stärker Zusammenhang, desto größer der Betrag
Regressionsgleichung wünschenswerte Kriterien
- eindeutige Bestimmung der Geraden
- Gerade soll optimal Vorhersage des Kriteriums erlauben
- Variation des Kriteriums sollte in zwei Teile aufgeteilt werden
kleinste Quadrate Kriterium
- die Gerade aus allen Gerade gewählt, die die Summe der quadratischen vertikalen Abstände (Abweichungen) der Beobachtung von der Geraden minimiert
- Fehlerkriterium
- Summe der quadrierten Differenzen zwischen vorhergesagten und beobachteten Werten
-> Regressionsgerade wird so bestimmt, dass die Summe der quadrierten vertikalen Abstände der Beobachtung von der Geraden minimiert wird
Voraussetzung einfache lineare Regression
- Linearität (AV und UV müssen durch Gerade beschrieben werden)
- Homoskedastizität
- Abwesenheit Einflussreicher Beobachtungen
- Abwesenheit Ausreißer
- Intervallskalenniveau der AV
Ergebnisraum / Ereignisraum
Ergebnismenge = Ergebnisraum (alle möglichen Ergebnisse: Würfel {1,2,3,4,5,6}
Ereignisraum = Teilmengen bestimmter Ergebnisse
Ereignisse = Zusammenfassungen von Ergebnissen einen Zufallsvorgangs
frequentistischer Wahrschreinlichkeitsbegriff vs klassischer Wahrscheinlichkeitsbegriff
frequentistisch:
- basiert auf der relativen Häufigkeit
- Experiment wird oft wiederholt und anhand dessen resultiert die Wahrscheinlichkeit
- Gesetzt der großen Zahlen
klassisch:
- Verhältnis von günstigen Ergebnisse zur Gesamtmenge der Ergebnisse
- Durchgänge müssen undabhängig und unendlich oft wiederholbar sein
stochastische (un-)abhängigkeit
Wirkt sich das Eintreten eines Ereignisses B nicht auf die Wahrscheinlichkeit eines Ereignisses A aus, so heißen A und B stochastisch unabhängig
P(A|B) = P(A)
Satz des Bayes
-besagt, dass ein Verhältnis zwischen der bedingten Wahrscheinlichkeit zweier Ereignisse P(A|B) und der umgekehrten Form P(B|A) besteht
P(A|B) = (P(B|A) x P(A)) : P(B)
Beispiel: Drogentest mit gegebener Spezifität und Sensitivität:
-Wie hoch ist die Wahrscheinlichkeit, dass Personen, die positiv getestet wurde auch tatsächlich konsumiert?
-> A-posteriori Wahrscheinlichkeit ist Ergebnis
(Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden)
Was ist eine Verteilung?
- beschreibt die absolute und/oder relative Häufigkeit von Merkmalen
- Durch sie werden statistische Daten beschrieben
- Bezeichnung für eine empirische Häufigkeitsverteilung
- wird angegeben durch Verteilungsfunktion, Dichtefunktion oder Wahrscheinlichkeitsfunktion
Chi² Verteilung
- Wahrscheinlichkeitsverteilung für die Summe von quadrierten standardnormalverteilten unabhängigen Zufallsvariablen
- ermöglicht zu beurteilen ob ein theoretischer Zusammenhang mit empirisch ermittelten Messpunkten übereinstimmt
- Schätzung des Vertrauensintervalls der unbekannten Varianz
- asymmetrisch (rechtsschief)
- mit v Freiheitsgraden
- nicht negativ, reele Zahlen, bis unendlich
- mit wachsenden n(=v) strebt die Form gegen Normalverteilung (n>100)
-z-Werte bilden, z-Werte quadrieren, anschließend aufsummieren
Basis: Normalverteilung
t-Verteilung
- Wahrscheinlichkeitsverteilung für das Verhältnis einer standardnormalverteilten Zufallsvariablen zur Wurzel aus einer X² verteilten Zufallsvariable
- 1 unter der Kurve, symmetrisch zu Mittelwert, müh = 0
- schmalgipfliger als Normalverteilung (in der Mitte etwas flacher, außen etwas breiter)
- Anwendung: vergleich zum Mittelwert
- ab ca. n=30 approximation an Normalverteilung
- Wertebereich ±unendlich
F-Verteilung
- Wahrscheinlichkeitsverteilung für das Verhältnis von zwei X² verteilten Zufallsvariablen
- Prüfverteilung
- dient zur Prüfung ob 2 anhand von Stichprobendaten gewonnene Varianzen aus der selben Population stammen
- > F-Test : Feststellung ob Unterschied zweier Stichprobenvarianzen auf statistischen Schwankungen beruhen oder es auf unterschiedliche Grundgesamtheit hinweist
-stetig, asymmetrisch
y1 (v1) -> Zählerfreiheitsgerade
y2 (v2) -> Nennerfreiheitsgerade
-> abhängig von Kombination dieser
Stichprobenverteilung
- kann analytisch bestimmt werden, wenn gilt, dass die Mitglieder einer Stichprobe unabhängig voneinander gezogen werden können
- Gesamtpopulation, dessen Verteilung und Parameter in der Regel nicht bekannt und erkennbar sind: also Abschätzung von Stichproben
- große Stichprobe = bessere Schätzung (Gesetz der großen Zahlen)
- alle theoretisch möglichen Stichproben mit z.B. n=3 werden gezogen
- Mittelwert wird erstellt und dann aufgelistet
- Stichprobenverteilung hat gleichen Hochpunkt wie Originalverteilung
- Streuung ist schmaler als Original
- je geringer Streuung, desto genauer wird gesuchter Parameter geschätzt
Arten:
- Mittelwerte
- Antweilswerte (binominalverteil / approximativ Normalverteilt)
- Varianz
Was ist ein Schätzer?
- auf Basis von Stichprobenverteilungen werden gesuchte Parameter einer Population abgeschätzt
- Punktschätzer (Punktgenau z.B. ein Feld beim Dart)
- Intervallschätzer (Bandbreite)
Mittlere Korrelation berechnen
- Fisher Z-Transformation der Korrelationskoeffizienten
- Mittelwerte der Z Werte
- Rücktransformation des neuen Mittelwertes
Geschichtete Zufallsstichprobe
-erst in Schichten/Klassen z.b. Bundesländer einteilen und dann aus diesen zufallssstichproben ziehen
nenne 4 Statistikmaße
- Streuung
- Wölbung
- Modus
- Median
- zentrale Tendenz
- Schiefe
- Spannweite
- Quartilskoeffizient
- Varianz
- Variation
andere Maße als Statistikmaße
Quantile
Perzentile
nenne 4 Streuungsmaße
- Varianz
- Standardabweichung
- Variation
- Spannweite (Range)
- Interquartilsabstand
Linearität und Kausalität
Linearität beschreibt, dass Variablenwerte in einer Linie liegen bzw. um eine herum
Ein Maß für lineare Zusammenhänge ist der Korrelationskoeffizient
Kausalität beschreibt die Beziehung zwischen Ursache und Wirkung, betrifft also die Abfolge aufeinander bezogener Ereignisse
Aus einer Korrelation kann nicht gefolgert werden ob eine Kausalität besteht
Was bedeutet C, D, Tx und Ty?
C = Konkordante Paare D = Diskonkordante Paare Tx = Paare mit Rangbindung bei x Ty = Paare bei Rangbindung bei y
Tx und Ty sind weder konkordant noch diskonkordant
Nenne 2 Zusammenhangsmaße für nominalskalierte Variablen
Cramers V
Chi²
Unterschied Spezifität und Sensitivität
Spezifität -> negative Testausgänge, die tatsächlich korrekt sind (krank)
Sensitivität -> positive Testausgänge, die tatsächlich korrekt sind (gesund)
Welches Maß bei bestanden / nicht bestanden
(Punkt-) biserale Korrelation
Biseral = Zusammenhangsmaß für intervallskalierte Variable + binäre Variable (dichotomisierung Normalverteilung)
Punktbiseral = Maß für dichotome und metrische Variable und stimmt mit Betrag der Korrelation einer dichotomen mit metrischen Variable überein
Unterschied Prädiktor / Kriterium
Prädiktor = Variable zur Vorhersage, UV Kriterium = Variable die vorhergesagt wird, AV
-> es muss die Funktion gefunden werden, die den Zusammenhang zwischen x und y optimal beschreibt
Warum können nicht lineare Transformationen von Variablen in der multiplen Regression nützlich sein?
Es besteht die Möglichkeit, dass ein nicht linearer Zusammenhang besteht und eine Regressionsgerade so mit kurvilinearen Koeffizienten die Regression besser beschreiben kann
Regression
Regression
- Methode mit der Erwartungen über eine AV gebildet werden soll
- Aufgrund Informationen, die man aus UV hat
Merkmale Regressionsgerade
- mind. Intervallskaliert
- Regressionsanalyse -> wie sieht Geradengleichung aus, die nah an allen Werten liegt?
- eindeutig bestimmt, wenn b0 und b1 bekannt
- soll optimale Vorhersage der AV erlauben
- Fehlermenge ist gering
Residuen
Differenz zwischen vorhergesagten und beobachteten Werten der AV (Kriterium)
standardisierte / unstandardisierte Regressionskoeffizienten
unstandardisiert:
-beliebige Standardabweichung, da beteiligte Variablen nicht standardisiert sind
standardisiert:
- wenn z-standardisierte Variablen vorliegen
- stand. Regressionskoeffizient mit b0* und b1*
liegt zwischen -1 und 1
Determinationskoeffizient erklären
- Beurteilung der Güte der Regression durch Zerlegung der gesamten Variant (Variation) in erklärten / nicht erklärten Anteil
- R² misst den % Anteil der erklärten Varianz an der Gesamtvarianz
- R² entspricht dem quadrierten Korrelationskoeffizienten zwischen UV und AV
- Wenn 1 / -1, dann perfekter linearer (negativer) Zusammenhang -> alle Punkte auf Regressionsgerade
Gleichung multiple Regression
y = b0 + b1 * x1 + b2 * x2 + … + e
b0 = Achsenabschnitt b1,2,... = Steigung x = Prädiktor e = Residuum
Residualplots
- erlauben häufig einfache Überprüfung der Voraussetzung
- Überprüfen ob Voraussetzungen der einfachen linearen Regression erfüllt sind
- Modifikation des Streudiagramms
Was bedeutet n und phi bei der Binominalverteilung?
n = Anzahl Versuche / Stichprobengröße phi = Treffer- / Erfolgswahrscheinlichkeit
Beispiel:
Münzwurf n = 10
k = 4 mal Kopf
phi = 1/2 Kopf oder Zahl
Voraussetzung Binominalverteilung
- Ergebnis A trifft in jedem Teilexperiment immer mit der gleichen Wahrscheinlichkeit p ein
- Ergebnisse der einzelnen Teilexperimente sind voneinander unabhängig
- Entweder Erfolg oder Misserfolg
Erkläre die Binominalverteilung
- eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen
- beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils 2 mögliche Ergebnisse haben (Bernoulli-Experiment)
Erkläre warum die Binominalverteilung bei kleinen Stichproben nicht verwendet werden kann und nenne Alternativen
-Merkmalausprägungen können sich immer verändern
-Alternative: hypergeometrische Verteilung
Beispiel: Lottomodell
Erklären sie die Chi² Verteilung. Welche Parameter sind besonders?
- Ist eine spezielle Art der gamma-Verteilung mit den Parametern alpha = 1/2 und r = n/2, wobei n = Anzahl der Freiheitsgeraden ist
- Besonders, da Parameter festgelegt sind
- Spielt eine große Rolle bei der Untersuchung normalverteilter Daten und bei der Reduzierung von großen Datenmengen auf normalverteilte Größen
Welche Kriterien / Parameter bestimmen die F-Verteilung?
- setzt sich aus Quotienten zweier X² verteilter Zufallsvariablen zusammen
- Parameter: 2 unabhängige Freiheitsgerade
Was ist die Stichprobenverteilung der Mittelwerte?
- die Stichprobenverteilung dient der Abschätzung der Grundgesamtheitsparameter durch die Stichprobe
- Entsteht durch unendliches Wiederholen des Ziehens einer Stichprobe eines bestimmten Umfangs aus einer Grundgesamtheit
-Stichprobenverteilung der Mittelwerte = Wahrscheinlichkeitsverteilung eines Stichprobenparameters
Was ist eine Punktschätzung von (Populations-)parametern?
- Schätzt man einen Parameter (z.b. Mittelwert) der Population mit Hilfe einer Stichprobe und es wird nur ein Wert angegeben (z.b. Mittelwert der Stichprobe)
- je größer Stichprobe, desto präziser der Punktschätzer
- ergibt den Schätzwert für einen Populationsparameter, der aus Stichprobendaten abgeleitet wird
- Gütekriterien: Erwartungstreue, Konsistenz und Effizienz
Was ist das Prinzip der Maximum-likelihood-Schätzung?
- findet den Wert, für den die Auftretenswahrscheinlichkeit der Beobachtung X am größten ist
- Parameter werden so geschätzt, dass die likelihood der Daten maximiert ist/wird
- Likelihood = Wahrscheinlichkeit
Was ist das Prinzip der kleinsten Quadrate?
- ist eine Methode zur Schätzung unbekannter Parameter
- sorgt für Minimierung der Summe der quadrierten Abweichungen der beobachteten Messwerte vom gesuchten Schätzwert
Wie bestimmt man das Konfidenzintervall einer normalverteilten Variable?
- Intervallgrenzen sind abhängig von der Irrtumswahrscheinlichkeit x, der Streuung sowie dem Stichprobenumfang
- untere Grenze < Parameter < obere Grenze
- Konfidenzintervall muss gesuchten Parameter nicht enthalten
- > 90 % KI = 10 % Chance, dass Parameter nicht im KI liegt
Konfidenzintervalle für Erwartungswerte interpretieren
- in einem realistischen KI kann keine Wahrscheinlichkeit zugeordnet werden
- Parameter = Konstante -> stellt keine Zufallsvariable dar, wodurch keine Wahrscheinlichkeit zugeordnet werden kann
-> Aussage, dass Parameter eine bestimmt Wahrscheinlichkeit in einem KI zuliegen ist also falsch!, da Parameter eine Konstante ist
Gegebenes Konfidenzintervall für Regressionskoeffizienten interpretieren
-Der “erwartete” Wert liegt mit 95% Sicherheit zwischen den Werten x1 und x2
Bedeutung der Fisher-z-Transformation und Anwendung auf Koeffizienten
- wird angewendet um zu einer symmetrischen und approximativ normalverteilten Stichprobenverteilung zu gelangen
- ab n = 500 hinreichend normalverteilt, schief
- Transformation der Korrelationskoeffizienten
1. Fisher Z Transformation
2. Mittelwerte der neuen Z Werte bilden
3. Rücktransformation des neuen Mittelwertes
Klausur:
Kann statt X² auch Kohens K auf Tabelle angewandt werden?
- Nein, da Kohens K ein Übereinstimmungsmaß von Urteilen ist
- es wird zudem eine symmetrische Häufigkeitstabelle benötigt
Klausur:
Wertebereich des Korrelationskoeffizienten nach Pearson
[-1;1]
Klausur:
Zusammenhang zwischen Geschlecht und Reaktionszeit. Welches Verfahren?
Nominal (natürlich, dichotom) und Intervallskala
also: Punktbiseriale Korrelation
Klausur:
Welchen Anteil der Varianz kann das Modell aufklären?
R² (Tabelle)
Klausur:
Variablen Geschlecht und Ausbildungsdauer sind nicht korreliert. Welchen Anteil haben beide bei der Varianzaufklärung?
- Bei unkorrelierten Prädiktoren entsprechen die standardisierten Regressionskoeffizienten den Korrelationen mit dem Kriterium
- Standartisierten Koeffizienten für Kriterium in Tabelle suchen -> quadrieren
Klausur:
Ist die Streuung der Verteilung der Stichprobenmittelwerte größer oder kleiner als die Streuung der Population?
Je größer die Stichprobe, desto kleiner ist die Streuung der Mittelwerte
Also: Streuung ist in der Stichprobe größer als in der Population
Klausur:
Beschreibung der Verteilung der Stichprobenmittelwerte
Mittelwert (müh) betrachten, wenn etwa 100, dann annähernd normalverteilt
Klausur:
Berechnung Freiheitsgrade
df = n-1