ZUSAMMENFASSUNG WICHTIG Flashcards
Was machen Kennwerte?
stellen die wichtigsten Daten der Stichprobe dar.
Lagemaße (Maße der zentralen Tendenz)
geben durchschnittliche, mittlere oder besonders typische Messwerte einer Verteilung an.
Dispersionsmaße (auch Streuungsmaße
zeigen an, wie gleichmäßig oder ungleichmäßig die Werte der Skala vorkommen
Was bedeutet eine große Dispersion?
Werte der Personen unterscheiden sich stark
minimale Dispersion?
Werte sind sehr ähnlich
Was ist wenn die Dispersion 0 ist ?
alle Personen haben den gleichen Wert.
Was versteht man unter Messen in der Psychologie?
Zuordnen von Zahlen zu Objekten nach bestimmten Regeln, die gewährleisten dass bestimmt Relationen erhalte bleiben.
Nominalskala
erlaubt Aussagen über die Gleichheit oder Verschiedenheit von
Merkmalsträgern.
Ordinalskala
erlaubt zusätzlich die Merkmalsträger in eine Rangordnung zu bringen.
Intervallskala:
erlaubt zusätzlich Aussagen über die Größe der Verschiedenheit zwischen den Merkmalsträgern (also die Intervalle zwischen ihnen).
Verhältnisskala
erlaubt zusätzlich Aussagen über das Verhältnis von Merkmalsausprägungen (z.B. „doppelt so groß“)
Absolutskala
besitzt zusätzlich eine natürliche Maßeinheit.
empirischen Relativ.
empirischen Objekten,
numerischen Relativ
Nummern die zugeteilt werden, sodass die Relationen erhalten bleiben.
Homomorphismus h./strukturerhaltende Abbildung
Zuordnung von Zahlen zu Objekten derart, dass die Relationen im empirischen Relativ im numerischen Relativ erhalten bleiben.
Nominalskala
unterscheidet Objekte danach, ob sie gleich oder ungleich sind.
Merkmalsträger werden in Kategorien eingeteilt. Merkmalsträger überlappen nicht. (disjunkte Menge)
Was für eine Relation muss es in der Nominalskala sein?
Äquvalenrelation
Wann ist eine Relation eine Äquivalenrelation?
Wenn sie reflexiv ist
symmetrisch
transitiv
Welche Transformationen sind in der Nominalskala zugelassen?
alle eindeutigen Transformationen (Konstante addieren, multiplizieren) WICHTIG: nach der Transformation müssen die Gleichheit und Ungleichheitsverhältnisse noch die gleichen sein.
Wann ist eine Aussage in der Nominalskala bedeutsam?
Nur wenn sie über Gleichheit und Verschiedenheit aussagt.
Wan sollte ein Kreisdiagramm gewählt werden?
Nur wenn es nicht so viele Kategorien sind.
Was ist der Modalwert?
entspricht dem Wert derjenigen Kategorie, welcher die meisten Merkmalsträger angehören.
Wann kann der Modus nicht bestimmt werden?
wenn mehrere Kategorien gleich häufig und zugleich am häufigsten besetzt sind.
Was bedeutet der Wert des Relativen Informationsgehalts?
Er drückt die Dispersion in einem Wert aus.
Wie berechnet man den Relativen Informationsgehalt am besten?
Tabelle: Relative Häufigkeit, lnhj, hj*lnhj
Welchen Wertebereich hat der Relative Informationsgehalt?
0-1
Was sind Dichotomie Variablen?
Variablen mit genau 2 Ausprägungen
Ordinalskala
Zusätzlich zur Äquivalenzrelation der Nominalskala wird bei der Ordinalskala noch eine strenge Ordnungsrelation benötigt. Diese Relation ermöglicht es, die Personen in eine Rangordnung zu bringen
Was für eine Relation muss es in der Ordinalskala sein?
Eine strenge Ordnungsrelation
Wann ist eine Relation eine strenge Ordnungsrelation?
wenn die Relation asymmetrisch ist und transitiv
Welche Transformationen sind in der Ordinalskala zulässig?
Alle monotonen Transformationen (addition/multiplikstion mit einer Konstante) WICHTIG: Reihenfolge der Kategorien muss erhalten bleiben.
Welche Arten von Ordinalskalen gibt es?
- Singuläre Daten
2. Kategoriale Daten mit geordneten Kategorien
- Kategoriale Daten mit geordneten Kategorien
geordnete Rangklassen, wobei auch viele Personen in die gleich Kategorie fallen können.
- Singuläre Daten
jeder Person ein Rangplatz zugewiesen, dabei können Rangbindungen zulässig sein
Was ist eine Rangbindung ?
Wenn sich Personen einen Rangplatz teilen
Welche Aussagen sind in der Ordinalskala bedeutsam?
Aussagen über größer und kleiner
Was sind kumulierte Häufigkeiten?
zeigen an wie viele Personen sich in dieser Kategorie oder einer niedrigeren befinden.
Was ist der Median?
ist der Wert, für den gilt:
- Mindestens 50% der Daten sind kleiner oder gleich dem Median.
- Mindestens 50% der Daten sind größer oder gleich dem Median.
- Wert der mittleren Person
Wann ist es sinnvoll den Median zu berechnen?
bei kategorialen Daten mit geordneten Kategorien
Q1
ist der Wert, der von mindestens 25% der Merkmalträger erreicht oder unterschritten wird und der von mindestens 75% der Merkmalsträger erreicht oder überschritten wird.
Q2
ist der Wert, der von mindestens 50% der Merkmalsträger
erreicht oder unterschritten wird und von mindestens 50% der Merkmalsträger erreicht oder überschritten wird, d.h. das zweite Quartil ist der Median.
Q3
ist der Wert, der von mindestens 75% der Merkmalsträger erreicht oder unterschritten wird und von mindestens 25% der Merkmalsträger erreicht oder überschritten wird.
IQB
Der empirische Interquartilsbereich (IQB) ist der Bereich der Werte zwischen dem ersten und dem dritten Quartil.
wie berechne ich Q1 wenn n/4 keine ganze Zahl ergibt?
die nächste ganze Zahl die auf n*0,25 folgt
wie berechne ich Q3 wenn n/4 keine ganze Zahl ergibt?
die nächste ganze Zahl die auf n*0,75 folgt
Kardinalskala (metrische Variablen)
Intervall-, Verhältnis-, und Absolutskala
Intervallskala
beschreiben, wie stark sich Personen in einem
Merkmal unterscheiden.
Merkmalsträgern Zahlen zugeordnet und zwar derart, dass die Verhältnisse der Zahlendifferenzen zwischen je zwei Objekten den Verhältnissen der Merkmalsunterschiede zwischen diesen zwei Objekten entsprechen.
KEOIN ABSOLUTER NULLPUNKT
Welche Transformationen sind in der Intervallskala zulässig?
alle positiv linearen Transformationen zulässig. Dies bedeutet die Addition mit einer Konstanten und/oder die Multiplikation mit einer positiven Konstanten.
Welche Aussagen sind in der Intervallskala bedeutsam?
Aussagen über das Verhältnis der Differenzen einzelner Werte bedeutsam, ebenso wie Aussagen über die Gleichheit und Verschiedenheit und
die Rangordnung der Werte.
Verhältnisskala
entscheidenden Unterschied, dass es einen absoluten Nullpunkt gibt. Dadurch können auch Verhältnisse zwischen Merkmalsausprägungen direkt interpretiert werden
(RZ, Einkommen, Alter)
Welche Aussagen sind in der Verhältnisskala bedeutsam?
Verhältnisse von Skalenwerten bedeutsam und alle Aussagen, die auch bei einer Intervallskala bedeutsam wären. Nicht bedeutsam sind Aussagen über die absoluten Werte.
Absolutskala
natürliche Maßeinheit des Merkmals
Anzahl an richtigen Antworten
Wann ist es sinnvoll den Modus zu interpretieren (metrische Variablen)?
nur bei unimodalen (also eingipfligen) Verteilungen
Was ist eine Eigenschaft des Median bei kardinalskalierten Werten?
Die Summe der absoluten Abweichungen aller Messwerte vom Median ist kleiner als die Summe der absoluten Abweichungen von irgendeinem anderen Wert.
summe xm - MD = min
Wann wird der Mittelwert meist berechnet?
Bei mindestens intervallskalierten Werten
Definition Mittelwert?
Der Mittelwert ist die Summe aller Werte geteilt durch ihre Anzahl:
Eigenschaften des Mittelwerts?
- Summe der Abweichungen aller Messwerte vom Mittelwert =0
- Summe der quadrierten Abweichungen der Messwerte vom Mittelwert < als bei der Summe der quadriere´ten Abweichungen der Messwerte von einem anderen Wert
- wird zu jedem Messwert eine Konstante xm addiert, verändert sich der Mittelwert additiv umgenau diese konstante
- Wird jeder Messwert mit einer Konstanten 𝑏 multipliziert, verändert sich der Mittelwert multiplikativ um eben diese Konstante 𝑏
- -> lineare Transformation von metrischen Skalen in gleicher Weise auf den Mittelwert auswirkt wie auf jeden einzelnen Messwert
Wie kontrollieren wir Ausreißer?
Durch Robuste Kennwerte
Was sind Robuste Kennwerte
- getrimmte Mittel:Prozentsatz der kleinstem&größten Werte ignoriert
- winsorisiertes Mittel: extremen Werte durch nähst annehmbares ersetzt.
Quantile metrische Variablen
Ein p-Quantil ist derjenige Wert 𝑥𝑝(0 < 𝑝 < 1) , für den gilt, dass mindestens 𝑝 ∗ 100% der Daten kleiner oder gleich 𝑥𝑝 und mindestens (1 − 𝑝) ∗ 100% der Daten größer oder gleich 𝑥𝑝 sind.
Definition Varianz
Die (empirische) Varianz 𝑠𝑋2 ist die mittlere quadrierte Abweichung aller Einzelwerte vom Mittelwert
Definition Standardabweichung
Die (empirische) Standardabweichung 𝑠𝑋 ist die (positive) Quadratsumme aus der Varianz
Eigenschaften der Varianz und der Standardabweichung
- V&SD seh sensibel für Ausreißer-> Quadrieren der Abweichungen vom Mittelwert : große abweichungenfallen stark ins Gewicht, mehr als kleine
- Varianz ändert sich nicht wenn eine Konstante addiert wird
- Wird jeder Messwert mit einer Konstante multipliziert, verändert sich die Varianz um dem´n Faktor b”hoch 2& SD um den Faktor b
IQA
Der Interquartilsabstand (IQA) ist die Differenz zwischen dem dritten und ersten Quartil:
Diskrete Variablen
können nur endlich viele oder abzählbar unendlich viele Ausprägungen annehmen (wie bei einer Anzahl). Sie können nominal-, ordinal- oder
kardinalskaliert sein.
Stetige Variab
haben überabzählbar unendlich viele Ausprägungen, d.h. zwischen zwei unterschiedlichen Werten einer stetigen Variablen gibt es immer noch einen weiteren Wert. Streng genommen erreicht fast keine psychologische Variable Stetigkeit, man spricht daher auch von quasi-stetig. Stetige Variablen sind typischerweise kardinalskaliert.
Qualitative Variablen
haben eine beschränkte Zahl von Kategorien, sie sind nominal- oder ordinalskaliert.
Quantitative Variablen
können im Sinne eines Ausmaßes oder einer Intensität interpretiert werden. Sie sind kardinalskaliert
Verteilungsformen
Schmalgipflig, symmetrisch breitgipflig,rechtsgipflig Bimodal,asymmetrisch Unförmig Lförmig Jförmig
Was gilt Bei rechtsgipfligen Verteilungen ?
𝑥strich < 𝑀𝑑 < 𝑀𝑜
Was gilt Bei symmetrischen Verteilungen?
xstrich=MD=Mo
Was ist die Schiefe von symmetrischen Verteilungen?
0
Was für Schieferte haben linksgipflige Verteilungen?
positive
Was für Schieferte haben rechtsgipflige Verteilungen?
negative
Warum ist die Normalverteilung so wichtig?
Die Normalverteilung lässt sich durch zwei Parameter eindeutig
beschreiben. (Erwartungswert & Varianz)
Viele psychologische Variablen (und auch andere) sind normalverteilt.
Zwischen normalverteilten Variablen können Werte leicht verglichen und
transformiert werden.
Was für ein Kurdosis Wert hat die Normalverteilung
0
Was bedeuten positive Kurtosis Werte ?
dass die Verteilung schmalgipfliger (auch: steilgipflig) ist als die Normalverteilung
Was bedeuten negative Kurtosis Werte ?
breitgipfligere Verteilung
Zentrierung
von jedem Wert der Mittelwert abgezogen.
z-standardisierung
zentrierte Wert zusätzlich noch durch die Standardabweichung geteilt.
Was ist der Mittelwert und die Standardabweichung aller z standardisieren Variablen?
Mittelwert von 0 und eine Standardabweichung von 1:
Tschebyscheff‘sche Ungleichung
Anzahl der Standardabweichungen schon etwas über die Seltenheit der Werte ausgesagt.
maximal ein
Anteil von 1/khoch 2 der Werte in einem Abstand von mehr als k
Standardabweichungen vom Mittelwert entfernt.
Standardnormalverteilung
normalverteilte Variablen standardisiert, ergibt sich die Standardnormalverteilung. Das ist eine Normalverteilung mit einem Mittelwert von 0 und einer Varianz von 1. In
Wieviele Werte liegen max 1 Sd bei der Standardnormalverteilung vom Mittelwert entfernt?
68,3%
Wieviele Werte liegen max 2 Sd bei der Standardnormalverteilung vom Mittelwert entfernt?
95,5%
Wieviele Werte liegen max 3 Sd bei der Standardnormalverteilung vom Mittelwert entfernt?
99,7%
Was ist der Prozentrang?
Die Angabe, wie viele Personen der Vergleichsgruppe die gleiche oder eine geringere Merkmalsausprägung haben,
IQ Skala
Mittelwert 100 SD 15
Z Skala
Mittelwert 100 SD 10
T skala
Mittelwert 50 SD 10
Statine
Mittelwert 5 SD 2
wann entsteht normalverteilung?
Normalverteilungen entstehen dann, wenn ein Merkmal von vielen unabhängigen Faktoren beeinflusst wird ohne das ein Faktor alle anderen dominiert.
Bivariate deskriptive Statistik
Zusammenhang zwischen zwei Variablen mit Assoziationsmaßen
Arten von Zusammenhängen
Positiv
Negativ
Bei Zusammenhang
nicht linear
Klovarianz Definition?
Wenn zwei Variablen X und Y einen (linearen) Zusammenhang haben, so
variieren sie gemeinsam.
Klovarianz von 0?
Variablen keinen Zusammenhang haben
Werte über 0 in der Klovarianz?
positiver Zusammenhang
Werte unter 0 kovarianz?
negativer Zusammenhang
Was ist die Klovarianz einer Variable mit sich selber ?
Ihre Varianz
Was ergibt die (Produkt-Moment) Korrelation 𝑟𝑋𝑌 der Variablen X und Y.
Kovarianz geteilt durchProdukt der Standardabweichungen geteilt werden.
Welche werte kann die Korrelation annehmen?
zwischen +1 und -1
Wann ist die Korrelation am schwächsten?
bei 0
Was entspricht die Korrelation
Kovarianz z-transformierter Variablen
Eigenschaften der Korrelation?
- ist eine Variable eine Konstante ist die Korrelation nicht definiert
- rxy = ryx
- K. reagiert sensibel auf Ausreißer
- Bei K von 1 haben alle Personen auf beiden Variablen die gleichen z Werte
- Korrelationskoeffizient ist invariant gegenüber linearen Transformationen der beteiligten Variablen (nur das Vorzeichen kann sich umkehren.)
- K. nur für lineare Zusammenhänge
Interpretationsgrenzen der Korrelation?
𝑟𝑋𝑌 ≈ 0.10 → schwacher Zusammenhang 𝑟𝑋𝑌 ≈ 0.30 → mittlerer Zusammenhang 𝑟𝑋𝑌 ≈ 0.50 → starker Zusammenhang
Wann wird der Gamma Koeffizient berechnet?
Für zwei kategoriale Variablen mit geordneten Antwortkategorien
Konkordate Paare
sind Paare bei der eine der beiden Personen auf beiden Variablen
einen höheren Wert hat als die andere Person.
Diskonnkordante Paare
sind Paare bei denen eine Person auf der einen Variable einen höheren Wert hat als die andere Person und auf der anderen Variable einen
niedrigeren Wert.
Was bedeutet Ein Wert von -1 ? (gamma Koeffizient)
dass es nur diskordante Paare gibt,
bei 0 gibt es ? (gamma)
genauso viele diskordante wie konkordante Paare
Wert von +1 (gamma)
nur konkordante Paare
Wann verwendet man Yules Q?
nominalskalierten Variablen mit jeweils genau zwei Ausprägungen
Welche Möglichkeiten gibt es, wenn Korrelationen auf kausale Einflüsse zurückgehen?
Die Variable X ist (direkt oder indirekt) die Ursache von Y
Die Variable Y ist (direkt oder indirekt) die Ursache von X
Es gibt eine weitere Variable Z, die sowohl X als auch Y beeinflusst.
Wozu nutzt man Regression?
Wenn zwei Variablen korreliert sind, kann der Wert einer Person auf der einen Variablen dazu genutzt werden, den Wert auf der anderen Variablen vorherzusagen
Was nutzen wir zur Vorhersage, wenn der Prädiktor mit dem Kriterium unkorreliert ist,
Mittelwert
Was ist b0
y Achsenabschnitt
was ist b1
Steigung
Von Was ist die Interpretation der Steigung abhängig?
metrik der variabeln
Was sind die Eigenschaften von Residualwerten?
1) Die Summe aller Regressionsresiduen sind gleich
2) Die summe aller quadrierten Regressionresiduen ist minimal
3) Korrelation zwischen X & E =0
4) Die Korrelation zwischen Y geschätzt und E =0
Was ist der Determinationskoeffizient?
Der Anteil an der Gesamtvarianz von Y, der durch 𝑌 erklärt wird,
Welche Werte kann der Determinationskoeffizient annehmen?
Werte zwischen 0 & 1
was bedeutet ein Determinationkoeffiziet von 1
dass die gesamte
Varianz im Kriterium vom Prädiktor erklärt werden kann.
Wozu wird linker Regression verwendet?
Prädiktion: Falls ein Zusammenhang zwischen einem Prädiktor und einem Kriterium gut belegt ist, kann ein Prädiktor genutzt werden um ein Kriterium vorherzusagen (sehr nützlich, wenn das Kriterium nur schwer zu erfassen ist oder in der Zukunft liegt).
Erklärung: Mit dem Determinationskoeffizient kann dargestellt werden, wie sehr ein Prädiktor Merkmalsunterschiede auf der Kriteriumsvariablen „erklären“ kann.
Subgruppen
wenn es mehrere subgruppen in der Stichprobe gibt ,kann es sein das Zusammenhänge zwischen 2 Variablen unterschiedlich stark in den Subgruppen ausgeprägt sind
simpson Paradox
In jeder subgruppe gibt es einen Positiven ZSMH zwischen Prädiktor & Kriterium aber wenn alle Gruppen zusammengefasst werden, dann ergibt sich ein negativer Zusammenhang.
partialkorrelation
Einfluss einer drittvariable auf eine Korrelation rxy zu kontrollieren.
Partialkorrelation def.
Die Partialkorrelation ist die bivariate Korrelation zwischen zwei
alisiot
Residualvariablen
Wie kann sich die partialkorrelation zur ursprünglichen Korrelation verhalten?
rxy. z =rxy PK & KNO sind gleich, wenn die Drittvariable mit beiden Variablen unkorreliert ist
rxy. z< rxy Betrag der PK ist kleiner, wenn die Drittvariable den ZSMH der Variablen teilweise oder ganz erklärt
rxy. z > rxy Betrag der PK ist größer, wenn die Drittvariable eine supressorvariable ist.
Zufallsvorgänge
Vorgänge mit nicht vorhersehbaren und sich gegenseitig ausschließenden Ergebnissen
Zufallsexperimente
unter kontrollierten Bedingungen
Verschiedenen Ereignisse eines Zufallsvorgangs
Ergebnisraum
Arten von Ereignissen?
Elementarereignisse enthalten als Element nur ein einziges Ergebnis
Die leere Menge {} oder ∅ repräsentiert ein unmögliches Ereignis, da bei
einem Zufallsvorgang immer ein Ereignis eintreten muss.
Die Ergebnismenge ist ein sicheres Ereignis, da eines der Ergebnisse ja
eintreten wird.
Disjunkte Ereignisse schließen sich gegenseitig aus, das heißt sie haben keine überschneidenden Ergebnisse. Ihre Schnittmenge ist eine leere Menge: 𝐴 ∩ 𝐵 = ∅
Schnitt- und
Vereinigungsmengen gebildet werden, die dann wiederum Ereignisse sind.
Laplace Wahrscheinlichkeit
Wenn alle Elementereignisse gleich Wahrscheinlich sind & die Anzahl der möglichen Ereignisse endlich ist, dann gilt für die WSK P eine Ereignis A:
Anzahl für A günstige Ergebnisse / Anzahl K aller möglichen Ergebnisse
Wann Kombinatorik?
Um die Anzahl möglicher Ereignisse zu bestimmen
Modelle mit Berücksichtigung der Reihenfolge k & n?
k: Anzahl der möglichen Einzelereignisse n: Anzahl der Ziehungen
Modelle ohne Berücksichtigung der Reihenfolge K&N?
k: Anzahl der Elemente der Grundgesamtheit n: Anzahl der Ziehungen
Wann verwendet man die Binomialverteilung?
für einen wiederholten Zufallsvorgang mit zwei möglichen Ausgängen. Wenn die Wahrscheinlichkeit für einen einzelnen Zufallsvorgang bekannt ist, kann durch die Binomialverteilung leicht geschätzt werden, wie groß die Wahrscheinlichkeit für eine bestimmte Anzahl ist.
Durch was lässt sich die Binomialverteilung beschreiben?
Erwartungswert und Varianz
WSK nach Kolmogorov
3 Axiome, die für endliche Mengen möglicher Ergebnisse gelten.
Die WSK P ist eine Funktion, die jedem Ereignis eine reale Zahl zuordnet.
Axiome von Kolmogorov ?
- Nichtnegativität (WSK kann nicht negativ sein)
- Normiertheit (WSK dass irgendein Ereignis eintritt)
- Additivität: Für alle disjunkten Teilmengen A und B gilt
Rechenregeln für die WSK?
- WSK eines Ereignisses B größer gleich der WSK eines Ereignisses A, wenn A eine Teilmenge von B ist.
- Gegenereignis A enthält alle Ergebnisse der Menge, die nicht in A enthalten sind. (1- p(a))
- WSK von Vereinigungsmengen von nicht disjunkten Mengen gilt: P(A) +P(B)-P(A_B) (überlappungsbereich)
- Für mehr als “ paar disjunkte Ereignisse gilt, dassdie WSK der Vereinigungsmengen, den addierten WSK entspricht
Gesetz der großen Zahlen
Die relative Häufigkeit stabilisiert sich. Diese nähert sich bei steigendem n der Wahrscheinlichkeit an. Dies ist das schwache Gesetz der großen Zahl. Wenn n gegen unendlich geht, wir der Abstand zwischen relativer Häufigkeit und Wahrscheinlichkeit beliebig klein.
Aus diesem Grund kann eine unbekannte Wahrscheinlichkeit auch aus einer relativen Häufigkeit geschätzt werden (umso besser, je größer n ist).
Frequentistische Interpretation der WSK
Wahrscheinlichkeit ist dabei nichts anderes als die relative Häufigkeit eines Ereignisses, wenn das Zufallsexperiment immer wieder (theoretisch sogar unendlich häufig) wiederholt wird
OR
Darstellung der WSK als Chance.
Was gilt bei der Interpretation von Chancen?
Chance < 1 ist das Ereignis unwahrscheinlicher als das Gegenereignis.
Chance = 1 so sind Ereignis und Gegenereignis gleich wahrscheinlich. Chance> 1 ist das Ereignis wahrscheinlicher als das Gegenereignis.
Wettquotientenverhältnis?
Wenn 2 Chancen zueinander in Relation gesetzt werden
Eigenschaften des OR?
OR mind. 0.
Dieser Wert entsteht, wenn eine der Häufigkeiten 0 ist. Dann muss die Tabelle so angeordnet werden, dass die 0 im Zähler steht.
OR hat keine Obergrenze.
OR < 1, so ist die Chance in der ersten Gruppe
kleiner.
OR = 1, so sind die Chancen gleich groß.
OR > 1, so ist die Chance in der ersten Gruppe größer.
Multipliziert man eine Zeile oder Spalte mit einem positiven Wert, ändert sich das OR nicht.
Was ist die Bedingte Wahrscheinlichkeit?
WSK für ein Ereignis , wenn eine bestimmte Bedingung vorliegt (Einschränkung des Ergebnisraums)
Wann sind 2 Ereignisse stochastisch unabhängig?
P(A/B)= P(A)
P(B/A)=P(B)
P(A_B)=P(A)*P(B)
Bayes-Theorem
bedingte Wahrscheinlichkeit 𝑃 (𝐴 /𝐵) mittels der Wahrscheinlichkeit 𝑃 (𝐵 /𝐴) zu berechnen
Welche Arten von Fehlerschlüssen sind möglich in der Diagnostik?
falsch positiven Diagnosen wird fälschlicherweise das Vorliegen eines Syndroms angenommen, obwohl die Person gesund ist.
falsch negativen Diagnosen wird ein tatsächlich vorhandenes Syndrom nicht erkannt und die Person wird als gesund eingestuft.
Wie nennt man die Fähigkeiten eines diagnostischen Tests Fehlerschlüsse zu vermeiden?
Spezifität ist die Wahrscheinlichkeit, dass eine gesunde Person auch tatsächliche eine negative Diagnose bekommt (also als gesund erkannt wird).
Sensitivität ist die Wahrscheinlichkeit, dass eine kranke Person auch tatsächlich eine positive Diagnose bekommt (also als krank erkannt wird).
hohe Spezifität =
weniger falsch positive Diagnosen
hohe Sensitivität =
weniger falsch negative Diagnosen
Lösungsstrategien zum Vorhersagen von Zufallsereignissen
Maximieren wird immer die wahrscheinlichere Lösung genommen (hier also grün).
Matching werden Lösungen entsprechend ihrer Wahrscheinlichkeit vorhergesagt (also in 75% der Fälle grün, in den anderen Fällen rot).
Nullhypothesentest nach Fischer Ablauf?
- Formulierung einer Nullhypothese
- Festlegen des Signifikanzniveaus a (häufig 0,05)
- Erheben der Daten
- Feststellen der Wahrscheinlichkeit eines solchen (oder extremeren) Ergebnisses unter Annahme der Nullhypothese (der p-Wert)
- Statistische Entscheidung:
𝑝 < 𝛼: Die Nullhypothese wird verworfen. 𝑝 > 𝛼: Die Nullhypothese wird beibehalten.
Induktion?
Vielzahl von speziellen Sätzen (also einzelnen Beobachtungen) auf allgemeine Sätze (also Theorien) geschlossen.
Problem der Induktion?
auch bei sehr vielen Beobachtungen nie sicher sein können, ob eine Theorie richtig ist.
Deduktives Prüfen von wem erfunden?
Karl Popper
Deduktion?
aus Theorien spezielle Sätze abzuleiten (das können dann einzelne Hypothesen sein) und diese dann an der Wirklichkeit zu überprüfen.
Wenn der spezielle Satz tatsächlich so beobachtet wird, hat sich die Theorie bewährt.
Wenn der spezielle Satz so nicht eintritt, so ist die Theorie widerlegt.
Es ist also nicht möglich, Theorien zu verifizieren (also ihre Wahrheit zu beweisen). Es ist aber möglich, diese zu falsifizieren.
Population?
Grundgesamtheit
Stichprobe?
Teilmenge der Grundgesamtheit
Endliche (finite) Population
Umfang ist bekannt und endlich
▪ Zusammensetzung ändert sich durch das Ziehen eines Elements
Unendliche (infinite) Population
▪ Zusammensetzung ändert sich durch das Ziehen eines Elementes nicht (z. B. Ziehen mit
Zurücklegen)
Wann ist es unproblematisch statistische Verfahren für unendliche Populationen zu verwenden, obwohl wir keine haben?
sofern die Stichprobe maximal 5% der Population umfasst,
Konkrete Population
Elemente sind klar identifizierbar.
▪ Beispiel: Population der an deutschen Hochschulen tätigen Professoren
Fiktive Populationen
Elemente sind nicht eindeutig identifizierbar.
▪ Beispiel: Vergleich der Depressivität von Personen, die sich zwei verschiedenen
Behandlungsmethoden unterzogen haben
Einfache Zufallsstichprobe
Alle möglichen Stichproben der Größe n haben die gleiche Wahrscheinlichkeit, gezogen zu werden
Geschichtete Zufallsstichproben
Disjunkte und exhaustive Zerlegung einer Population in unterschiedliche Schichten
▪ Zufallsstichprobe aus jede
Klumpenstichprobe
Umfasst alle Elemente zufällig ausgewählter Klumpen einer Population
Mehrstufige Auswahlverfahren
Schachtelung der Populationselemente in verschiedene Ebenen ▪ Sukzessive Stichprobenziehung aus verschiedenen Ebenen
Einzelfall
mehrfache Befragung
Was bedeutet Repräsentativität?
bedeutet „durch Zufallsauswahl aus der Grundgesamtheit entstanden“. Bei einer repräsentativen Stichprobe gibt es dennoch einen Stichprobenfehler:
Stichprobenfehler (sampling error)
Stichprobenkennwerte weichen von Populationsparametern trotz zufälliger Ziehung ab.
Systematischer Fehler (nonsampling error)
Keine Zufallsauswahl, Stichprobe liegt andere Population als die intendierte Population
zugrunde (nichtrepräsentative Stichprobe)
▪ Beispielsweise durch Teilnahmeverweigerung
Parameterschätzung
ein Populationsparameter anhand eines Stichprobenkennwerts geschätzt.
Was ist die Stichprobenkennwertverteilung?
die Verteilung der Kennwerte von wiederholten Stichprobenziehungen aus der gleichen Population)
Was ist der Standardfehler?
Die Streuung der Mittelwerte (Standardabweichung der Stichprobenkennwertverteilung)
Je größer die Stichprobe desto…
kleiner der Standardfehler
Zentrale Grenzwertsatz besagt ws?
Die Stichprobenkennwerteverteilung nähert sich mit größerem n einer Normalverteilung an. Unabhängig davon, wie das Merkmal in der Population verteilt ist. Voraussetzung: Stichproben unabhängig gezogen und die Population muss im Gegensatz zur Stichprobe relativ groß sein.
Was sind die Qualitätskriterien der Parameterschätzung?
Erwartungstreue
Konsistenz
Effizienz
Suffizienz
Erwartungstreue
Eine Statistik schätzt einen Parameter (Populationskennwert) erwartungsgetreu, wenn der Erwartungswert der Stichprobenkennwerteverteilung der Statistik mit dem Parameter identisch ist .
( Stichprobenmittelwert ist ein erwartungstreuer Schätzer des Populationsmittelwerts.
Empirische Varianz ist kein erwartungstreuer Schätzer der Populationsvarianz.)
Konsistenz
Eine Statistik heißt konsistent, wenn sie mit wachsender Stichprobengröße gegen den Parameter konvergiert. WSK dass die Statistik beliebig nahe an dem Parameter liegt, strebt mit wachsender Stichprobengröße gegen 1
(Stichprobenmittelwert ist ein konsistenter (und erwartungstreuer) Schätzer des Populationsmittelwerts).
Effizienz
Eine Statistik ist als Populationsparameters effizient, wenn sie gengeringsten Standardfehler aller erwartungstreuen schätzen aufweist.
(Bei normalverteilten Variablen kann der Populationsmittelwert mit dem Stand Stichprobenmittelwert oder dem Stichprobenmedian erwartungstreu und konsistent
geschätzt werden.
• Die Schätzung mittels des Stichprobenmittelwerts ist effizienter.)
Suffizienz
Eine Statistik ist suffizient, wen sie alle in den dauen enthaltenen Informationen nutzt, sodass die Berechnung einer weiteren Statistik keine zusätzlichen Informationen über den Parameter enthält.
Intervallschätzung?
Bestimmung des Bereichs (Intervalls)
um den geschätzten Populationsparameter, in dem
der wahre
Populationsparameter mit hoher Sicherheit liegt.
1-alpha KI
bezeichnet den Bereich um einen geschätzten Populationsparameter, für den gilt, dass er mit einer WSK von 1-0,05 (0,95) den Populationparameter überdeckt.
KI bei bekannter Populationsvarianz?
Im Bereich von ±1,96 ∗ 𝜎 xstrich
herum liegen 95% der Werte.
(
Eigenschaften des KI
Konfidenzintervall enthält entweder den unbekannten Populationsparameter oder nicht. Wir wissen nicht, ob ein bestimmtes Konfidenzintervall den Parameter enthält oder nicht. Der Konfidenzkoeffizient (Überdeckungswahrscheinlichkeit) ist die Wahrscheinlichkeit, dass ein beliebiges Intervall zu denjenigen zählt, die den wahren Populationsparameter enthalten („überdecken“).
Ws best das 95% KI
wenn man (unendlich) viele Zufallsstichproben gleicher Größe aus der Population ziehen würde und ▪ für jede Stichprobe das Konfidenzintervall berechnen würde, ▪ in 95 % aller Konfidenzintervalle der unbekannte Populationsparameter zu finden ist, ▪ in 5 % der Konfidenzintervalle hingegen nicht.
Wer entwickelt die T Verteilung
Englischer Chemiker der Guinness- Brauerei.
Er entwickelte die t-Verteilung, die er unter dem Pseudonym “Student” veröffentlichte.
Was sind Freiheitsgrade?
Freiheitsgrade sind die Anzahl der Komponenten bei der Schätzung eines Parameters, die frei variieren können
Wann ist etwas signifikant?
Ergebnis ist signifikant, wenn der Wert der statistischen Kenngröße in einen vorher festgelegten Bereich fällt, der am stärksten gegen die Nullhypothese
spricht.
Die Wahrscheinlichkeit, dass der Wert in diesen Bereich fällt, ist unter der
Nullhypothese gering (wird vorher festgelegt)
Was ist der P Wert?
Wahrscheinlichkeit, das gefundene Ergebnis oder noch ein stärker gegen die
Nullhypothese sprechendes Ergebnis unter Gültigkeit der Nullhypothese zu finden
Falsifikationismus
Mit dieser Konzeption ist es nicht möglich zu zeigen, dass die Nullhypothese selbst gilt. Die Nullhypothese kann nur verworfen oder nicht verworfen werden. -> vgl. Popper
Inhaltsarmut
Eine Kritik am Hypothesentest ist, dass dieser Test dazu führt, dass sich Forscher zu
wenig Gedanken über die inhaltlich interessanten Hypothesen machen.
Binäres Entscheidungskonzept nach Neyman und Pearson
Null- und Alternativhypothese
Alternativhypothese ist in den meisten Anwendungen die Forschungshypothese, die von Interesse ist.
Nullhypothese ist der Gegenpart zur Alternativhypothese
Null- und Alternativhypothese schließen sich gegenseitig aus
Binäre Entscheidung?
H0 oder H1
Fehler erster Art?
H0 in der Realität wahr, aber H1 angenommen
richtige Entscheidung 1-alpha
H0 ist in der Realität wahr & H0 wird beibehalten
richtige Entscheidung (1-ß)
HO ist in der Realität wahr & H0 wird beibehalten
Fehler zweiter Art (ß)
H0 ist in der Realität falsch & Ho wird beibehalten
Unterschied zwischen Überschreitungswsk p Wert und Irrtumswsk alpha?
p ist ein empirisches Ergebnis
alpha wird vor der Untersuchung festgestellt
Was ist die teststarke?
1-ß
Wovon hängen β und (1 — β) ab?
Größe des Effekts
Signifikanzniveau α
Streuung der Populationsmerkmalsverteilung Stichprobengröße
Art des Tests (einseitig vs. zweiseitig)
Je größer der Effekt desto
KLEINER ß
Wenn ein kleineres a gewählt wird,
wird damit größer.
Je kleiner die Populationsstandardabweichung, desto
kleiner ß
Was untersucht der Einstichproben Gauß Test?
vergleichen wir den Mittelwert einer Stichprobe mit einem festen Wert bei gegebener Populationsstandardabweichung.
wenn temp> tkit
H0 verworfen
Je größere Stichprobe desto
kleiner ß
Warum ist ein einseitiger test besser?
hat eine größere teststarke und ist klarer interpretierbar
Die Teststärke ist umso höher,
je größer die Stärke des Effekts ist,
je größer der Stichprobenumfang ist,
je geringer die Merkmalsstreuung ist,
je größer a ist.
Interpretation von Cohen d (Einstichproben Gauß test)
0,14
0,35
0,57
P Wert
Die Wahrscheinlichkeit für ein solches oder extremes Ergebnis unter Gültigkeit der Nullhypothese = p-Wert
Bestimmung des optimalen Stichprobenumfangs um eine gute Teststärke zu erhalten
Größe des Effekts und Populationsstandardabweichungen müssen bekannt sein bzw. festgelegt werden.
Rückgriff auf standardisierte Effektgrößen.
Festlegung des Minimaleffekts, den es aufzudecken gilt, da wahrer Effekt häufig nicht präzise festgelegt werden kann.
was wird beim Einstichproben T Test geprüft?
b sich ein Stichprobenmittelwert von einem Populationsmittelwert unterscheidet.
Vorraussetzungen Einstichproben T Test?
Zufallsstichprobe vom Umfang n
Normalverteilung der Variablen in der Population
Standardabweichung der Variablen in der Population unbekannt
Umgang mitVerletzungen der Normalverteilungsannahme
Einstichproben-t-Test
bei symmetrischer Merkmalsverteilung und n ≥ 30
bei moderat schiefer Verteilung und n ≥ 50;
bei schiefer Verteilung und n ≥ 80
Interpretation von Cohen δ
Einstichproben t Test
0,14
0,35
0,57
Testplanung:„optimaler“ Stichprobenumfang für
Einstichproben-t-Test
Gerichtete Alternativhypothese H1: > 0
Vorherige Setzungen/Annahmen: α = 0,05 β = 0,10 δ1 = 0,5
Dazu muss der Nonzentralitätsparameter λ der nonzentralen t-Verteilung unter der H1
gesucht werden.
zweiseitiges KI
0,975
einseitiges KI
0,95
Was untersucht der T Test für abhängige Stichproben?
Es geht um die Frage, ob sich zwei Gruppen in einem metrischen Merkmal unterschieden
.Unterschiede in einer metrischen Variablen werden auf Unterschiede in einer nominalskalierten Variablen mit zwei Merkmalsausprägungen (zwei Gruppen) zurückgeführt
Voraussetzungen des t-Tests für unabhängige Stichproben
” unabhängige Stichproben
Normalverteilte Variablen in den zugrundeliegenden Populationen
Varianzen der Variablen innerhalb der beiden Populationen sind gleich (Homoskedastizität)
Interpretation der Affektgröße T test unabhängige Stichproben
‘| ≥ .20: „kleiner“ Effekt
| ‘| ≥ .50: „mittelgroßer“ Effekt | ‘|
≥ .80: „großer“ Effekt
Optimale Stichprobenumfänge: t-Test für unabhängige Stichproben
Wenn a, b, die erwartete Effektgröße d2 )und das Verhältnis der Gruppengrößen bekannt ist, kann diese Information genutzt werden, um schon im Vorfeld einer Studie ein optimaler Stichprobenumfang berechnet werden.
Umgang mit Verletzung der NV in der Population?
Entweder Große Stichprobe n1,n2 >gleich 30 symmetrische Verteilung
ODER
Transformation
Umgang mit verletzender Homosekdastizität
Robust, wenn bleichgroße
Ist (der Betrag der) Prüfgröße größer als der kritische Wert
wird die Nullhypothese verworfen.
Ist der p-Wert kleiner als a (also meist 0,05
wird die Nullhypothese verworfen.
Levene Test nicht signifikant dann…
Varianzen gleich
Ist der p Wert kleiner als 0,05…
wird die H0 verworfen
enthält dass KI keine 0 dann
unterscheiden sich die Gruppen signifikant H0 verworfen
Was untersucht der T test für abhängige Stichproben?
kann nun genutzt werden, um zu untersuchen, ob sich die Messwerte der Personen zu den unterschiedlichen Messzeitpunkten unterscheiden. Der Vorteil ist, dass die Unterschiede zwischen den Personen zum ersten Messzeitpunkt ignoriert werden und der Test nur die Veränderung zwischen den beiden Messzeitpunkten untersucht.
Voraussetzung des t-Tests für abhängige Stichproben
Innerhalb der Stichproben müssen die Messwerte unabhängig sein (also müssen die Messwertpaare zufällig aus einer Population von Paaren gezogen sein)
Normalverteilung der Differenzvariablen
Wann ist der test Robust gegen Verletzung der Normalverteilungsannahmen?
Bei größeren Stichproben ist der Test robust gegen Verletzungen der Normalverteilungsannahme (n=30 bei symmetrischen Verteilungen der Differenzvariablen, n=50 bei moderat schiefer Verteilung und n=80 bei sehr schiefer Verteilung
Effektgröße Cohens d ‘‘
T Testfür abhängige Stichproben?
𝛿′′ ≥ 0,14 „kleiner“ Effekt
𝛿′′ ≥ 0,35 „mittlerer“ Effekt
𝛿′′ ≥ 0,57 „großer“ Effekt
Optimale Stichprobenbestimmung
Irrtumswahrscheinlichkeit a
Irrtumswahrscheinlichkeit b
Der Populationseffekt unter der Alternativhypothese 𝛿1′′
Die Stichprobengröße n
abhängige Stichproben Kovarianz
ungleich 0
unabhängigen Stichproben ist die Kovarianz
=0
Je größer die Kovarianz der beiden Stichproben ist,
desto kleiner wird der Standardfehler. (Test wird leichter signifikant)
chi quadrar Test ?
nominalskalierte unabhängige wie abhängige Variablen.
Hypothesen Einstichproben chi Quadrat Test
𝐻0:𝜋𝑗 =𝜋𝑗0(füralle𝑗)
𝐻1: 𝜋𝑗 ≠ 𝜋𝑗0 (für mindestens ein
Wie testet der Beinstichproben Schi Quadrat test immer?
angerichtet 0,95
Effektstärke Interpretation? Einstichproben Chi Quadrat Test
𝜔 ≈ 0,10: “kleiner” Effekt
𝜔 ≈ 0,30: “mittlerer” Effekt
𝜔 ≈ 0,50: “großer” Effekt
Vorraussetzungen Chi Quadrat test?
Jedes Untersuchungsobjekt (meist also jede Person) muss eindeutig einer Kategorie zugeordnet werden können. Die erwartete Häufigkeit in jeder Zelle muss mindestens 1 sein. In mindestens 80% der Zellen muss die erwartete Häufigkeit mindestens 5 sein.
Wozu wird der 4 Felder Chi Quadrat test genutzt?
Zusammenhang von zwei
kategorialen Variablen zu untersuchen.
Der Test untersucht, ob die beiden Variablen unabhängig sind
Hypothesen 4 Felder Chi Quadrat test?
𝐻0: 𝜋𝑖𝑗 = 𝜋𝑖∙ ∗ 𝜋∙𝑗 (für alle i, j)
𝐻1: 𝜋𝑖𝑗 ≠ 𝜋𝑖∙ ∗ 𝜋∙𝑗 (für mindestens ein Paar i, j)
Gerichteter 4 Felder Chi Quadrat Test Hypothesen?
𝐻0: 𝜋11 ≤ 𝜋1∙ ∗ 𝜋∙1
𝐻1: 𝜋11 > 𝜋1∙ ∗ 𝜋∙1
kritischer Wert gerichteter 4 Felder Chi Quadrat?
0,90
Hypothesen großer Chi Quadrat test?
Ho:…
H1 nicht H0
Wozu wird der Mc Neymar test genutzt?
dichotome Variablen bei abhängigen Stichproben zu untersuchen.
Die Idee Mc Nemar?
Unter Gültigkeit der Nullhypothese sollten die Wahrscheinlichkeiten für die beiden Zellen mit den Wechslern gleich groß sein
Hypothesen Mc Nemar?
𝐻0:𝜋12 =𝜋21
𝐻1:𝜋12 ≠𝜋21
effektgröße mc Neymar?
Chancen
Def Partialkorrelation
Die Partialkorrelation ist die bivariate Korrelation zwischen zwei
Residualvariablen