letzten fragen: Flashcards
Was sind die beiden entscheidenden Charakteristika eines Experiments?
> >
- die willkürliche Manipulierbarkeit der Unabhängigen Variable
- Randomisierung: zufällige Zuordnung der Personen zu den verschiedenen Stufen der UV
Welche beiden Typen von Daten gibt es?
> > kategorische (auch qualitative genannt) Daten – geben an „was“
> > numerische (quantitative) Daten – geben an „wie viel“
> > kategorische Daten lassen sich in nominale (nicht rangordbare) Daten, wie Beruf, Konfession,
Familienstand, Augenfarbe und ordinale (rangordbare) Daten unterteilen (Güteklassen oder
Gefahrenstufen sind z.B. rangordbar weil man sagen kann, was davon das höchste ist)
> > eine Sonderform der nominalen Daten sind binäre Daten, die immer nur 2 Ausprägungen haben
(Mann/Frau, ja/nein, Kopf/Zahl)
Was können die verschiedenen Maße der zentralen Tendenz (Median, Modalwert, Mittelwert) mit den verschiedenen Datentypen anfangen?
!!!! »_space; das ARITHMETISCHE MITTEL MINIMIERT die SUMME DER QUADRATISCHEN ABWEICHUNGEN !!!!
!!!! »_space; der MEDIAN MINIMIERT DIE SUMMER DER ABSOLUTEN ABWEICHUNGEN !!!!
> > Der Datentyp definiert, was man damit machen kann (also die maximal erlaubten Operationen)
> > bei kategorischen Daten macht es z.B. keine Sinn, den Mittelwert zu berechnen
> > den MEDIAN kann man nur bei ordnialen (RANGORDBAREN ) QUALITATIVEN oder ALLEN QUANTITATIVEN berechnen (weil eine Rangreihe ja Voraussetzung dafür ist, den Wert in der Mitte zu finden
> > den MODALWERT kann man bei allen QUALITATIVEN UND QUANTITATIVEN Daten berechnen (sogar bei NOMINALEN DATEN, da es ja z.B. die häufigste Augenfarbe gibt)
Der Modalwert KOMMT auch selbst IN den DATEN VOR
der MITTELWERT kommt meist NICHT in den Daten VOR
> > der Median ist Ausreißer-robuster als der Mittelwert
> > der Median transformiert sich bei beliebigen monotonen Transformationen der Daten konsistent
> > das arithmetische Mittel besitzt eine Linearitäts-Eigenschaft
Was bedeutet der Gold Standard?
> > man PARALLELISIERT zuerst, also muss erst die KOVARIATEN HERAUSFINDEN, die die Ergebnisse beeinflussen können. Z.B wenn man merkt, dass Alter eine Rolle spielt, bei der Wirkung von Alkohl auf die Rechenleistung, dann erstellt man 3 Altersgruppen 18-30, 30-50, 50-70.
Dann muss man INNERHALB DER GRUPPE RANDOMISIEREN. Also die 18-30 Jährigen zufälligerweise auf die verschiedenen Stufen der UV verteilen.
> > es ist sehr wichtig, dass das Design einer Untersuchung gut ist. Wenn man bei der Datenanlyse Fehler macht, kann man das noch ausgleichen. Wenn man aber z.B. nicht randomisiert, haben die Ergebnisse keine Aussagekraft (irreparabler, letaler Defekt)
Was sind Eigenschaften der Varianz?
> > die Varianz ist die MITTLERE QUADRATISCHE ABWEICHUNG DER EINZELNEN DATEN VON IHREMMITTELWERT
> > sie ist ein MAß DER ERSTRECKUNGSBREITE DER MESSWERTE: sie gibt an, wie eng sich die n Daten um
ihren Mittelwert schmiegen
> > sie ist DAS WICHTIGSTE MAß DER GÜTE
> > sie ist NIEMALS NEGATIV und nur genau dann = 0, wenn alle n Messwerte xi genau gleich sind
> > sie besitzt eine VERSCHIEBEEIGENSCHAFT: die Addition derselben Konstanten c zu allen Messwerten: verändert die Varianz nicht
- sie ist EIN LAGE-UNABHÄNGIGES MAß
Was sind typische Eigenschaften von Normalverteilungen?
> > es gibt UNENDLICH VIELE NORMALVERTEILUNGEN, die sich DURCH 2 PARAMETER (Kennwe.) UNTERSCHEIDEN:
> > MITTELWERT μ legt horizontale Lage des ZENTRUMS der Verteilung entlang der X-ACHSE FEST.
> > Streuung (SD) σ bestimmt die ERSTRECKUNGSBREITE DER VERTEILUNG (wie eng um ihren μ gruppiert)
> > alle normalverteilungen sind symmetrisch um μ, eingipflig und schließen die Fläche 1 ein
> > sie VERLAUFEN GLATT UND KONTINUIERLICH (BINOMIAVERTEILUNG dagegenIN DISKRETEN STUFEN)
> > sie SIND IM MITTLEBEREICH GUT und bei EXTREMFÄLLEN UNSICHER
Was bedeutet das Zentrale Grenzwerttheorem (ZGT)?
>>MITTELWERTSVERTEILUNGEN SIND IMMER NORMALVERTEILT, auch wenn die Werte an sich nicht normalverteilt sind (das war das Kugelbeispiel)
> > die SUMME VON UNABHÄNGIGEN VERIABLEN ist immer (angenähert) normal verteilt – und zwar
insbesondere auch dann, wenn diese Variablen selbst individuell nicht normal verteilt»_space; ZGT braucht man für die Approximation der Binomial– durch die Normalverteilung
Warum brauch man Teststatistiken?
> > Nicht die einzelnen erhobenen Daten „an sich” führen zur Annahme / Verwerfung der H0.
> > DATEN MÜSSEN ERST ZU EINEM RELEVANTEN UND REPRESENTATIVEN WERT AGGREGIERT WERDEN.
> > TESTSTATISTIKEN SIND z.B. Mittelwert, Median, Modalwert, t-Wert, chi2-Wert
> > dieser WERT MUSS DIE ERHOBENE INFORMATION möglichst ERSCHÖPFEND ZUSAMMENFASSEN
> > dieser Wert sollte ZWISCHEN H1 UND H0 MÖGLICHST SCHARF TRENNEN
Was sagen p-Werte aus?
> > p-Wert ist der KLEINSTE WERT VON ALPHA, bei dem die BEOBACHTETE TESTSTATISTIK noch soeben in
ZUGEHÖRIGEN ABLEHNUNGSBEREICH DER H0 FÄLLT
> > p-Wert vermittelt DIFFERENZIERTE, nämlich KONTINUIERLICH GRADUIERTE INFORMATION (BESSER ALS nurDER SIGNIFIKANTE ALPHA WERT)
> > p-Werte STEHEN IN ENGEM ZUSAMMENHANG MIT KONFIDENZINTERVALLEN
> > ABER: bei STATISTISCH SIGNIFIKANTEN ERGEBNISSEN muss man trotzdem ÜBERLEGEN OB SIE PRAKTISCH AUCH RELEVANT SIND sind (z.B. ob eine Verbesserung von 0,3% in der Schule den höheren Aufwand wert ist)