Deskriptive Statistik Flashcards

Question

Ist die Standartabweichung ein Lagemaß?

Answer 1

Hier ist die Grundgesamtheit die Menge aller Studierenden der Ernährungswissenschaften (EW). • Da wir nicht alle Studierende befragen können (oder wollen), ziehen wir eine Stichprobe der Größe 25. • Je größer die Stichprobe, desto aussagekräftiger sind in der Regel die Tendenzen. – Ausnahme: Bei Verzerrungen (wie etwa Selektionbias

Answer 2

ordinalskaliert oder nominalskaliert sein

Answer 3

Zwischen den Ausprägungen besteht eine Ordnung (Lieblingsjahreszeit, Gefahr von Genfood, Schulnoten)

Answer 4

Die Kategorien bzw. Ausprägungen haben keine Ordnung (Geschlecht, Lieblingsobst, Lieblingsfarbe)

Answer 5

binäre Variablen) haben genau zwei Ausprägungen (männlich/weiblich, Ja/Nein, Dafür/Dagegen).

Answer 6

**• Ist der Modus bei der Größe sinnvoll?** – Nein, denn es gibt viel zu viele Merkmalsausprägungen. – Hier gibt es zB 4 Modi (163.5, 170.5, 172, 174.5). • Je weniger Merkmalsausprägungen, desto sinnvoller ist der Modus. • Denn der Modus soll idealerweise über mehrere unterschiedliche Stichproben hinweg stabil bleiben.

Answer 7

**Wir bilden (gleich große) Klassen in Form von Intervallen:** – (150, 155], (155,160], (160, 165], ..., (185, 190], (190, 195] – Eine Person mit 155 cm fällt noch ins Intervall (150, 155]. • Wir zählen, wie viele Personen in jede Klasse fallen. • Wir erhalten eine kategorisierte Version der Daten, in der wir zwar Genauigkeit verloren, dafür aber Überblick gewonnen haben. – Das Histogramm ist geboren! • Die optimale Anzahl an Klassen hängt von den Daten ab, je mehr Beobachtungen, desto mehr Klassen möglich.

Answer 8

Lagemaßen

Answer 9

Streuungsmaßen.

Answer 10

Je weniger die Daten streuen, desto ähnlicher sind sie sich. Je mehr die Daten streuen, desto unähnlicher sind sie sich.

Answer 11

gibt an, wie groß der Wert einer Beobachtung im Durchschnitt ist

Answer 12

Das zum Mittelwert passende Streuungsmaß ist die Standardabweichung. ``` Sie gibt (salopp gesagt) die durchschnittliche Abweichung einer Beobachtung vom Mittelwert an. ```

Answer 13

Wir gewichten die Mittelwerte entsprechend ihrer relativen Häufigkeit. • Wir gewichten also das Durchschnittsgewicht der Männer mit 5/25 und jenes der Frauen mit 20/25

Answer 14

* Mit dem Mittelwert und der Standardabweichung gepaart mit dem Histogramm haben wir einen schönen Überblick. * Dafür haben wir Genauigkeit verloren; wir haben also einen Informationsverlust in Kauf genommen.

Answer 15

xmin ist die kleinste Ausprägung

Answer 16

xmax die größte Ausprägung.

Answer 17

Range Berechnung aus dem Minimum und Maximum R= Xmax- Xmin Wir können also mit dem Minimum, dem Maximum und der Spannweite jenen Bereich beschreiben, in dem alle Daten (also 100 %) der Stichprobe liegen.

Answer 18

* Der Median (Zentralwert) teilt die Daten derart in zwei Hälften, dass 50 % der Daten kleiner gleich und 50 % der Daten größer gleich diesem Wert sind. * Um wie viel die Daten größer oder kleiner sind, spielt (im Gegensatz zum Mittelwert) keine Rolle.

Answer 19

Vor der Bestimmung müssen die Daten sortiert werden: 168, 176, 188, 189, 190. • Das Minimum ist also 168 cm, das Maximum 190 cm. • Daraus ergibt sich die Spannweite von 190 – 168 = 22 cm. • Der Median ist 188 cm. 3 Werte sind kleiner gleich, 3 Werte größer gleich diesem Wert.

Answer 20

unteres Quartil

Answer 21

oberes Quartil

Answer 22

Gemeinsam mit dem Minimum und Maximum teilen die Quartile die Daten derart in 4 Teile, dass in jede Klasse (ungefähr) 25 % der Daten fallen

Answer 23

25 % der Daten sind kleiner gleich und 75 % der Daten größer gleich dem 1. Quartil. • 75 % der Daten sind kleiner gleich und 25 % der Daten größer gleich dem 3. Quartil. • Aus dem 1. Quartil Q Aus dem 1. Quartil Q 1 und dem 3. Quartil Q 3 bestimmen 1 und dem 3. Quartil Q3 bestimmen wir die Interquartilsdistanz (Interquartilsspannweite):

Answer 24

Wir können also mit dem 1. und 3. Quartil sowie der Interquartilsdistanz jenen Bereich beschreiben, in dem die 50 % zentralsten Daten der Stichprobe liegen.

Answer 25

Für 0 \< p \< 1 teilt das p–Quantil die Daten derart in zwei Teile, dass (ungefähr) 100 · p % der Daten kleiner gleich und (ungefähr) 100 · (1 – p) % der Daten größer gleich dem p–Quantil sind.

Answer 26

Eine einfache und allgemeine Prozedur für die Berechnung von Quantilen (also auch Median und Quartile) steht in der Formelsammlung.

Answer 27

erhält man den Median

Answer 28

das 1. Quartil

Answer 29

3. Quartil.

Answer 30

Für p = 0.9 erhält man zB das 90%-Quantil. 90 % der Daten sind kleiner gleich und 10 % der Daten sind größer gleich diesem Wert.

Answer 31

Für die Berechnung der Quantile existieren unterschiedliche Berechnungsmethoden

Answer 32

Sie ist mehr als das 1.5-fache des IQR vom 3. Quartil entfernt.

Answer 33

Der Abstand zum 3. Quartil ist größer als das 3-fache des IQR.

Answer 34

Wir sollten uns an dieser Stelle fragen, ob die Ausreißer bedenklich sind, ob sie also plausibel sind oder ob es sich um Eingabefehler handelt.

Answer 35

eignen sich besonders gut dazu Eingabefehler aufzuspüren

Answer 36

lassen sich von Ausreißern deutlich weniger stark beeinflussen.

Answer 37

– Median – Unteres Quartil, oberes Quartil und Interquartilsdistanz

Answer 38

– Minimum, Maximum, Spannweite – Mittelwert, Standardabweichung und Varianz

Answer 39

Es ist durchaus plausibel, dass es Studierende gibt, die 28 oder 33 Jahre alt sind, also sind die Ausreißer nicht bedenklich. • Ein Beispiel für einen häufigen Eingabefehler: Einige Körpergrößen werden in m statt in cm eingegeben. – Das hat Auswirkungen auf den Body Maß Index (BMI), der sich unter anderem aus der Größe bestimmt.

Answer 40

Körpergröße und Alter sind quantitative Merkmale. • Quantitative Merkmale lassen sich messen, zählen oder wiegen, sie sind metrisch skaliert. • Quantitative Merkmale können diskret oder stetig sein

Answer 41

: Es gibt wenig unterschiedliche bzw. abzählbar viele Ausprägungen (Anzahlen allgemein, Lebensjahre)

Answer 42

: Es gibt viele unterschiedliche bzw. überabzählbar viele Ausprägungen (Körpergröße, Nettoeinkommen)

Answer 43

Bei der Erstellung von Grafiken kann es jedoch ratsam sein, sich diese Unterscheidung in Erinnerung zu rufen.

Answer 44

Im Gegensatz zu ordinalskalierten Merkmalen können bei metrisch skalierten Merkmalen Differenzen sinnvoll interpretiert werden.

Answer 45

Es ist nicht klar, wie stark sich die Leistung von zwei Studierenden unterscheidet, die einen 4er bzw. 5er haben

Answer 46

– Der Punkteunterschied zweier Studierender lässt sich sinnvoll interpretieren

Answer 47

Zur Bestimmung der Symmetrieeigenschaft einer Verteilung eignet sich die Schiefe

Answer 48

Als Referenz zur optischen Beurteilung, ob Daten symmetrisch um den Mittelwert verteilt sind, dient oftmals die Normalverteilung. • Die Normalverteilung ist symmetrisch.

Answer 49

Zur Interpretation der Schiefe den Boxplot (in Gedanken) um 90 Grad im Uhrzeigersinn drehen Die Verteilung ist rechtsschief. • Die beiden Ausreißer Wie alt sind Sie? Interpretation des Boxplots (Nr. 17 und 23), sind wiederum nicht bedenklich.

Deskriptive Statistik Flashcards

(88 cards)