Statistik Grundlagen Flashcards

1
Q

Zwei Beispiele für deskriptive Statistik

A

Von den 2000 befragten SchülerInnen möchten 19.8% eine Mittelschule beginnen.

Eine Gruppe von 30 Studierenden stuft die Qualität der Lehrveranstaltung A im Durchschnitt höher ein als diejenige der Lehrveranstaltung B.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Zwei Beispiele für Inferenzstatistik (induktive bzw. schliessende Statistik)

A

Aus den Ergebnissen von 2000 befragten SchülerInnen einer Zufallsstichprobe ist zu schliessen, dass der Anteil von SchülerInnen in der gesamten Population, die eine Mittelschule beginnen, zwischen 19.2 und 20.4% beträgt.

Aus den Angaben von 30 Studierenden ist zu schliessen, dass die Qualität von Lehr- veranstaltung A bei Studierenden im Allgemeinen höher eingestuft wird als jene von Lehrveranstaltung B. Die Streuung der mittleren Einschätzung der Qualität der Lehrveranstaltungen ist dabei umso grösser, je kleiner Stichproben sind.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Beschreibung von “Univariat”

A

Verteilung der Werte einer einzelnen Variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Beschreibung von “Bivariat”

A

Verteilungen zweier Variablen sowie die Beziehungen zwischen den beiden Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Multivariat

A

Verteilungen von drei und mehr Variablen sowie das Muster der Beziehungen zwischen diesen Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Operationalisierung

A

Verknüpfung von theoretischen Begriffen (Konstrukten) mit empirisch beobachtbaren Sachverhalten durch Korrespondenzregeln.

Bsp: Die Bildungsentscheidung wird mit einer Frage erfasst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Korrespondenzregeln

A

Ergeben sich aus Korrespondenzhypothesen. Vermutungen hinsichtlich der beobachtbaren Sachverhalte aus theoretischen Argumenten oder Begriffen.

Bsp: Es ist anzunehmen, dass Männer öfter Actionfilme schauen als Frauen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Messung

A

Die Anwendung von Korrespondenzregeln.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Latente Variablen

A

Nicht direkt messbare Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Manifeste Variablen

A

Direkt messbare Variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Codierung, Codeplan / Codebuch

A

Die Regeln der Zuordnung von Zahlen zu den Antworten der Befragten erfolgen anhand diesem.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Datenmatrix

A

Die Tabelle in der die Daten einer Erhebung liegen. Pro Beobachtung eine Zeile, pro Variable eine Spalte.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Missing Values

A

Fehlende Werte einer Beobachtung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Listwise deletion

A

Fälle, die fehlende Werte aufweisen, bleiben bei diesem Vorgehen unberücksichtigt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Missing at random, MAR

A

Die Annahme, dass fehlende Werte zufällig auftreten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dichotome Variable

A

Eine Variable, die nur zwei Ausprägungen hat. Z.B. female/male.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Kategoriale Variable

A

Eine Variable, die mehrere Ausprägungen hat.

Z.B. 1 = Berufsausbildung, 2 = Mittelschule, 3 = Zwischenjahr

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Diskrete Variable

A

Variablen, die eine endliche (bei Zähldaten: abzählbar unendliche) Anzahl von Ausprägungen annehmen können.

Z.B. Anzahl Geschwister.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Stetige Variable (auch kontinuierlich)

A

Eine Variable, die theoretisch beliebig fein abgestuft werden kann.

Z.B. Körpergrösse, Zeit, Gewicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quasi stetige Variable

A

Eine Variable die eigentlich stetig ist, aber nur diskret gemessen wird.

Z.B. Monatseinkommen wird gerundet erhoben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Gruppieren / Kategorisieren einer Variable

A

Anstelle der exakten Werte werden die Informationen für die Zuordnung in bestimmte Intervalle verwendet.

Z.B. Quasi stetig erhobenes Einkommen wird in verschiedenen Kategorien (0-1999 CHF, 2000-3999 CHF, etc.) gruppiert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Nominalskalenniveau

A

Dieses Skalenniveau enthält ausschliesslich Information darüber, ob es sich um gleiche oder ungleiche Ausprägungen handelt. Bei Transformationen muss die Gleichheit oder Verschiedenheit von Zuordnungen gewahrt werden.

Bsp.: Geschlecht (female), Nationalität, Zivilstand, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Ordinalskalenniveau

A

Dieses Skalenniveau enthält ergänzend Information über ein ‹Mehr› bzw. ‹Weniger› des Ausmasses einer Eigenschaft, d.h. die Ausprägungen können in eine Rangfolge gebracht werden. Bei Transformationen muss die Rangreihenfolge bewahrt werden.

Bsp.: Schulnoten, Berufsprestige Intensität einer Einstellung oder Bewertung.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Intervallskalenniveau

A

Dieses Skalenniveau erlaubt die inhaltliche Interpretation der Abstände zwischen einzelnen Werten einer Variable zulässig, wobei die Intervallgrösse (Einheit) und der Nullpunkt beliebig sind. Alle positiven linearen Transformationen sind zulässig (Nullpunkt b und Einheit a sind frei wählbar, die Vergleichbarkeit der Intervalle bleibt erhalten): y = ax + b mit a > 0.

Bsp.: Temperatur in Grad Celsius, d.h. es gilt dass der Temperaturunterschied von 0° C zu 10° C ist gleich gross wie derjenige von 10° C zu 20° C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Ratio- oder Proportionalskalenniveau

A

Dieses Skalenniveau wird auch mit Verhältnisskala bezeichnet und weist ergänzend zum Intervallskalenniveau einen natürlichen Nullpunkt auf, d.h. einzig die Einheiten sind frei wählbar. Nur positiv proportionale Transformationen sind zulässig (Wahl der Einheiten a): y = ax mit a > 0.

Bsp.: Körpergrösse: Kind A ist halb so gross wie Kind B; Einkommen: Person X verdient zweieinhalb Mal so viel wie Person Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Absolutskalenniveau

A

Dieses Skalenniveau besitzt einen natürlichen Nullpunkt und feste Einheiten. Keine bzw. nur identitätsbewahrende Transformationen sind erlaubt: y = x.

Bsp.: Häufigkeiten (Kinderzahl, Anzahl bis eine 5 gewürfelt wird) und Wahr- scheinlichkeiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Formel für relative Häufigkeit und Beschreibung der Komponenten.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Stata Befehl um ein Label mit dem Namen “gender” so zu definieren, dass die Ausprägung 1 mit “female” und die Ausprägung 0 mit “male” gelabelt wird.

A

label define gender 1 “female” 0 “male”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Formel für die kumulierte Häufigkeit und Beschreibung der Komponenten.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Stata Befehl um den Werten 1 und 2 der Variablen “memory” den Wert 1, den Werten 3 bis 5 den Wert 2 und dem Wert 6 den Wert 3 zuzuweisen und in der neu generierten Variable memory2 abzuspeichern.

A

recode memory (1/2 = 1) (3/5 = 2) (6 = 3), gen(memory2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Wie berechnet man die Varianz?

A

Man summiert das Quadrat aller Abweichungen einer Variablen zum Mittelwert und teilt durch die Anzahl Fälle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Wie berrechnet man die Standartabweichung?

A

Es ist die Wurzel der Varianz. Somit die Wurzel aus der Summe der Quadrate der Abweichungen einer Ausprägung zum Mittelwert dividiert durch die Anzahl Fälle minus 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Stichprobenvarianz

A

Sie versucht sich der Varianz in der Population anzunähern, indem nicht durch die Anzahl Fälle, sondern durch einen Fall weniger dividiert wird. So fällt sie ein wenig grösser aus. Dies soll dem Fakt Rechnung tragen, dass selten vorkommende Extremwerte in einer Stichprobe seltener vorkommen und so die Varianz in einer Stichprobe tendenziell zu klein rauskommt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Statabefehl für das Erstellen einer Verteilungsfunktion basierend auf der Variable “Wissen”

A

cumul Wissen, gen(cum_Wissen)

sort cum_Wissen

line cum_Wissen Wissen, connect(stairstep) ///

ytitle(F(x)) xtitle(Wissen (x)) ///

graphregion(color(white))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Quantil, Quantilanteil (alpha), Quantilwert

A

Quantile Q teilen entsprechend eine Verteilung jeweils in zwei Teilmengen, wobei der Quantilanteil α denjenigen Anteil angibt, der im unteren Teilbereich der Verteilung liegt, während der Quantilwert Q α der Trennstelle entspricht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Quantilwert bei ungruppierten Häufigkeitsverteilungen

A

Auf ungruppierten Daten basierende Häufigkeitsverteilungen erlauben das direkte Ablesen von diesen: Der Wert entspricht derjenigen Ausprägung, bei welcher in der Spalte der kumulierten Prozentwerte ein vorgegebener Anteil erstmals erreicht oder überschritten wird.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Quantile bei geordneten Häufigkeitsverteilungen

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Problem mit Quantilswert bei gruppierten Daten

A

Das Problem ist, dass er irgendwo innerhalb eine Gruppe sein kann (z.B. Einkommensgruppe 300-1000Fr).

Per Interpolation kann dann unter Annahme gleichmässiger Verteilung der Beobachtungen innerhalb der Gruppe, der Quantilswert geschätzt werden. (z.B. 723 Fr)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

50% Quantil

A

Bei welchem Wert liegt ungefähr die Mitte der Verteilung?

40
Q

Skalenniveau für Quantile

A

Mindestens ordinales, besser metrisches Skalennivau dafür.

41
Q

Quartile

A

Q1, Q2, Q3 - 25%, 50%, 75%

42
Q

Wie Quartile aber in 10er Schritten

A

Dezentile

43
Q

Wie Quartile aber in 1er Schritten

A

Perzentile

44
Q

Stabdiagramm

A
45
Q

Kern-Dichte-Schätzer mit verschiedenen Bandbreiten

A
46
Q

Box-Plot

A
47
Q

Histogramm

A
48
Q

In der Box des Boxplots

A

50% aller Beobachtungen sind da drin.

49
Q

Anfang und Ende der Box des Box-Plots

A

Ihr Anfang ist beim Q1 und ihr Ende beim Q3

50
Q

Der Strich in der Mitte des Box-Plots

A

Der Median schneidet dort die Verteilung in zwei Hälften 50/50

51
Q

Die Linien links und rechts vom Box-Plot

A

Whiskers oder Zaun. Kann xmax/xmin sein oder auch Q1 - 1.5 x IQR und Q3 + 1.5 x IQR.

52
Q

Punkte im Box-Plot

A

Extremwerte die mehr als Q1 - 1.5 x IQR und Q3 + 1.5 x IQR entfernt sind.

53
Q

Symmetrische Verteilung

A
54
Q

Asymmetrische Verteilung

A
55
Q

Unimodale Verteilung

A
56
Q

Multimodale Verteilung

A
57
Q

Schmalgipflige Verteilung

A
58
Q

Breitgipflige Verteilung

A
59
Q

Linksteile / Rechtsschiefe Verteilung

A
60
Q

Rechtssteile / Linksschiefe Verteilung

A
61
Q

U-förmige Verteilung

A
62
Q

Abfallende Verteilung

A
63
Q

Balkendiagramm

A
64
Q

Säulendiagramm

A
65
Q

Modus / Modalwert (mode)

A

Der am häufigsten auftretende Wert in der Verteilung einer Variablen

66
Q

Stata Befehl um alle Ausprägungen der Variablen “Wissen” sowie wie deren Häufigkeit absolut und prozentual für alle und nur die validen Werte anzuzeigen.

A

fre Wissen

67
Q

Stata Befehl mit dem man am schnellsten den Modus der Variablen isei08 findet

A

fre isei08

dann schaut man welche Ausprägung die höchste Zahl unter “freq” hat und findet so…

68
Q

Stata Befehl um der Variable “Geschlecht” das label “Gender” zuzuordnen.

A

label values Geschlecht Gender

69
Q

Median

A

Er teilt die nach der Grösse geordneten Daten in der Mitte. 50% der Daten liegen darüber, 50% der Daten darunter.

70
Q

Median berechnen in einer Liste mit einer geraden Anzahl Fälle.

A
71
Q

Median bei gruppierten Daten

A

Er kann nicht exakt bestimmt werden. Bei ordinal skalierten Daten wird die Klasse angegeben in welcher die kummulierte Häufigkeit erstmals mindestens 50% erreicht. Bei metrisch skalierten Daten per linerarer Interpolation anhand der Grenzen der Klasse.

72
Q

Stata Befehl um die Quartile sowie deren Mittelpunkte (Median) auszugeben. Zudem kleinste und höchste Ausprägung, Mittel, Anzahl Fälle, und Standartabweichung.

A

GSUM

73
Q

Das arithmetische Mittel (mean) in gruppierten Häufigkeitstabellen.

A

Es wird der Mittelwert aus den Mittelwerten der Klassen gebildet.

74
Q

Daten werden gruppiert und die einzelnen Gruppen nennt man auch…

A

Klassen.

Sie sind die neu gebildeten “Bereiche” einer Ausprägung.

75
Q

Eigenschaften des arithmetischen Mittels

A

Schwerpunkt, symmetrisch.

Qualitätseigenschaft, quadrierte Abweichungen

Transformationsregel, kann linear transformiert werden

Robustheit, nicht robust gegen Ausreisser

76
Q

getrimmtes arithmetisches Mittel

A

ein bestimmter Prozentsatz der Beobachtungen am oberen und am unteren Ende werden für die Berrechnung davon ausgeschlossen.

77
Q

Stata Befehl um die oberen und unteren 10% der Beobachtungen einer Variablen “Katzen” für die Berrechnung des Mittels wegzulassen.

A

trimmean Katzen, p(10)

78
Q

Spannweite

A

xmax - xmin

x = Wert der Realisierung

79
Q

Quartilabstand (IQR)

A

Differenz zwischen dem ersten und dritten Quartil. (25%, 75%)

80
Q

Stata Code um Quartile und IQR von drei Variablen (V1, V2, V3) anzeigen zu lassen.

A

tabstat V1 V2 V3, statistics(q iqr)

81
Q

Stata Befehl Quartile, Percentile, Mittel, Standartabweichung, Varianz der Variable “Katzen” anzeigen zu lassen.

(Was macht dieser Befehl im Hintergrund?)

A

summarize Katzen, detail

(legt diverse Daten in r( … ) ab. Können mit “return list” angezeigt werden.)

82
Q

Mittlere absolute Abweichung

A

Die Summe der Beträge (ohne Vorzeichen) aller Abweichungen vom Mittelwert dividiert durch die Anzahl Fälle.

83
Q

Stata Befehle um eine Scalar Variable “AnzF” mit dem Wert der Anzahl Fälle der Variable “Katzen” zu bilden.

A

quietly sum Katzen

scalar AnzF = r(N)

84
Q

Beschreibung der Variation

A

Die Summe der Quadrate der Abweichungen einer Realisation vom Mittelwert.

85
Q

Standardabweichung

A

Die Wurzel aus der Varianz

86
Q

Berechnung von Standardabweichung und Varianz aus Häufigkeitstabelle.

A

Gewichtetes Arithmetisches Mittel, dann Varianz

87
Q

Berechnung der Varianz bei klassierten Daten.

A

Der Mittelwert wird aus den Klassenmitten gebildet.

Die Abweichung einer Klassenmitte zum Mittelwert wird quadriert und dann mit der Anzahl Fälle der Klasse multipliziert.

Dies für jede Klasse. Alle Ergebnisse werden summiert und durch die Anzahl Fälle dividiert.

88
Q

Ein Merkmal ist normalverteilt

A

in x +/- s liegen 68% aller Daten

in x +/- 2s liegen 95.5% aller Daten

in x +/- 3s liegen 99.7% aller Daten

89
Q

Transformation von Varianz

A

Sie wird mit dem Quadrat des Gewichts der Transformation multipliziert. Die Konstante hat keinen Einfluss dabei.

90
Q

Transformation der Standardabweichung

A

Sie wird mit dem Gewicht (ohne Vorzeichen) der Transformation multipliziert.

Die Konstante hat keinen Einfluss dabei.

91
Q

Zentrierung

A

Der Wertebereich einer Variablen wird so verschoben, dass der Mittelwert 0 ist.

92
Q

Normierung

A

Eine Variable wird so transformiert, dass die Varianz und die Standardabweichung den Wert 1 annehmen.

93
Q

Standartisierung

A

Eine Variable wird zentriert und normiert.

94
Q

Zwei Stata Befehle für eine Univariate Häufigkeitsverteilung für kategoriale und ordinalskalierte Variablen.

A

tabulate, m

fre

95
Q

Symbole für arithmetisches Mittel, Standardabweichung und Varianz für Masszahlen, Parameter und Schätzer

A