Statistik Grundlagen Flashcards

Question 1

Q

Zwei Beispiele für deskriptive Statistik

Answer

A

Von den 2000 befragten SchülerInnen möchten 19.8% eine Mittelschule beginnen.

Eine Gruppe von 30 Studierenden stuft die Qualität der Lehrveranstaltung A im Durchschnitt höher ein als diejenige der Lehrveranstaltung B.

Question 2

Q

Zwei Beispiele für Inferenzstatistik (induktive bzw. schliessende Statistik)

Answer

A

Aus den Ergebnissen von 2000 befragten SchülerInnen einer Zufallsstichprobe ist zu schliessen, dass der Anteil von SchülerInnen in der gesamten Population, die eine Mittelschule beginnen, zwischen 19.2 und 20.4% beträgt.

Aus den Angaben von 30 Studierenden ist zu schliessen, dass die Qualität von Lehr- veranstaltung A bei Studierenden im Allgemeinen höher eingestuft wird als jene von Lehrveranstaltung B. Die Streuung der mittleren Einschätzung der Qualität der Lehrveranstaltungen ist dabei umso grösser, je kleiner Stichproben sind.

Question 3

Q

Beschreibung von “Univariat”

Answer

A

Verteilung der Werte einer einzelnen Variable.

Question 4

Q

Beschreibung von “Bivariat”

Answer

A

Verteilungen zweier Variablen sowie die Beziehungen zwischen den beiden Variablen.

Question 5

Q

Multivariat

Answer

A

Verteilungen von drei und mehr Variablen sowie das Muster der Beziehungen zwischen diesen Variablen.

Question 6

Q

Operationalisierung

Answer

A

Verknüpfung von theoretischen Begriffen (Konstrukten) mit empirisch beobachtbaren Sachverhalten durch Korrespondenzregeln.

Bsp: Die Bildungsentscheidung wird mit einer Frage erfasst.

Question 7

Q

Korrespondenzregeln

Answer

A

Ergeben sich aus Korrespondenzhypothesen. Vermutungen hinsichtlich der beobachtbaren Sachverhalte aus theoretischen Argumenten oder Begriffen.

Bsp: Es ist anzunehmen, dass Männer öfter Actionfilme schauen als Frauen.

Question 8

Q

Messung

Answer

A

Die Anwendung von Korrespondenzregeln.

Question 9

Q

Latente Variablen

Answer

A

Nicht direkt messbare Variablen.

Question 10

Q

Manifeste Variablen

Answer

A

Direkt messbare Variablen.

Question 11

Q

Codierung, Codeplan / Codebuch

Answer

A

Die Regeln der Zuordnung von Zahlen zu den Antworten der Befragten erfolgen anhand diesem.

Question 12

Q

Datenmatrix

Answer

A

Die Tabelle in der die Daten einer Erhebung liegen. Pro Beobachtung eine Zeile, pro Variable eine Spalte.

Question 13

Q

Missing Values

Answer

A

Fehlende Werte einer Beobachtung.

Question 14

Q

Listwise deletion

Answer

A

Fälle, die fehlende Werte aufweisen, bleiben bei diesem Vorgehen unberücksichtigt.

Question 15

Q

Missing at random, MAR

Answer

A

Die Annahme, dass fehlende Werte zufällig auftreten.

Question 16

Q

Dichotome Variable

Answer

A

Eine Variable, die nur zwei Ausprägungen hat. Z.B. female/male.

Question 17

Q

Kategoriale Variable

Answer

A

Eine Variable, die mehrere Ausprägungen hat.

Z.B. 1 = Berufsausbildung, 2 = Mittelschule, 3 = Zwischenjahr

Question 18

Q

Diskrete Variable

Answer

A

Variablen, die eine endliche (bei Zähldaten: abzählbar unendliche) Anzahl von Ausprägungen annehmen können.

Z.B. Anzahl Geschwister.

Question 19

Q

Stetige Variable (auch kontinuierlich)

Answer

A

Eine Variable, die theoretisch beliebig fein abgestuft werden kann.

Z.B. Körpergrösse, Zeit, Gewicht.

Question 20

Q

Quasi stetige Variable

Answer

A

Eine Variable die eigentlich stetig ist, aber nur diskret gemessen wird.

Z.B. Monatseinkommen wird gerundet erhoben.

Question 21

Q

Gruppieren / Kategorisieren einer Variable

Answer

A

Anstelle der exakten Werte werden die Informationen für die Zuordnung in bestimmte Intervalle verwendet.

Z.B. Quasi stetig erhobenes Einkommen wird in verschiedenen Kategorien (0-1999 CHF, 2000-3999 CHF, etc.) gruppiert.

Question 22

Q

Nominalskalenniveau

Answer

A

Dieses Skalenniveau enthält ausschliesslich Information darüber, ob es sich um gleiche oder ungleiche Ausprägungen handelt. Bei Transformationen muss die Gleichheit oder Verschiedenheit von Zuordnungen gewahrt werden.

Bsp.: Geschlecht (female), Nationalität, Zivilstand, etc.

Question 23

Q

Ordinalskalenniveau

Answer

A

Dieses Skalenniveau enthält ergänzend Information über ein ‹Mehr› bzw. ‹Weniger› des Ausmasses einer Eigenschaft, d.h. die Ausprägungen können in eine Rangfolge gebracht werden. Bei Transformationen muss die Rangreihenfolge bewahrt werden.

Bsp.: Schulnoten, Berufsprestige Intensität einer Einstellung oder Bewertung.

Question 24

Q

Intervallskalenniveau

Answer

A

Dieses Skalenniveau erlaubt die inhaltliche Interpretation der Abstände zwischen einzelnen Werten einer Variable zulässig, wobei die Intervallgrösse (Einheit) und der Nullpunkt beliebig sind. Alle positiven linearen Transformationen sind zulässig (Nullpunkt b und Einheit a sind frei wählbar, die Vergleichbarkeit der Intervalle bleibt erhalten): y = ax + b mit a > 0.

Bsp.: Temperatur in Grad Celsius, d.h. es gilt dass der Temperaturunterschied von 0° C zu 10° C ist gleich gross wie derjenige von 10° C zu 20° C

Question 25

Q

Ratio- oder Proportionalskalenniveau

Answer

A

Dieses Skalenniveau wird auch mit Verhältnisskala bezeichnet und weist ergänzend zum Intervallskalenniveau einen natürlichen Nullpunkt auf, d.h. einzig die Einheiten sind frei wählbar. Nur positiv proportionale Transformationen sind zulässig (Wahl der Einheiten a): y = ax mit a > 0.

Bsp.: Körpergrösse: Kind A ist halb so gross wie Kind B; Einkommen: Person X verdient zweieinhalb Mal so viel wie Person Y

Question 26

Q

Absolutskalenniveau

Answer

A

Dieses Skalenniveau besitzt einen natürlichen Nullpunkt und feste Einheiten. Keine bzw. nur identitätsbewahrende Transformationen sind erlaubt: y = x.

Bsp.: Häufigkeiten (Kinderzahl, Anzahl bis eine 5 gewürfelt wird) und Wahr- scheinlichkeiten

Question 27

Q

Formel für relative Häufigkeit und Beschreibung der Komponenten.

Question 28

Q

Stata Befehl um ein Label mit dem Namen “gender” so zu definieren, dass die Ausprägung 1 mit “female” und die Ausprägung 0 mit “male” gelabelt wird.

Answer

A

label define gender 1 “female” 0 “male”

Question 29

Q

Formel für die kumulierte Häufigkeit und Beschreibung der Komponenten.

Question 30

Q

Stata Befehl um den Werten 1 und 2 der Variablen “memory” den Wert 1, den Werten 3 bis 5 den Wert 2 und dem Wert 6 den Wert 3 zuzuweisen und in der neu generierten Variable memory2 abzuspeichern.

Answer

A

recode memory (1/2 = 1) (3/5 = 2) (6 = 3), gen(memory2)

Question 31

Q

Wie berechnet man die Varianz?

Answer

A

Man summiert das Quadrat aller Abweichungen einer Variablen zum Mittelwert und teilt durch die Anzahl Fälle.

Question 32

Q

Wie berrechnet man die Standartabweichung?

Answer

A

Es ist die Wurzel der Varianz. Somit die Wurzel aus der Summe der Quadrate der Abweichungen einer Ausprägung zum Mittelwert dividiert durch die Anzahl Fälle minus 1.

Question 33

Q

Stichprobenvarianz

Answer

A

Sie versucht sich der Varianz in der Population anzunähern, indem nicht durch die Anzahl Fälle, sondern durch einen Fall weniger dividiert wird. So fällt sie ein wenig grösser aus. Dies soll dem Fakt Rechnung tragen, dass selten vorkommende Extremwerte in einer Stichprobe seltener vorkommen und so die Varianz in einer Stichprobe tendenziell zu klein rauskommt.

Question 34

Q

Statabefehl für das Erstellen einer Verteilungsfunktion basierend auf der Variable “Wissen”

Answer

A

cumul Wissen, gen(cum_Wissen)

sort cum_Wissen

line cum_Wissen Wissen, connect(stairstep) ///

ytitle(F(x)) xtitle(Wissen (x)) ///

graphregion(color(white))

Question 35

Q

Quantil, Quantilanteil (alpha), Quantilwert

Answer

A

Quantile Q teilen entsprechend eine Verteilung jeweils in zwei Teilmengen, wobei der Quantilanteil α denjenigen Anteil angibt, der im unteren Teilbereich der Verteilung liegt, während der Quantilwert Q α der Trennstelle entspricht.

Question 36

Q

Quantilwert bei ungruppierten Häuﬁgkeitsverteilungen

Answer

A

Auf ungruppierten Daten basierende Häuﬁgkeitsverteilungen erlauben das direkte Ablesen von diesen: Der Wert entspricht derjenigen Ausprägung, bei welcher in der Spalte der kumulierten Prozentwerte ein vorgegebener Anteil erstmals erreicht oder überschritten wird.

Question 37

Q

Quantile bei geordneten Häuﬁgkeitsverteilungen

Question 38

Q

Problem mit Quantilswert bei gruppierten Daten

Answer

A

Das Problem ist, dass er irgendwo innerhalb eine Gruppe sein kann (z.B. Einkommensgruppe 300-1000Fr).

Per Interpolation kann dann unter Annahme gleichmässiger Verteilung der Beobachtungen innerhalb der Gruppe, der Quantilswert geschätzt werden. (z.B. 723 Fr)

Question 39

Q

50% Quantil

Answer

A

Bei welchem Wert liegt ungefähr die Mitte der Verteilung?

Question 40

Q

Skalenniveau für Quantile

Answer

A

Mindestens ordinales, besser metrisches Skalennivau dafür.

Question 41

Q

Quartile

Answer

A

Q1, Q2, Q3 - 25%, 50%, 75%

Question 42

Q

Wie Quartile aber in 10er Schritten

Answer

A

Dezentile

Question 43

Q

Wie Quartile aber in 1er Schritten

Answer

A

Perzentile

Question 44

Q

Stabdiagramm

Question 45

Q

Kern-Dichte-Schätzer mit verschiedenen Bandbreiten

Question 46

Q

Box-Plot

Question 47

Q

Histogramm

Question 48

Q

In der Box des Boxplots

Answer

A

50% aller Beobachtungen sind da drin.

Question 49

Q

Anfang und Ende der Box des Box-Plots

Answer

A

Ihr Anfang ist beim Q1 und ihr Ende beim Q3

Question 50

Q

Der Strich in der Mitte des Box-Plots

Answer

A

Der Median schneidet dort die Verteilung in zwei Hälften 50/50

Question 51

Q

Die Linien links und rechts vom Box-Plot

Answer

A

Whiskers oder Zaun. Kann xmax/xmin sein oder auch Q1 - 1.5 x IQR und Q3 + 1.5 x IQR.

Question 52

Q

Punkte im Box-Plot

Answer

A

Extremwerte die mehr als Q1 - 1.5 x IQR und Q3 + 1.5 x IQR entfernt sind.

Question 53

Q

Symmetrische Verteilung

Question 54

Q

Asymmetrische Verteilung

Question 55

Q

Unimodale Verteilung

Question 56

Q

Multimodale Verteilung

Question 57

Q

Schmalgipflige Verteilung

Question 58

Q

Breitgipflige Verteilung

Question 59

Q

Linksteile / Rechtsschiefe Verteilung

Question 60

Q

Rechtssteile / Linksschiefe Verteilung

Question 61

Q

U-förmige Verteilung

Question 62

Q

Abfallende Verteilung

Question 63

Q

Balkendiagramm

Question 64

Q

Säulendiagramm

Answer 46

A

Der am häufigsten auftretende Wert in der Verteilung einer Variablen

Answer 47

A

fre Wissen

Answer 48

A

fre isei08

dann schaut man welche Ausprägung die höchste Zahl unter “freq” hat und findet so…

Answer 49

A

label values Geschlecht Gender

Answer 50

A

Er teilt die nach der Grösse geordneten Daten in der Mitte. 50% der Daten liegen darüber, 50% der Daten darunter.

Answer 51

A

Er kann nicht exakt bestimmt werden. Bei ordinal skalierten Daten wird die Klasse angegeben in welcher die kummulierte Häufigkeit erstmals mindestens 50% erreicht. Bei metrisch skalierten Daten per linerarer Interpolation anhand der Grenzen der Klasse.

Answer 52

A

Es wird der Mittelwert aus den Mittelwerten der Klassen gebildet.

Answer 53

A

Klassen.

Sie sind die neu gebildeten “Bereiche” einer Ausprägung.

Answer 54

A

Schwerpunkt, symmetrisch.

Qualitätseigenschaft, quadrierte Abweichungen

Transformationsregel, kann linear transformiert werden

Robustheit, nicht robust gegen Ausreisser

Answer 55

A

ein bestimmter Prozentsatz der Beobachtungen am oberen und am unteren Ende werden für die Berrechnung davon ausgeschlossen.

Answer 56

A

trimmean Katzen, p(10)

Answer 57

A

x_max- x_min

x = Wert der Realisierung

Answer 58

A

Differenz zwischen dem ersten und dritten Quartil. (25%, 75%)

Answer 59

A

tabstat V1 V2 V3, statistics(q iqr)

Answer 60

A

summarize Katzen, detail

(legt diverse Daten in r( … ) ab. Können mit “return list” angezeigt werden.)

Answer 61

A

Die Summe der Beträge (ohne Vorzeichen) aller Abweichungen vom Mittelwert dividiert durch die Anzahl Fälle.

Answer 62

A

quietly sum Katzen

scalar AnzF = r(N)

Answer 63

A

Die Summe der Quadrate der Abweichungen einer Realisation vom Mittelwert.

Answer 64

A

Die Wurzel aus der Varianz

Answer 65

A

Gewichtetes Arithmetisches Mittel, dann Varianz

Answer 66

A

Der Mittelwert wird aus den Klassenmitten gebildet.

Die Abweichung einer Klassenmitte zum Mittelwert wird quadriert und dann mit der Anzahl Fälle der Klasse multipliziert.

Dies für jede Klasse. Alle Ergebnisse werden summiert und durch die Anzahl Fälle dividiert.

Answer 67

A

in x +/- s liegen 68% aller Daten

in x +/- 2s liegen 95.5% aller Daten

in x +/- 3s liegen 99.7% aller Daten

Answer 68

A

Sie wird mit dem Quadrat des Gewichts der Transformation multipliziert. Die Konstante hat keinen Einfluss dabei.

Answer 69

A

Sie wird mit dem Gewicht (ohne Vorzeichen) der Transformation multipliziert.

Die Konstante hat keinen Einfluss dabei.

Answer 70

A

Der Wertebereich einer Variablen wird so verschoben, dass der Mittelwert 0 ist.

Answer 71

A

Eine Variable wird so transformiert, dass die Varianz und die Standardabweichung den Wert 1 annehmen.

Answer 72

A

Eine Variable wird zentriert und normiert.

Answer 73

A

tabulate, m

fre