Teilprüfung 1 Flashcards

1
Q

Was ist eine Urliste

A

Ungeordnete Auflistung aller vorhandenen Daten

In der Tabelle:
Eine Spalte entspricht einer Variablen.
Eine Zeile entspricht einem Objekt.

Sie beinhaltet die gemessenen Variablenwerte eines einzelnen Objekts. Die Werte einer Zeile nennt man auch Datensatz.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist der Unterschied zwischen Grundgesamtheit und Stichprobe (Teilgesamtheit)?

A

Eine Grundgesamtheit (Population) umfasst eine bestimmte Menge von Objekten.

Werden Teile einer Grundgesamtheit in eine eigene Menge gepackt ist es eine Teilgesamtheit.
-> Selektion bestimmter Zeilen aus der Urliste
Spaltenname (Merkmale) bleiben unverändert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Welche Skalen gibt es?

A

Intervallskala:
Es gibt keinen natürlichen Nullpunkt. Jedoch lassen sich die Unterschiede messen; beispielsweise eine in Celsius gemessene Temperatur: 6 Grad ist nicht doppelt so warm wie 3 Grad. Aber der Temperaturunterschied von 6 auf 3 Grad Celsius ist genauso groß wie von 44 auf 41 Grad.

Verhältnisskala:
Es gibt einen natürlichen Nullpunkt.
Beispiele: Gewicht, Bargeld, Volumen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Welche Variablen gibt es?

A

qualitative Variable:

quantitative Variable:
Hierbei unterscheidet man:
diskret:
stetig:

nominale Variable:

ordinale Variable

metrische Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was ist die qualitative Variable?

A

qualitative Variable:
Sie wird auch artmäßiges Merkmal genannt.

Beispiele: Farbe, Postleitzahl, Stadtteil, Zustand, Steuerklasse, Geschlecht, Familienstand.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

quantitative Variable

A

quantitative Variable:
Sie wird auch zahlmäßiges Merkmal genannt. Hierbei unterscheidet man:

diskret:
Es können nur bestimmte, separate Werte angenommen werden.
Beispiele:
Anzahl Kinder pro Familie, Eintrittspreis im Theater, Anzahl der Krankmeldungen an einem Tag.

stetig:
Die Werte sind auf einer kontinuierlichen Skala darstellbar.
Das heißt, dass zwischen zwei Merkmalswerten unendlich viele weitere Werte denkbar wären. Ist auf beliebig viele Nachkommastellen messbar
Beispiel: Volumen, Gewicht, Zeit, Länge, Temperatur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

nominale Variable:

A

Es gibt keine natürliche Ordnung, wie zum Beispiel bei dem Merkmal Farbe mit den Merkmalswerten rot, gelb, blau, grün

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

ordinale Variable:

A

Es gibt eine Rangfolge bzw. Ordnung unter den Werten der Variablen, wie zum Beispiel bei der Variablen Zustand: sehr gut, gut, normal, schlecht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

metrische Variable:

A
  • quantitative Variablen
  • besitzen eine Ordnung und man kann nicht nur sagen das ein Wert größer ist als ein anderen sondern auch wie groß der Abstand zwischen den Werten ist

Unterschieden wird zwischen:

Intervallskala:
Es gibt keinen natürlichen Nullpunkt. Jedoch lassen sich die Unterschiede messen; beispielsweise eine in Celsius gemessene Temperatur: 6 Grad ist nicht doppelt so warm wie 3 Grad. Aber der Temperaturunterschied von 6 auf 3 Grad Celsius ist genauso groß wie von 44 auf 41 Grad.

Verhältnisskala:
Es gibt einen natürlichen Nullpunkt. Beispiele: Gewicht, Bargeld,
Volumen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind absolute Häufigkeiten?

A

ist die absolute Anzahl, wie oft ein Ereignis bei einem Experiment auftritt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind relative Häufigkeiten?

A

Die relative Häufigkeit gibt den Anteil am Stichprobenumfang an, mit der ein Merkmal auftritt.

Die relative Häufigkeit wird mithilfe der absoluten Häufigkeit berechnet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was sind kumulierte Häufigkeiten?

A

auch Summenhäufigkeit,

gibt die Häufigkeit an, dass ein Merkmal kleiner gleich einem bestimmten Wert k ist.

Es handelt sich also um die Summe aus der Häufigkeit dieses Werts mit den Häufigkeiten aller Werte darunter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie kann man die absolute Häufigkeit darstellen?

A

in ganzen Zahlen

Bsp. Vierfeldertafel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie kann man die relative Häufigkeit darstellen?

A

als Prozent oder in ganzen Zahlen

Bsp. Balkendiagramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie kann man die kumulierte Häufigkeit darstellen?

A

als Prozent oder in ganzen Zahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind Säulen-, Stab-, Balkendiagramme?

A

grafischen Darstellung der Häufigkeit von Ausprägungen beliebig skalierter Merkmale

absolute/relative Häufigkeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist die empirische (kumulative) Verteilungsfunktion?

A

Wahrscheinlichkeitsvereilung wird untersucht

Zusammenhang zwischen Zufallsvariable und ihrer Wahrscheinlichkeit wird beschrieben

F(x)=P(X≤x)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

was ist ein Histogramm?

A

eine spezielle Form des Säulendiagramms, wird zur Darstellung von Häufigkeitsverteilungen bei statistischen Daten verwendet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was ist ein Boxplot?

A

besteht aus vier Bereichen

Box hat 50%, diese ist durch den Median getrennt
Striche nach lins oder rechts (oben/unten) haben jeweils 25%

kann sein das neben den Strichen noch Punkte sind da sie nur eine gewisse länge haben dürfen (1.5-Fache des Interquartilsabstandes)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was sind arithmetischer Mittelwert (Mittel)?

A

ist ein Lageparameter in der Statistik

wird auch als Durchschnittswert bezeichnet.

Es ist nur bei metrischen Variablen anwendbar.

Berechnet wird er, indem man die Summe aller betrachteten Zahlen durch deren Anzahl teilt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was ist ein getrimmtes Mittel ?

A

ist dem arithmetischen Mittel sehr ähnlich.

Bei ihm wird jedoch ein bestimmter Anteil der größten und kleinsten Stichprobenelemente ignoriert.

Dadurch fallen Stichprobenelemente, die weit vom tatsächlichen Mittelwert entfernt liegen, nicht so stark ins Gewicht.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was ist der Median?

A

Variablenwert,

Teilt Grundgesamtheit in zwei gleich große Hälften.

Dabei liegen in der einen Hälfte die Objekte mit den größeren Variablenwerten und in der anderen Hälfte die Objekte mit den kleineren Variablenwerten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Was sind Ränge?

A

oder auch Rangstatistiken

bezeichnen nach der Größe sortierte Stichproben

kleinste Wert Minimum
größte Wert Maximum

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was sind Quantile?

A

Umkehrfunktion von Rängen

Geeignet sich zur Beantwortung folgender Fragen:
„Größer als welcher Wert sind ein Viertel der Stichprobe?“

Vorhandenen Daten aus der Frage können in zwei Teile getrennt werden

Datensatz muss der größe nach geordnet sein (Ordinalskala)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Was sind Quartile?

A

Quartile vierteln den Datensatz im Gegensatz zu Quantile die ihn nur halbieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Was ist die Varianz?

A

Die Varianz σ2 misst die mittlere quadratische Abweichung vom arithmetischen Mittelwert

Streuungsparameter, inwieweit die Werte um den arithmetischen Mittelwert streuen

Wenig aussagekräftig

empfindlich gegenüber Ausreißern

27
Q

Was ist der Varianzkoeffizient?

A

ist der Quotient aus Standardabweichung und (arithmetischem) Mittelwert

in Prozent angegeben

auch relative Standardabweichung genannt

von Maßeinheiten unabhängig

28
Q

Was ist der Interquartilabstand (IQR)?

A

bildet die Differenz zwischen dem 3.Quartil und dem 1.Quartil eines Datensatzes.

Darin sind die mittleren 50% der Werte des Datensatzes enthalten

29
Q

Was sind unimodale?

A

Verteilungen, die nur ein eindeutiges Maximum auf dem Histogramm zeigt

30
Q

Was sind Bimodale Verteilungen?

A

Verteilungen, die zwei lokale Maxima auf dem Histogramm zeigt

mehrere lokalen Maxima, dann spricht man über eine Multimodale Verteilung

31
Q

Was ist eine symmetrische Verteilung?

A

Eine symmetrische Verteilung liegt vor, wenn die Säulen nahezu symmetrisch um das Zentrum der Verteilung liegen

32
Q

Was ist eine schiefe Verteilungen?

A

Von einer schiefen Verteilung spricht man, wenn sich die Säulen vermehrt nach links oder rechts legen.

Es gibt rechtsschief bzw. linkssteil und linksschief bzw. rechtssteil.

33
Q

Was ist die Gegenwahrscheinlichkeit?

A

Die Wahrscheinlichkeit, dass ein Ereignis nicht eintritt

34
Q

Was ist die klassische Wahrscheinlichkeitsdefinition (‘Laplace-Würfel’)?

A

Die Wahrscheinlichkeit für ein Ereignis E das im Merkmalraum M liegt bei einem Versuch mit endlich vielen Ausgängen die alle gleich wahrscheinlich sind

35
Q

Was ist die geometrische Wahrscheinlichkeitsinterpretation (Venn-Diagramm) ?

A

Sehr leicht veranschaulichen wenn als Merkmalraum einen Teil einer Ebene auszeichnet.

Ereignisse sind dann Teilflächen und die Wahrscheinlichkeit wird als Flächenanteil des Ereignisses am gesamten Merkmalraum aufgefasst

36
Q

Was versteht man unter dem ‘(empirischen) Gesetz der großen Zahlen?

A

Umso häufiger man ein Zufallsexperiment ausführt umso genauer wird die Wahrscheinlichkeit

37
Q

Was ist eine Zufallsgröße (Zufallsvariable)?

A

Wert des Merkmals ist nicht mit Sicherheit anzugeben

38
Q

Was ist eine Verteilungsfunktion?

A

Kumulierte Verteilung (Verteilungsfunktion)

F(x) = P(X ≤ x) =Wahrscheinlichkeit, dass X maximal den Wert x annimmt

39
Q

Was ist die Wahrscheinlichkeitsfunktion (Wahrscheinlichkeitsverteilung)?

A

Für jedes Ereignis wird die Wahrscheinlichkeit angegeben.

nur für diskrete Zufallsvariablen definiert

Hilfsmittel zur Beschreibung einer diskreten Wahrscheinlichkeits­verteilung

40
Q

Was ist die Dichtefunktion?

A

nur für stetige Zufallsvariablen definiert

immer positiv

zeigt in welchen Teilen sich die Werte der Zufallsvariable am dichtesten scharen

Wahrscheinlichkeit eines Ereignisses erhält man aus dem Integral der Dichtefunktion (Fläche unter der Kurve).

41
Q

Wie ist der (theoretische) Mittelwert definiert?

A

Der Erwartungswert einer Zufallsvariablen beschreibt die Zahl, die die Zufallsvariable im Mittel annimmt

ergibt sich als Durchschnitt der Ergebnisse

bestimmt die Lage der Verteilung der Zufallsvariablen

vergleichbar mit dem empirischen arithmetischen Mittel einer Häufigkeitsverteilung in der deskriptiven Statistik

42
Q

Welche Verteilungen sind Beispiele für diskrete Verteilungen?

A

Binomialverteilung

Hypergeometrische Verteilung

Poisson-Verteilung

lassen sich durch eine Wahrscheinlichkeits­funktion oder Verteilungsfunktion beschreiben.

43
Q

Welche Verteilungen sind Beispiele für stetige Verteilungen?

A

Stetige Gleichverteilung

Exponentialverteilung

Normalverteilung

Logarithmische Normalverteilung

Chiquadrat-Verteilung

T-Verteilung

F-Verteilung

lassen sich durch eine Dichtefunktion oder eine Verteilungsfunktion beschreiben

44
Q

Was ist ein QQ-Diagramm?

A

Quantil-Quantil-Diagramm

ein exploratives, grafisches Werkzeug

Quantile zweier statistischer Variablen gegeneinander abgetragen werden, um ihre Verteilungen zu vergleichen

Größe nach geordnet

Wenn Merkmale aus Vergleichsverteilung sind stimmen die empirischen und die theoretischen Quantile annähernd überein d. h. die Werte liegen auf einer Diagonalen.

45
Q

Was versteht man unter dem ‘Zentalen Grenzwertsatz’?

A

befasst sich nicht mit direkten Messwerten, sondern mit Mittelwerten

Wenn man die Mittelwerte verschiedener (verschieden großer) Stichproben nimmt, besagt der zGs, dass die Verteilung der Mittelwerte annähernd normalverteilt sein wird.

bestimmen, wie wahrscheinlich der Mittelwert einer Stichprobe über einem Bestimmten Wert liegt.

46
Q

Was ist Konvergenz?

A

wenn die Folge einen Grenzwert besitzt

Man sagt auch, dass eine Folge gegen a konvergiert, wenn sie den Grenzwert a besitzt.

47
Q

Was ist Divergenz?

A

wenn eine Folge keinen Grenzwert besitzt

48
Q

Was ist eine Nullfolge?

A

Eine Nullfolge ist eine konvergente Folge mit dem Grenzwert 0

49
Q

Was sind die wichtigsten statistischen Prüfverteilungen?

A

Chi-squared-, t-, F-Verteilung

50
Q

Was ist der Chi-Quadrat-Test?

A

statistische Prüfverteilung

ist ein Hypothesentest der dann verwendet werden kann, wenn man feststellen möchte, ob es einen Zusammenhang zwischen zwei, meist kategorischen Variablen gibt

prüft ob sich die in einer Stichprobe vorkommenden Häufigkeit stark von der zu erwartenden Häufigkeit unterscheidet

beobachteten Häufigkeiten werden mit erwarteten Häufigkeiten verglichen:
verändert die Filterung durch ein Merkmal (zB Alter) die Häufigkeit des anderen Merkmals

ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen

einzigen Parameter, nämlich die Anzahl der Freiheitsgrade n.

51
Q

Was ist die T-Veteilung?

A

unterliegende Verteilungsfunktion des t-Tests

sieht aus wie Normalverteilung

3 Kriterien damit T_Verteiling berechnet werden kann:

  1. Die Standardabweichung und damit auch die Varianz der Grundgesamtheit sind nicht bekannt
  2. Die Stichprobe muss zufällig entnommen sein
  3. Stichprobe muss normalverteilt oder annähernd normalverteilt sein oder mindestens 30 Messwerte umfassen
52
Q

Folgende Eigenschaften unterscheiden die t-Verteilung von der Standardnormalverteilung

A

Die Varianz ist größer als 1 bei T-Verteilung

Die t-Verteilung gehört zu einer Gruppe von Verteilungsfunktionen

T-Verteilung ist endlastiger (heavy-tailed) als die Normalverteilung. Das heißt, dass sie eher Werte hervorbringen wird, die weiter vom Mittelwert entfernt liegen

53
Q

Was ist die F-Verteilung?

A

eine Testverteilung, die zu Testzwecken konstruiert wurde

für Varianzvergleich zweier Stichproben aus normalverteilten Grundgesamtheiten

für die Varianzanalyse zum Vergleich auf signifikante Unterschiede bei den Stichprobenmitteln

54
Q

Was versteht man unter Parameterschätzung?

A

Schätzwerte für unbekannte statistische Parameter wie Erwartungswert E(X)=μ und Varianz σ2 der Verteilungsfunktion

55
Q

Was ist der Unterschied zwischen Schätzer (Schätzverfahren, Schätzfunktion) und Schätzung (Schätzwert)?

A

Das Verfahren, dass man anwendet und das, was dabei herauskommt

56
Q

Was sind Konfidenzintervalle? Wozu dienen sie?

A

Konfidenzintervalle definieren einen Bereich in dem sich der „wahre“ Wert des Parameters mit einer gewissen Wahrscheinlichkeit (meist 95 %) befindet

Berechnung durch den Standardfehler zwischen der Stichprobe und der Grundgesamtheit

Konfidenzintervall wird umso kleiner, umso größer die Stichprobe ist

57
Q

Was ist die Überdeckungswahrscheinlichkeit (Konfidenzniveau)?

A

gibt an, mit welcher Wahrscheinlichkeit die Lageschätzung eines statistischen Parameters (zum Beispiel eines Mittelwertes) aus einer Stichprobenerhebung auch für die Grundgesamtheit zutreffend ist

meist wird 90, 95 oder 99% verwendet

Liegt das Konfidenzniveau bei 95 Prozent, heißt dies übersetzt, dass ein statistischer berechneter Wert auf Grundlage einer Stichprobenerhebung mit 95-prozentiger Wahrscheinlichkeit auch für die Grundgesamtheit innerhalb des errechneten Konfidenzintervalls liegt

58
Q

Was versteht man unter der (Null-)Hypothese?

A

Als Nullhypothese bezeichnet man eine bestehende Annahme, deren Aussage statistisch geprüft werden kann

kann meist nicht verifiziert, sondern nur falsifiziert werden

Gilt bis ihr die Fehlerhaftigkeit nachgewiesen werden kann

59
Q

Was versteht man der Alternativhypothese (Gegenhypothese)?

A

Wenn Hypothesen dem gegenwärtigen Wissensstand widersprechen oder ihn ergänzen, spricht man von Gegen- oder Alternativhypothesen

Gegenhypothese zur Alternativhypothese ist die Nullhypothese

60
Q

Was versteht man unter ‘Fehler 1. Art’?

A

Beim Hypothesentesten tritt ein Fehler 1. Art (auch Typ I Fehler, Alphafehler) auf, wenn die Nullhypothese zurückgewiesen wird, auch wenn sie eigentlich wahr ist

Die Wahrscheinlichkeit für Fehler 1. Art ist gleich dem Signifikanzniveau α

in 5 % aller Fälle wird die Nullhypothese zurückgwiesen

61
Q

Was versteht man unter Fehler 2. Art?

A

Nullhypothese wird akzeptiert, auch wenn sie eigentlich falsch ist.

Im Gegensatz zum Fehler 1. Art lässt sich der Fehler 2. Art nur schwer berechnen.

62
Q

Was versteht man unter dem ‘p-Wert (p value)’?

A

Der p-Wert eines Signifikanztests macht eine Aussage darüber, wie hoch die Wahrscheinlichkeit ist, dass die untersuchten Unterschiede alleine auf Zufall beruhen

Wenn für einen Test der gefundene p-Wert kleiner ist als Alpha (p < α), sagt man, das Testergebnis sei statistisch signifikant.
Die Nullhypothese wird verworfen

63
Q

Was versteht man unter unabhängigen / unverbundenen Stichproben?

A

Bei der Analyse von Mittelwertsunterschieden verwendet

Unabhängige Stichproben setzen sich aus voneinander unabhängigen Personen und Messungen zusammen

abhängigen oder auch verbundenen Stichproben sind Datenpaare oder Datengruppen, die zusammengehören und keine statistisch voneinander unabhängigen Messungen darstellen