1 Flashcards

1
Q

Statistik Definition

A

*ein Bild von für jmd. interessanten Teil der Welt machen *Bild so stukturieren, dass es für jmd. aussagekräftig ist *aus Erkenntnissen Schlüsse ziehen, Handlungsanweisungen ableiten,, Erkenntisse kommunizierbar machen a. Statistik ist Wissenschaft von Sammeln, Aufbereiten, Darstellen–> beschreibende Statistik Analysieren, und Interpretieren von Zahlen und Fakten–> schliessende Statistik / beurteilende Statistik b. Eine Statistik in der beschreibenden Statistik Zusammensteleung von Zahlen und Fakten c. im Englishen ist “Statistic” eine Grösse aus gewissen Grunddaten berechnet. -Deckte es Grundgesamtheit ab: “Population” statistic bzw. “Parameter” -bei Stichproben “sample statistic”, “test statistic” bzw. Prüfgröss wenn Grössen Aussagen über Wahrscheinlichkeitsverteilung geben (zum testen von Hyphothesen) d. wird auch als “Lüge” bezeihnet da schwer überpfrüfbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Untersuchungseinheit

A

Objekt mit dem sich Fragestellung beschäftigt (kann jeglicher Träger von Informationen sein)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Grundgesamtheit (Population)

A

Menge gleichartiger Untersuchungseinheiten. Sind genau definiert müssen aber physisch (noch) gar nicht existieren

Stellt alle interessierneden Untersuchungseinheiten dar

Masse: Parameter der grundgesamtheit mit grieschischen Buchstaben notiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Stichprobe

A

Untermenge der Gesamtheit (“Ziehen” der Stichprobe unterliegt dem Zufall). Im Vergleich zur Grundsgesamtheit eher klein

beschränkt und zufällig oder systematisch aus der Population herausgegriffene Untermenge

Masse: Stichprobenvariablen mit lateinischen Buchstaben notiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Merkmal

A

an der Untersuchungseinheit beobachtbare und für Statistik feststellbare Eigenschaft (Farbe einer Blume, Gewicht eines Babys)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Merkmalausprägung

A

bestimmter Wert eines Merkmals z.B rot, 4200gramm

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Beobachtung

A

Bezeichnet Gesamtheit der ermittelten Merkmalausprägungen einer Untersuchungseinheit (z.B bei Personen: Geschlecht, Körpergrösse Körpergewicht, Alter, Schuhgrösse)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Missniveau / Skalenniveau

A

Unterschied der “Messbarkeit” von Merkmalen /Qualität der Messbarkeit (Geschlecht, Grösse, TShirt Grösse)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Skalen Klassifizierungen

A

*Numerische Skalen: 1,2,10,6,7,etc. *Nicht numerische Skalen *Norminalskalen: Einordnung in Klassen, keine natürliche Reihenfolge (Farbe, Nationalität) kann numerisch sein *Ordinalskalen: Einordnung in Klassen mit natüricher Reihnefolge (Tshirt Grössen, Schulnoten) kann numerisch sein *Intervallskalen: Reele Zahlen als Wertebereich, lässt arithmetische Rechenoperationen zu (sinnvole Rechenoperationen Addition und Subtraktion). Kein natürlicher Nullpunkt (Temperaturskale Jahreszahlen nach Christi Geburt) *Verhältnisskalen: erlaub arithmetische Rechenoperationen aller Arten (insbesondere Verhältnisse –> Quotienten zweier Werte). Es existiert ein natürtlicher Nullpunkt (Längen, Gewichte, Geldbeträge) *Metrische Skalen: Oberbegriff Intervall und Verhältnisskalen Merkmale sind qualitativ (Wie) oder quantitativ (Wie viel) beziehen sich auf Merkmale selbst, nich auf die Skalen. Qualitativ: Norminal und Orinalskalen Quantitativ: Intervall und Verhältnisskalen

Metrische Skalen ist Oberbegriff für Intervall und verhältnisskalen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Data Warehouse

A

Unternehmeninterne Datensammlung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Häufigkeitsberechnung

A

Absolute Häufigkeit: Reine Anzahl gezählter Häufigkeit Relative Häufigkeit: Anteil der Merkmalausprägung an der Gesamtzahl Prozentuale Häufigkeit: Prozentwert Relatve Häufigkeit: absolute Häufigkeit / Geasmtzahl der Beobachtungen Prozentuale Häufigkeit: relative Häufigkeit * 100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

kumulierte Häufigkeitsverteilung

A

Hi=Σij=1 hj

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kreuztabelle

A

Für 2 Merkmale geeignet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Diskret und Stetige Merkmale

A

Diskret: wird durch abzählen ermittelt

Stetif: kann unendlich viele Zahlen annehmen, wird nicht durhc Zähen ermittelt (Zeit, Volumen, Gewicht)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Klasseneinteilung der Beobachtungswerte (bei quantitaviven Merkmalen)

A

Wird verwendet wenn die einzelnen Merkmalausprägungen nur einmal und im Ausnahmefall wenige Male vorkommt (z.B. Körpergrösse von Patienten, Temperaturwerte–> bei quantitativen Merkmalen)

x_<150/150x<160/160<x170/170<x180/180<_x

Klassenbreite lässt sich wie folgt berechnen:

Klassenbreite= Maximalwert - Minimalwert / Klassenzahl

Im Anschluss fängt man mit einer runden Zahl unterhalb des kleinsten Wertes an. Es wird dann eventuell eine Klasse mehr geben bzw. wird gerundet. Es wird dann gezählt wie viele Werte in die jeweiligen Klassen kommen und somit hat man die Häufigkeitstabelle.

* Klassen sollten dieselbe Breite haben

(Ausnahmen können erste und letzte Klasse sein)

*Klassengrenzen glatte Zahlen wählen

*Vernünftigen Komromiss zwischen Klasenzahl und Klassenbelegung (Klassenzahl in der Regel zwischen 5 und 20)

*zur bestimmung der Klasenbreite wird zunächst (Maximalwert-Minimalwert)/ Klassenzahl berechnet und dann mathematisc hgerundet und angepasst damit glatte Klassengrenzen erreicht werden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Histogramm

A

* stellt Häufigkeitsdiche dar (Säulenhöhe)

*Säulendiagramm ohne Abstände

* für Darstellung von quantitativen Merkmalen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Streuungsdiagramm

A

* Zur Visualisierung von Merkmalspaaren (z.B Gewicht und Grösse von personen)

* Jedes merkmalspaar stellt einen Punkt dar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Summenpolygon

A

Kurve stellt kumulierte Häufigkeit quantitaviver Daten dar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Arithmetisches Mittel

A

Statististischer Faschbegriff für Durchschnitt

Für population:

µ = 1/N * Σ ( hj * ) xj

Für Stichprobe: x¯ = 1/N * Σ ( hj * ) xj

hj = bei Datenklassen ermittelte Häufigkeit

Bei Datenklassen für xj den Mittelwert der Datenklasse verwenden!!!

Mitetlwert wird in der Wahrscheinlichkeitsrechnung Erwartungswert genannt!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Zentraleigenschaft (des arithmetisches Mittelwertes)

A

Besagt dass Summe aller Abweichungen der Einzlwerte von ihrem eigenen arithmetschen Mittel immer Null ergibt!!

z.B.:

Reihe: 1,2,4,5

Arithmetsches Mittel: 3

ALSO:

1 -3 = -2

2-3= -1

4-3=1

5-3=2

= 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Median

A

Mittelwert im Lagemass, icht rechnerisch

bei einer geraden Zahl an Werten ist der arithmetische Mittelwert der beiden Mittelwerte zu nehmen.

Bei nicht numerischen ist dann Median nicht zu ermitteln oder es muss für einen der beiden Mittelwerte entschieden werden.

22
Q

Modus

A

der am häufigsten vorkommende Wert in einer statischtischen Reihe

  1. Unimodal: ein Wert kommt am häufigsten vor
  2. Bimodal: zwei Werte kommen am häufigsten vor
  3. Multimodal: mehrere Werte kommen am häufigsten vor
23
Q

Spannweite

A

Spannweite = grösster Wert - kleinster Wert

z.B. Preis Kamera: 150 - 130 Euro = 20 Euro (Spannweite)

ist sehr sensibel für Ausreisser

24
Q

MAD (mean absolute deviation)

mittlere Absolute Abweichung (beim arithmetischen Mittelwert)

A

Vorzeichen der Abstände werden weggelassen, alles aufaddiert und Durchschnitt berechnet

“SUmme der Entfernungen zum Mittelwert geteilt durch die Anzahl der Werte”

Je grösser die Varianz bzw. Standardabweichung ist, desto grösser ist die Streuung! Stdandardabweichung hat dieselbe Dimension wie die Beobachtung selbst.

25
Q

Schätzwert / Punktschätzung

A

Zahl a aus der STichprobe ist ein Schätzwert für die Zahl (giechisch Alpha) der Grundgesamtheit

Da es sich um jeweils einzelne Zahlen handel (Punkte auf dem Zahlenstrahl) spricht man von Punktschätzung

26
Q

Varianz und Standardabweichung

A

Varianz

Population: (alpha)2=1/N * Σ (xi - µ)2

Stichprobe: s2=1/n-1 * Σ (xi - x-)2

Standardabweichung

Population: (alpha)= Wurzel aus (alpha)2

Stichprobe: s= Wurzel aus s2

Achtung! Verschiebungssatz von Steiner zur Vereinfachung der Varianz der Sichprobe wie folgt:

s2= 1/n-1 * Σxi2 - n/n-1 * x-2

27
Q

3 Arten zum Bestimmen von Wahrscheinlichkeiten

A
  1. Klasische Methode / laplace Auffassung:

* Wert aufgrund von logischer, geometrischer bzw physikalischer Überlegungen: 1/n (bei gleichen Chancen)

  1. Methode der relativen Häufigkeit / Häufigkeitsprinzip

* Anhang von Zufallsexperiemtn berechnet

  1. Subjektive Methode:

*lässt sich nicht ableiten oder messen: z.B. Regenwahrscheinlichkeit beträgt 20% etc.

28
Q

Zufallsexperiment

A

Vorgang, der beliebig oft unter gleichen Bedingungen wiederhlbar ist und imer ein Ergebnis aus einer bestimten Menge von Ergebnissen hat wobei das jeweilige Ergebnis des Einzelvorgangs nich vorhersehbar ist

29
Q

Ereignisraum

A

Menge der möglichen Ergebnisse eines Zufallsexperimentes

30
Q

Ergebnis (Elementarereignis)

A

Einzelnes Element aus dem Ereignisraum

31
Q

Ereignis

A

Bestimmte Menge von Elementarereignissen / Ergebnissen

32
Q

Venn Diagramme

A

Stellen Ereignisraum und Ereignisse grafisch dar

z.B.: Komplemetär- bzw. Gegenereignis A¯, Vereinigungsmenge u, Schnittmenge Π

33
Q

Paarweise Disjunkt

A

zwei (oder mehr) ereignisse haben leere schnittmengen

34
Q

Wahrscheinlichkeiten

Rechenoperationen

A

1.

P (E)= zahl / N

0 P(E) 1

2.

P (E) = 0

Jede Menge aller Teilmengen enthält auch immer die leere Menge

3.

P (E1 U E2 U …. Em) = 1

4.

Wahrscheinlichkeit des Komplementärereignisses:

P (-E) = 1 - P(E)

5.

Ereignis E aus Elementarereignissen zusammengesetzte dann ist seine P die Summe:

P (E)= P (E1 U E2 U … Em) = P (E1) + P (E2) … + E (Pm)

6.

P (E U F) = P (E) + P (F) - P (E O F)

DISKRETE ZUFALSVARIABLEN

Erwartungswert (Mittelwert)

E (X) = µ = Σn i=1 xi * p (xi)

Varinaz: Var (X) σ2 = Σn i=1 (xi - µ) 2 * p (xi)

Standardabweichung: σ= Wurzel aus σ2

STETIGE ZUFALLSVARIABLEN (kontinuiertliche Zufallsvariablen)

Eine “bestimmte Zahl” kann quasi ausgeschlossen werden

Wahrscheinlichkeitsfunktion kann daher nicht genutzt werden, sondern Wahrscheinlichkeitsdichtefunktion bzw. Dichtefunktion (Ereignisse lassen sich nicht direkt ablesen und es können Werte von über 1 vorkommen). Aus Dichtefunktion wird Verteilungsfunktion abgeleitet (Bereich unter der Dichtefunktion).

Dichtefunktion f(x): P (a ab f (x) dx

Verteilungsfunktion: F (x) { f (t) dt

Verteilungsfuntion ist die universelle Beschreibung für Zufalsvariablen

35
Q

Wahrscheinlichkeitsbaum

A

Grafishe Darstellung von aufeinander folgenden Experimenten

Ausgangspunkt: Wurzel (vor der ausführung des Experimentes)

Andere Verzeigungspunkte: Knoten (an jedem Knoten findet ein Experiment der jeweils folgenden Sufe statt)

Strecken: Äste (Wahrscheinlichkeit ist hier angeschrieben)

Folge von Ästen bis zum letzten erreicharen Ast: Pfad

Endpunkte der Pfade sind Ergebnisse des kombinierten Experments: Wahrscheinlichkeiten berechnen sich als Proukt der Wahrscheinlichkeiten der Äste (Pfadwahrscheinlichkeit)

Stochastisch (Unabhängige) Ereignisse:

Teilbexperimente sind unabhängig voneinander, wenn sich an alle Elementarereignisse der ersten Stufe identiche Teilbäume der zweien STufe anschliessen

P (A | B) = P (A)

P (B | A)= P (B)

P (A o B) = P (A) * P ( B)

Achtung!: wenn A o B = Ø dann sind Ereignisse abhngig von einander, d.h sie schliessen sich gegenseitig aus (da ja zwei positive Eregnisse im Produkt nicht null sein können)

36
Q

Bedingte Wahrscheinlichkeit

A

an sagt bsp.

die bedingte Wahrschenlichkei von “rot” unter der bedingung “Kopf” ist 1/4

P (A | B) = der Anteil an B, der gleichzeitig auch zu A gehört

totale Wahrscheinlichkeit kann auch über Pfade skizziert werden= Summe der Pfadtwahrscheinlichkeiten

Rechenwege:

  1. Über Wahrscheinlichkeitsbaum, erst die Pfadtwahrscheilichkeit ausrechnen, dann ins Verhältnis setzen (Verältnis gegenüber zum Komplimentärereignis)
  2. Über Venn diagramm (dann eigentlich auch über Pfadtwarscheinlichkeiten aus der totalen Wahrscheinlichkeit)
  3. Tabelle der Wahrscheinlichkeiten:

Werte eingeben und Wahrscheinlichkeiten “stufenweise” multiplizieren

37
Q

Wahrscheinlichkeitsfunktion der Zufallsvariablen

A

x –> p (x) = P (X = x)

38
Q

kumulative Wahrscheinlichkeitsfunktion

A

Gibt an dass der Wert der Zufallsvariablen höchstens einen bestimmten x-Wert annimmt.

Bei diskreten Zufallsvariablen sind dies “Treppenfunktionen”

39
Q

Nomalverteilung

A

* auch Glokenkurve genannt

*stetigen Verteilungen, mann benutzt das Z (Zufallsvariable) und z (konkreter Wet) anstatt X und x

* eine von Parametern abhängige Familie von verteilungen

* “ Die Verteilung sei N (µ,σ) “ bedeutet dass die Zufallsvariable normalverteilt mit einem Erwartungswert und Standardabweichung ist

* wird aus Tabellen abgelesen, keine Formel notwendig

* viele reale Verteilungen (Körpergrössen, Messwerte etc) sind annähernd normalverteilt

* man nutzt die Standardnormalverteilung = N (0,1) für alles (Paramenter: µ= 0 und σ= 1)

* interessiert man sich für ein Intervall dann zieht man immer den kleineren Wert vom grösseren ab (da es sich ja um kumulierte Werte handelt!)

* Formel von allgemeiner Noralverteilung zur Standardnormalverteilung: z= x-µ / σ

bzw. x = µ + σ * z

–>
Danach aus der Tabelle den Wert ablesen

HÄUFG VERWENDET:

N (µ,σ)

90%:

µ - 1,645 * σ

95%:

µ - 1,96 * σ

99%:

µ - 2,575 * σ

STATT PROZENT ZAHL AUCH VIELFACHES VERWENDN MÖGLICH:

µ - 1 * σ

µ - 2 * σ

µ - 3 * σ

40
Q

Tortendiagramm erstellen

A

Winkel in Grad = Relative Häufigkeit * 360

41
Q

Sichprobenraum

A

Wir gehen aus von einer Grundgesamtheit über die wir mithilfe von Stichproben Erkenntnisse ziehen wollen

42
Q

Schätzung des Mittelwertes der Popultation

A

Wir verwenden einen Wert x der Zufallvariablen X aus der Stichprobe. Um zu sehen ob sich dieser Wert für eine solche Schätzung eignet untersuchen wir die gesamte Verteilung der Zufallvariablen “Stichprobenmittel X”

Dazu machen wir Aussagen über die Verteilung von X die wir aber nicht beweisen.

1.

Der Mittelwert von X bei Zufallsvariablen wird auh Erwartungswert E (X) genannt. Dieser ist gleich dem Mittelwert in der Grundgesamtheit

E( X) = µ

2.

Die Varianz berechnet sich wie folgt (σ2 ist Var der Grundgesamtheit)

Var (X) = σ2 / n

43
Q

Zusammenhänge der Mittelwerte bei Punktschätzungen

A
  1. Grössen der Grundgesamtheit: griechische Bustaben, kennen wir oft nicht. sind wohl definiert
  2. Grössen einer einzelnen Stichprobe Hängen von der Zufallsauswahl ab und sind sebst zuföllig
  3. Grössen der Verteilung der Zufallsvariablen. Aufrgund theoretisher Überlegungen aus den Grössen der Population und Stichprobenumfang zu berechnen und daher wohl definierte Zahlen

Obige Aussagen besagen:

*Mittelwerte aus 1 und 3 sind identisch

*Varianz und Standardabweichung der Zufallsvariable Stichprobenmittelwert mit wachsendem Stichprobenumfang n immer kleiner wird

Jede Stichprobe wird einen etwas anderen Mittelwert ergeben und keiner wird genau gleich dem mittelwert der grundgesamtheit sein, aber wir gehen genau in die richtige richtung.

Wollen wir sicherstellen dass die Abweichung klein ist, dann müssen wir eine grosse Stichprobe ziehen.

Da das Ergebnis ein Punkt auf der Achse der Zufallsvariablen ist, bezeichnen wir es als eine Punktschätzung.

44
Q

Intervallschätzung für den Mittelwert

A

Das Merkmal X ist in der Grundgesamtheit Normalverteilt,dann ist auch X normalverteilt mit N (µ,σ/Wurzel aus n)

45
Q

Bias

A

Bei Punktschätzungen:

Die Schätzung ist verzerrt bzw. nicht erwartungsgetreu

46
Q

Zentraler Grenzwertansatz

A

Bemerkenswerte AUssage

Hat die Grundgesaheit eine unbekannte Wahrscheinlichkeitsvereilung (also keine Noralverteilung) mit Mittelwert µ und Standardabweichung σ und ist Stichprobenumfang hinreichend gross (n> 30 & n > 15 & wenn näherungsweise normalverteilt ist geht auch nX in guter Näherung normalverteilt mit N (µ, σ/ Wurzel aus n)

47
Q

Konfidenzwahrscheinlichkeit (Konfidenzniveau)

A

Meint die Wahrscheinlichkeit mit der eine Intervallschätzung des Mittelwertes richtig ist

Mit a bezeichnen wir die verbleibende Irrtumswahrscheinlichkeit :

Konfidenzwahrscheinlichkeit= 1-a

Das Intervall um den Mittelwert in dem die Konfidenzwahrscheinlichkeit liegt nennt man Konfidenzintervall (Vertrauensintervall)

Der Konfidenzintervall ist ein Zufallsresultat abhängig von X

48
Q

Intervallschätzung

A
  1. Konfidenzwahrscheinlichkeit berechnen

µ - 1,96 * σ

  1. ggf zu z transformieren

z= x-µ / σ* Wurzel aus n

  1. Irrtumswahrscheinlichkeit berechnen

= 1- Konfidenzwahrscheinlichkeit

  1. Intervallschätzung für Mittelwert berechnen

µ=x+-za/2 * σ / Wurzel aus n

49
Q

Übersicht zur Berechnung von Konfidenzintervallen

A

Wenn σ2 der Grundgesamthiet bekannt:

x +- z(a/2) * σ / Wurzel aus n

Wenn σ2 der Grundgesamthiet bekannt:

x +- t(a/2) * s / Wurzel aus n

50
Q

Bestimmung der Stichprobengrösse

A

Stichprobenumfang ist die Grösse die wir beeinflussen können

51
Q

Kovarianz: Näherungsweise lineare Abhängigkeit

A

Kovarianz der Population:

σxy = Σ (xi - µx ) (yix) / N

Kovarianz der Stichprobe (Punktschätzer für Kovarianz der Population):

Sxy = Σ (xi - x ) (yi -x) / n-1