Prüfungsvorbereitung Flashcards
Regression
prüft ob und in welche Richtung zwei quantitative Variablen zusammenhängen
multivariate Regression
hat mehrere unabhängige/erklärende Variablen
Arten von Variablen
- unabhängig/erklärend
- abhängig (Ergebnisvariable)
- Kontrollvariable
Koeffizienten
alpha und beta als Parameter der linearen Regression
Freiheitsgrade
- werden mithilfe des Stichprobenumfangs und Anzahl Parameter berechnet
- können in Datensatz frei variieren ohne Bedingungen zu verletzen
- wichtig bei Parameterschätzung und Hypotherentests
Standardfehler
wird mithilfe der Zusammenfassung von Residuen (Fehlerquadratsumme) berechnet
Residuen
Differenzen zwischen tatsächlichen und errechneten Werten (Abstand zwischen Punkten auf Korrelationsgeraden)
t-Verteilung
- symmetrisch und glockenförmig
- um Mittelwert 0
- breit/flach mit “dickeren” Tails (Enden der Verteilung haben sehr flache Steigung, die nie 0 erreicht)
- abhängig von df
- für kleine Stichproben und unbekannte Varianz
- mit df -> ∞ nähert sie sich der Normalverteilung an
Standardnormalverteilung
- symmetrisch und glockenförmig
- um Mittelwert 0 mit Standardabweichung 1
- schmal mit dünnen Tails
- unabhängig von df
- für grosse Stichproben mit bekannter Streuung
- wenig Wahrscheinlichkeit für Extremwerte
Verzerrung durch…
- Selektionsverzerrung (nicht bei Zufallsstichprobe)
- Mess-/Beobachtungsverzerrung (Befragungsmedium)
- ausgelassene Variablen (siehe Störfaktoren)
- systematische Nicht-Beantwortung von Fragen
- Antwortverzerrung
- …
Intervallskalierte Variable
- lässt sich ordnen
- Abstände sind bedeutungsvoll (messbar und immer gleich)
- quantitativ (ausser man ist sich sicher, dass kategoriale Variablen definierte Abstände haben)
Ordinalskalierte Variable
- lässt sich ordnen
- Abstände sind nicht immer gleich
- kategoriale und quantitative Variablen
Nominalskalierte Variable
- keine Reihenfolge
- kein numerischer Wert (ausser er wird ihr zugeteilt)
Deskriptive Statistik
Zusammenfassung von Stichprobendaten (Mittelwert, Verteilung, Standardabweichung, Minimum, Maximum…) zur Beschreibung von Sachverhalten und Informationsvereinfachung
Spannweite
- engl. Range
- Differenz von Maximum und Minimum
- Verzerrt durch Ausreisser
- Ist in Stichproben immer kleiner als in der Population
- kein erwartungsgetreuer Schätzer
z-Tabelle wird verwendet…
- um Wahrscheinlichkeiten für Standardnormalverteilung zu berechnen
- wenn Populationsvarianz bekannt ist
- wenn n > 30
- bei Stichprobenanteilen (%)
einseitiger Hypothesentest
- gerichteter Hypothesentest
- wenn p für > z oder < -z gesucht wird dann (1-p)
- wenn p für < z oder > -z gesucht wird dann (p)
- “kleiner gleich” und “grösser als” (oder umgekehrt) muss geprüft werden
zweiseitiger Hypothesentest
- ungerichteter Hypothesentest
- um z-Wert zu ermitteln muss p-Wert + linke Hälfte des verbleibenden Intervalls gerechnet werden (bspw. 90% + 5%), dann kann man Wert ablesen
- gleich oder ungleich
- Berechnung obere und untere Grenze
Nullhypothese
- Keine Veränderung der Zustände
- immer mit =
Forschungshypothese
-Veränderung der Zustände
- direkt aus dem Text zu entnehmen
- von Forschenden vertreten
- entweder strikt grösser oder kleiner
Kausaler Effekt
Def: etwas bewirkt etwas anderes
- Kausaler Effekt von X auf Y
-> Unterschied in Beobachtung für Y wenn sich Wert von X für diese Beobachtung ändert
Y(X=verändert) - Y(X=unverändert)
-> wenn negativer Wert, dann verringert eine Zunahme von X den Wert von Y (negativer Zusammenhang VWL)
Experiment
- Beobachtungen werden zufällig (!!) einem Wert von X (einer Gruppe) zugeschrieben (Zufallsstichprobe)
- wegen zufälliger Zuweisung ähneln die Effekte von X denjenigen von anderen Variablen (der Population zB)
- weist Kausalität nach
Bedingte Unabhängigkeit
- zwei Variablen sind voneinander Unabhängig (zB durch Randomisierung)
- Korrelation zwischen X und Y kann nicht mit Drittvariablen erklärt werden
-> eliminiert systematische Verzerrungen
Quasi-Experimente
Exogener Schock schreibt Werte quasi-zufällig der Variablen X
-> Gruppen existieren meist schon vorher durch exogenen Schock (wurden aber nicht extra so konzipiert)
-> Störfaktoren sind zB wenn man sich freiwillig unabhängig des exogenen Schocks einer Kategorie zuordnet
Diff-in-Diff-Ansatz
Vergleich von Vorher-Nachher Unterschied der abhängigen Variablen bei denen sich die primäre unabhängige Variable geändert hat durch einen exogenen Schock (Diff.1 ) mit dem Vorher-Nachher-unterschied derjenigen, deren unabhängige Variable sich nicht geändert hat (Diff. 2)
-> Differenz von Diff. 1 und Diff. 2 wird ermittelt
Treatment
primäre erklärende Variable einer Ergebnisvariablen
Zufallsvariable
Ergebnis eines Zufallsexperiments (Ziehung von n aus N Elementen)
-> Zufallsstichprobe
negative z-Werte
die Wahrscheinlichkeiten für “grösser als” entsprechen denen, die für positive z-Werte für “kleiner als” in der Tabelle stehen
z-Quantilwahrscheinlichkeit p < 0.5 (nicht in z-Tabelle ablesbar)
(-1) * (1- p) und dann mit z-Formel auflösen
Stichprobenkennwerteverteilung
Wahrscheinlichkeitsverteilung von Stichproben-Mittelwerten
-> gleicht einer Normalverteilung wenn n > 30
-> folgt t-Verteilung wenn n < 30
Standardfehler
- gibt Genauigkeit der Mittelwertschätzung an
- genauer, je grösser die Stichprobe ist (da so Populationsmittelwert besser geschätzt werden kann)
- entspricht der Standardabweichung bei genug grossen Stichproben und wenn Mittelwert dem Erwartungswert entspricht
Teststatistik
Wert der Unterschied zwischen Beobachtung und Messung angibt
Formaler Test
statistische Methode um Hypothese zu überprüfen (H0 annehmen oder verwerfen)
obere Grenze
p + z * se
untere Grenze
p - z * se
Hypothesentest Ablauf
- Teststatistik (mit Standardfehler für formale Tests)
- z- oder t-Wert in der Tabelle nachschauen
3a. bei H1 “grösser als” -> 1- zugehörige Quantilwahrscheinlichkeit
3b. bei H1 “kleiner als” -> nur zugehörige Quantilwahrscheinlichkeit - mit Signifikanzniveau vergleichen
- H0 annnehmen oder ablehnen
t-Tabelle wird verwendet…
- wenn Populationsvarianz (Standardabweichung) unbekannt ist
- wenn n < 30
- meistens bei Vergleich von Mittelwerten (weil Standardabweichung geschätzt werden muss, was zu mehr Unsicherheit führt, wofür t-Tabelle geeigneter ist)
Signifikanzniveau
gibt die Wahrscheinlichkeit an, mit der Forschende bereit sind die H0 fälschlich zu verwerfen
-> je grösser der Wert (je kleiner das Niveau), desto wahrscheinlicher, dass fälschlich verworfen wird
-> je kleiner der Wert (je grösser das Niveau), desto wahrscheinlicher, dass H0 fälschlich angenommen wird
=> Zielkonflikt den Wert nicht zu gross oder zu klein zu machen (meist nutzt man 1% oder 0.5%)
R^2
- Mass für Stärke der Korrelation von ergebnisvariable mit allen unabhängigen Variablen im Modell
- fasst zusammen, wie gut Werte von x die Werte von y vorhersagen können
-> Bestimmungsmass (zeigt, wie x, y verändern kann)
bereinigtes (adjusted) R^2
korrigiert, dass R^2 immer ansteigt, wenn erklärende Variablen hinzugefügt werden, obwohl sie keine Erklärungskraft haben
-> umso kleiner, je weniger Variation in der Ergebnisvariablen stattfindet (je kleiner die Korrelation)
R^2 Rechenweg & Formel
- Modell mit Mittelwerten und Vorhergesagten Werten durch die man die Residuen berechnet
- Modell mit y= a + b * x und dadurch Vorhersagefehler berechnen
- Summe der quadrierten Felher für beide Modelle 1. (TSS) und 2. (SSE) berechnen
-> R^2 = TSS - SSE / TSS
Kontrollvariablen
- Multivariates Regressionsmodell indem Auswirkung von unabhängiger Kontrollvariable z auf Zusammenhang von x und y untersucht wird (testen ob x und y unabhängig von z korrelieren)
- operationalisieren oftmals alternative Erklärungen für Korrelation
-> y= a + b1* x1 + b2*z
Multiple Ursachen
y kann durch verschiedene Variablen erklärt sein ( z korreliert mit x aber beide korrelieren aber auch mit y)
Intervenierende-/Mediatorvariablen
Beziehung von x und y wird durch andere Variable vermittelt
-> Bsp: Bildungsniveau (x) bedingt Lebenslänge (y) nur durch Einkommen (z), welches mit x korreliert und y bedingt
Störfaktor
- z verändert Korrelation zwischen x und y
-> Scheinkorrelation: x und y zeigen Korrelation obwohl durch testen von z klar wird, dass Zusammenhang verschwindet - z besteht aus den Variablen, die mit x korrelieren aber auch y beeinflussen können
- wenn ausgelassen kommt es zu Verzerrung durch ausgelassene Variablen
Interagierende Variable
- verändern Beziehung von x und y NUR wenn z bestimmte Werte annimmt
- werden durch Multiplikation mit primären unabhängigen Variable ins Modell eingeschlossen (y= a + b1 x1 + b2 x2 + b3 x3 z)
-> Bsp: Einkommen (y) hängt von Bildung (x) ab aber verändert sich wenn Geschlecht (z) mit einbezogen wird (schwache Korrelation, wenn z=weiblich und starke, wenn z=männlich)
Annahme der bedingten Unabhängigkeit
- wichtig bei Interpretation von Korrelation nach Kontrolle für Störfaktoren (z)
- besagt, dass Korrelation zwischen x und y nicht von ausgelassenen Variablen beeinflusst ist
Kausaler Effekt und nicht Korrelation wenn…
- Variablen korrelieren
- Variablen in zeitlicher Abfolge stehen (x vor y)
- Korrelation nicht durch Kontrollvariablen erklärt werden kann
Diskrete Variable
- Werte sind klar voneinander abgegrenzt (vgl. intervallskaliert)
- häufig mit Balkendiagrammen (mit Abstand zwischen Säulen) dargestellt
Kontinuierliche Variable
- kann jeden Wert im Intervall annehmen
- unendlich viele Werte (alle Zwischenwerte und so)
- häufig mit Histogrammen (ohne Abstand zwischen säulen) oder Dichtekurven (über einem Histogramm gezeichnet) dargestellt
Streuung
- Masse der Streuung sind Varianz und Standardabweichung
Zentraler Grenzwertsatz (Gesetz der grossen Zahlen)
- Unabhängigkeit: Die Zufallsvariablen müssen unabhängig sein
- Verteilung: Die Einzelvariablen können beliebig verteilt sein (z. B. binomial, gleichverteilt)
- Stichprobengrösse: Der ZGS gilt näherungsweise ab einer ausreichend großen Stichprobe n>30
- Ergebnis: Der Mittelwert der Stichprobe nähert sich bei wachsendem n einer Normalverteilung mit:
- Mittelwert: μ = Erwartungswert der Einzelvariablen
- Standardabweichung: σ/Wurzel n
effizienter Schätzer
der Schätzer unter den erwartungstreuen Schätzern, der die niedrigste Varianz vom vorgegebenen Parameter hat (zB am nächsten am Populationswert dran)
Hypothesentest des beta-Koeffizienten
H0= beta unterscheidet sich nicht signifikant von 0 (beta=0) und somit beeinflusst die unabhängige Variable die Ergebnisvariable nicht
H1= beta unterscheidet sich signifikant und es besteht eine Korrelation
Formel: t=beta/se(beta)
- Werte in Code ablesen (Beta, t und p)
- p mit Signifikanzniveau abgleichen
- beurteilen ob H0 verworfen wird oder nicht
Chi-Quadrat-Test
1) Gesamtsummen der Zeilen und Spalten berechnen (und Gesamt vom Gesamt)
2) erwartetet Häufigkeiten der Kontingenztabelle berechnen
-> (ges Zeile * ges Spalte) / ges Gesamt
3) Freiheitsgrade berechnen
-> df = (Anzahl Zeilen -1) + (Anzahl Spalten -1)
4) Chi-Quadrat-Teststatistik berechnen
5) Ergebnis anhand von df in Chi-Tabelle suchen und so p-Wert ermitteln
6) mit Signifikanzniveau abgleichen
Einseitiger Test von Populationsunterschieden mit zwei Teilstichproben
- n>60 bei beiden Teilstichproben
- n*pi / (1-pi) >9
- n* (1-pi) / pi > 9
Partielle Steigung von Treatment im Regressionsmodell
- ist die Korrelation der primären unabhängigen Variable bereinigt für (also ohne) die Variation die in unabhängiger und Ergebnisvariable durch Kontrollvariable erklärt wird (durch Berechnung von Residuen)