Statistik Flashcards

1
Q

Bedeutung statistischer Analysen für die Soziologie

A

> dient, nach der Datenerhebung, der Auswertung und Analyse der meist standardisierten Daten

> die statistische Analyse trägt dazu bei Zusammenhänge aufzudecken und zu verdeutlichen

> Statistische Analyse hat eine zusammenführende Wirkung

> Statistik in der Soziologie hat auch im Hinblick auf die Darstellung von Wissen einen hohen Stellenwert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wo liegen die Stärken statistischer Analyse?

A

> hoher Verallgemeinerungsgrad
(Abbildung des großen Ganzen/Vogelperspektive)
—>verborgene Strukturen

> Zusammenführung von (begrenzten) Informationen vieler Einzelfälle

> Analyse von Trends

>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wo liegen die Schwächen statistischer Analysen?

A

> durch hohe Verallgemeinerung = Vernachlässigung individueller Besonderheiten, welche wichtig für das Phänomen sind

> Fehler in erhobenen Daten —> doppelte Hermeneutik
(Interpretation des Beforschten, wenn Fragebogen)

> Statistische Ergebnisse müssen so “übersetzt” werden, dass man mit ihnen Hypothesen/Theorien/Fragen beantworten kann

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Skizzieren sie die Entwicklung statistischen Wissens?

A

> Entstanden durch unterschiedliche Praxisfelder

> Zählbarkeit gewann im Laufe der Geschichte immer mehr an Relevanz

> Zählbarkeit brachte neue Möglichkeiten

> Institutionalisierung (Forschungseinrichtungen und akademischen Institute) sorgte für Zusammenführung und Kanonisierung des gesammelten Wissens (der Verfahren) aus den verschiedenen Praxisfeldern

> Statistik = Dynamische Wissenschaft —> ständige Entwicklung neuer Methoden, Verflechtung mit alten Methoden

> durch Dynamik gibt es verschiedene Strömungen die sich im Laufe der Zeit entwickelt haben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Skizzieren sie die historischen Entwicklungen an Hand verschiedener Anwendungsfelder statistischen Wissens.

A

> Koordination von Regionen eines Herrschers (mit Universitätsstatistik)

> Universitätsstatistik = Lehre ü. den Staat /
(Schwächen und Stärken, sowie Nützlichkeit für das Reich)

> Beschreibung von Ländern und Regionen (Politische Arithmetik)

> Politische Arithmetik = nur zähl & messbare Gegenstände

> Politische Arithmetik = Vorläufer der amtlichen Statistik

> Amtliche Statistik = erste Professionalisierung von statistischem Wissen

> ab dem 19. Jhd. Befasste sich unter anderem mit Volkszählung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Erläutern sie die verschiedenen Verwendungsweisen des Begriffs Statistik.

A

> Statistische Auswertungen bzw. das Produkt dieser wird als Statistik eines Bereiches bezeichnet.

> Auswertung und Zusammenstellung von Daten, anhand statistischer Analyse Methoden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Klären sie die Herkunft des Begriffs Statistik.

A

> statisdique (frz.) —> Staatswissenschaft

Systematische Beschreibung eines Staates und dessen Bevölkerung auf zahlenmäßiger Ebene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Klären sie die Begriffe induktive und deduktive Statistik.

A

INDUKTIV:

> schließende Statistik
Beziehung zwischen Eigenschaften einer Stichprobe
Das Schätzen und das Testen sind die beiden Formen der schließenden Statistik

DEDUKTIVE/DESKRIPTIVE:

> Beschreibende Statistik
Ordnung und Darstellung von Daten
Gewinnung von Überblicksinformationen großer Datenmengen
Verdichtung numerischer Informationen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Erläutern sie, was ein Kodeplan ist.

A

> Auflistung aller verwendeten Variablen mit einer eindeutigen inhaltlichen Bedeutung der numerischen Codes

> evtl. weitere Informationen, welche sich auf den Messvorgang beziehen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was sind Untersuchungseinheiten, Merkmale, Variablen, Merkmalsausprägungen?

A

UNTERSUCHUNGSEINHEITEN:
= Untersuchungsgegenstand z.B Menschen, Familien, Städte…

MERKMALE:
= Dimensionen der Untersuchungseinheiten z.B Alter, Bildungsgrad…

VARIABLEN:
= mathematischer Begriff für Merkmale

MERKMALSAUSPRÄGUNGEN:
= Ausprägung die eine Untersuchungseinheit in einer Merkmalsdimension aufweist
(Inhaltliche Ausprägung der Merkmalsdimensionen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Erläutern sie den Begriff der Datenmatrix und legen sie dar, welche Informationen in den Zeilen, den Spalten und den Feldern der Matrix enthalten sind.

A

> enthält Daten über mehrere Merkmale, mehrer Personen oder Objekte und die dazugehörige Merkmalsausprägung

> ZEILEN
Untersuchungseinheit

> SPALTEN
Dimensionen der Untersuchungseinheit/ Merkmale/ Variablen

> FELDER
Merkmalsausprägung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was versteht man im Sinne der klassischen Messtheorie unter messen?

A

> Versuch der Abbildung von sozialen Phänomenen im metrischen Raum

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie hängen die Rechenregeln im numerischen Raum mit dem Messprozess zusammen?

A

> Symbole, Zahlen usw. dienen als Übersetzung von Beobachtungen von Phänomenen des sozialen Raums
Abstrakte Darstellungsform des sozialen Raums
Rechenregeln =≠,<>,+-,*:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Stellen sie verschiedene Skalenniveaus und die möglichen Rechenoperationen dar; geben sie Beispiele und begründen diese.

A

NOMINAL :
>gleich oder ungleich
> z.B Religion, Wohnort
> f(x)=f(y), f(x)≠(y)

ORDINAL:
>gleich oder ungleich, kleiner oder größer
> z.B Schulabschluss, Noten
> f(x)>f(y), f(x)gleich oder ungleich, kleiner oder größer, Abstand des Grrößenunterschieds
> z.B IQ
>f(x)-f(y)>_f(w)-f(z)

Intervall

RATIO:
>gleich o. ungleich, kleiner o. größer, Abstand des Größenunterschieds, Beziehung des Größenunterschieds —> Verhältnisaussagen
> z.B doppelt, halb so viel Einkommen
>f(x)=a*f(y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist eine dichotome Variable?

A

> ordinal oder nominal skaliertes Merkmal

> lediglich ZWEI Ausprägungen

(JA o. NEIN)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was sind diskrete und stetige Daten?

A

STETIG
> metrisch skaliert
> innerhalb eines Intervalls unendlich viele Ausprägungen, weil immer Zwischenwerte vorliegen (Körpergröße)

DISKRET
> metrisch skaliert
> nimmt nur einzelne Zahlenwerte an (Alter in Jahren)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Diskutieren Sie das Problem, auf welchem Skalenniveau das Ergebnis einer Einstellungsfrage, zu der in der Abstufungen eher zustimmend oder eher ablehnend Stellung genommen wird, anzusiedeln ist.

A

> eher ordinal (oder eventuell metrisch diskret), weil die Größe des Abstands nicht definierbar ist.
Man kann keine Aussage über die “gefühlten” Abstände machen

Schwer vergleichbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Erläutern Sie an diesem Beispiel Eigenschaften des arithmetischen Mittels und des Medians

A
ARITHMETISCHES MITTEL: 
> wird auch Durchschnitt genannt 
> Voraussetzung: metrisch skaliert 
> stärker durch Extremwerte beeinflusst, kein Informationsverlust 
>Nachteil: Verzerrung 

MEDIAN:
> der Wert der in der Mitte steht, wenn die Messwerte der Größe nach geordnet sind
> Voraussetzung: ordinal oder metrisch skaliert
>

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Was spricht dafür/dagegen bei einer repräsentativen Stichprobe den Einkommensmedian bzw. das arithmetische Mittel des Einkommens zu verwenden?

A

MEDIAN:
>Informationsverlust
(Nicht so sehr vom Extremwert abhängig, zeigt an auf welchen Wertebereich Verteilung konzentriert ist

ARITHMETISCHES MITTEL:
> stärker durch Extremwerte beeinflusst, dadurch kein Informationsverlust
Nachteil: Verzerrung —> kein Schluss darauf, zB. Wie groß die Mehrheit ist/ wie viel die “Allgemeinheit” verdient

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

In welcher Beziehung stehen Median und ar. Mittel in einer links/rechtssteilen Verteilung?

A

> eine Verteilung von Messwerten wird als schief bezeichnet wenn sie in der Weise asymmetrisch ist, dass links oder rechts des Durchschnitts eine Häufung der Messwerte auftritt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Stellen Sie verschiedene Maßzahlen zur Beschreibung von Streuungen dar und beschreiben sie ihre Eigenschaften.

A

Streuung beschreibt Abweichung der Werte einer Verteilung vom Mittelwert.

> Range (Spannweite)
Maximaler Wert minus Minimaler Wert, nur Extremwerte

> Quartilsabstand:
Q3-Q1, 50 % der Fälle, Fokus auf mittlere Werte, keine Ausreißer

> Quantilsverhältnisse:
z.B. Q90/Q10, Rand der Verteilung ohne Ausreißer

> Durschnittliche Abweichung vom arithm. Mittel:
Summe der absoluten Abweichung vom Mittelwert jedes Falles durch die Fallzahl

> Varianz
Das gleiche wie, nur mit quadriertem Abständen, anfälliger für große Abstände
Summe der quadrierter Abstände = Variation

> Standardabweichung
= Wurzel der Varianz (s)
Gibt Auskunft über die Aussagekraft des Mittelwerts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was ist ein Varianzkoeffizient und wozu dient er?

A

> Setzt die Standartabweichung in Verhältnis zu Mittelwert

(s/xquer), um Steuungen vergleichbar zu machen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Beschreiben Sie, welche Eigenschaften von Verteilungen mit Konzentrationsmaßen erfasst werden können.

A

> Wie ist die Summe der Merkmalsausprägungen auf UEs verteilt?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was unterscheidet Streuungs- und Konzentrationsmaße?

A

Streuung:
wie verteilen sich UEs auf verschiedne Merkmalsausprägungen und wie stark weichen sie vom Mittelwert ab

Konzentration:
Wie ist die Summe der Merkmalsausprägungen auf EUs verteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Geben Sie ein Beispiel für die sinnvolle Anwendung eines absoluten Konzentrationsmaßes.

A

> Aufsummierung der Marktanteile

> sinnvolle Anwendung ist die Monopolbildung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Wo liegen die Schwächen eines absoluten Konzentrationsmaß?

A

> Es wird jeweils nur eine Seite des Konzentrationsprozesses beleuchtet, offenbleibt, wie viele Zeitungen sich den Rest des Marktes teilen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Geben sie Beispiele für die sinnvolle Anwendung eines summarischen Konzentrationsmaßes?

A

> Summe der quadrierter Marktanteile
Marktanteil von Zeitungen
nicht nur Monopolbildung wird betrachtet, sondern die Summe aller Zeitungen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Wo liegen die Schwächen eines summarischen Konzentrationsmaßes?

A

Nachteil: Untergrenze ist abhängig von der Fallzahl, bedingt vergleichbar, daher Anwendung bei Verteilungen höheren Fallzahlen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Geben sie ein Beispiel für die sinnvolle Anwendung eines relativen Konzentrationsmaßes?

A

Beispiel: Welcher Anteil der Merkmalssumme fällt auf einen bestimmten Anteil der Merkmalsträger
Häufig Lorenzkurve

Einkommensverteilung kann man damit Darstellen
Wie viel Einkommen sìch auf wie viele Personen verteilt

Je stärker die Lorenzkurve von der Diagonalen abweicht desto ungleicher ist die Verteilung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Stellen sie den Grundgedanken des Lorenzkurvenmaßes schriftlich und graphisch dar und beschreiben sie den Wertebereich.

A

> Relatives Konzentrationsmaß
Visualisierung von Konzentrationen
Gerade Linie steht für keine Konzentration
je stärker die Kurve von gerader Linie abweicht, desto stärker ist die Merkmalssumme konzentriert
Y-Achse: kum Anteil Merkmalssumme
X-Achse: kum. Anteil Fälle

> GINI INDEX
Fläche oberhalb der Kurve(F1) durch Gesammtfläche F1+F2
Wenn F1=0, GINI=0, keine Konzentration
Wenn F2=0; GINI= 1, völlige Konzentration

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Erklären sie das Konzept der Äquivalenzgewichtung für die Analyse von Haushaltseinkommen.

A

Ökonomische Technik, bei der die Haushaltsmitglieder verschiedene Gewichtungen bekommen.
Anhand von OECD-Skala
(1. Erwachsener 1,0; jeder weitere Erwachsene ü. 15 0,5; Kinder unter 15 0,3)

> Gesammter Haushalt wird durch die Summe der Gewichtung geteilt um ein repräsentatives Einkommen zu bekommen (Einkommen steigen dadurch)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Welche Folgen hat die Wahl der beiden OECD-Skalen für die Messung von Kinderarmut?

A

Die Gewichtung der neuen OECD-Skala sorgt dafür, dass die Familien reicher wirken, weil weitere Erwachsene und Kinder weniger zählen, dass hat zur Folge dass man durch einen geringeren Wert teilt und somit zu einem höheren einkommen kommt.
Das sorgt dafür das Kinderarmut schlechter aufgedeckt werden kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Erläutern sie die Entscheidungen, die der Bestimmung von Armutsquoten zu Grunde liegt.

A

Methodische Entscheidungen:

> Ressourcen-basierte vs. Lebenslagen-basierte Bestimmung von Armut

> relative vs. absolute Armutsgrenze

> Individualperspektive vs. Haushaltsperspektive

> Entscheidung der Äquivalenzgewichtung (neue vs. alte OECD Skala)

> Entscheidung über Flächeneinheit, für die das Maß bestimmt wird
(National, regional)

> Entscheidung über rel. Armutsgrenze (50,60%..) und die Maßzahl
(Median, ar. 🖕🏽)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Wie kann das Armutsmaß interpretiert werden, wenn als Parameter 0/1 gewählt werden?

A

Verschiedene Parameter: (FGT Armutsmaß)

0=Armutsquote ( Wie viel % sind unter der Armutsgrenze?)

1= Armutslücke (Wie viel % des Grenzeinkommens muss umverteilt werden?/ Wie viel Grenzeinkommen fehlt den Armen um durchschnittlich nicht mehr arm zu sein?)

2=Armutsintensität, durchschnittliche quadrierte Einkommenslücke

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Erläutern sie an dem Beispiel Lohnzufriedenheit das Konzept der unabhängigen und der abhängigen Variable.

A

Lohnzufriedenheit ist abhängig von der Anstellung des Menschen, somit ist Lohnzufriedenheit die abhängige und die Anstellung die unabhängige Variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Was versteht man unter einer Kreuztabelle?

A

= systematische Darstellung der Ausprägungskombinationen zweier Merkmale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Für Daten welchen Skalenniveaus lassen sich Kreuztabellen aufstellen?

A

Beliebige Skalenniveuas, weil pro Variable eine Ausprägung reicht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Was ist damit gemeint (im soziologischen Sinne), wenn man sagt, es bestehe ein Zusammenhang zwischen Schulbildung und Einkommen?

A

> das würde Bedeuten dass jemand mit einer höheren Schulbildung auch automatisch ein höheres Einkommen hat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

In welchem Zusammenhang stehen Zusammenhangs- und Kausalitätsaussagen?

A

Zusammenhangsaussagen:
>Aussagen aus statistischen Analysen (nicht alle Merkmale sondern ein paar selektierte)

Kausalaussagen:
Einbindung aller Bestandteile eines Phänomens

Zusammenhangsaussagen können Bestandteil einer Konstruktion einer Kausalaussagen sein. Es ist aber sehr kühn aus einer einzigen Zusammenhangsaussagen eine Kausalaussage zu formulieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Welche Datentypen kann man in einer Häufigkeitstabelle darstellen?

A

> die Daten müssen mindestens nominal skaliert sein, weil man eine Rangordnung bzw. Einen Größenunterschieds braucht um die kumulierte H. Zu integrieren

41
Q

Wie würden die entsprechenden Spalten einer Datenmatrix aussehen, wenn ein starker Zusammenhang zwischen Schulbildung und Einkommen besteht?

A

Diagonale von links oben nach rechts unten

42
Q

Erläutern sie den Begriff der Kontingenztabelle und der Indifferenztabelle.

A

KONTINGENZTABELLE:
>enthalten die relative H. und die absolute H. von Kombinationen bestimmter Merkmalsausprägungen
>Kontingenz meint das auftreten zweier Merkmale
>Dargestellt werden die absoluten und die Randhäufigkeiten

INDIFFERENZTABELLE:
> enthalten die Werte, welche man bei einer Unabhängigkeit erwarten würde
> ermittelt wir die Tabelle aus den eindimensionalen Randverteilungen

43
Q

Was heisst in diesem Zusammenhang statistische Unabhängigkeit?

A

Das Auftreten der einen Variable beeinflusst nicht das Auftreten oder nicht auftreten einer anderen Variable

Ein unabhängiges Auftreten der Variablen, es beeinflusst sich nicht gegenseitig

44
Q

Was versteht man unter unabhängigen und abhängigen Variablen, unter symmetrischen und asymmetrischen Beziehungen in diesem Zusammenhang?

A

Symmetrisch-
Ungerichtet, Richtungszusammenhang unklar

Asymmetrisch-
Richtungszusammenhang klar

Abhängige
Verändert sich auf Grund des Aufkommens einer anderen Variable

Unabhängige Variable
Verändert sich nicht bei aufkommen einer anderen Variable

45
Q

Welche Anforderungen stellen wir an ein ideales Maß für die Beschreibung von bivariaten Zusammenhängen?

A

> der Wertebereich muss sinnvoll sein.

> Im Idealfall liegt dieser von (0-1)

46
Q

Erläutern sie die Odds und Odds Ratio

A

ODDS:
> vergleichen die Chancen zweier sich ausschließender Ereignisse
Mit der Wahrscheinlichkeit (p) und d. Gegenwahrscheinlichkeit 1-p

ODDS RATIO:
Vergleicht zwei Konditionale Odds —> Kreuzverhältnissprodukt

47
Q

Erläutern sie die Maßzahl Phi.

A

Zusammenhangsmaß

48
Q

Erläutern sie das Konzept was hinter der Maßzahl CHI-Quadrat steht.

A

> Vergleicht beobachtete Werte mit den bei einem Nicht-Zusammenhang erwartenden Werten.
Vergleich von Kontingenz- & Indifferenztabelle

49
Q

Erläutern sie das Konzept hinter den PRE-Maßen.

A

> Fehlerreduktionsmaß

>

50
Q

Warum bedarf es für die Analyse ordinal skalierter Daten spezifische Zusammenhangsmaße?

A

Die Zusammenhangsmaße für nominale Daten schöpfen das Potential ordinaler Daten nicht aus, die Zusammenhangsmaße der nominalen Daten können keine Richtungaussagen machen.

Wenn sich die Ordnungsstruktur einbezogen wird, dann ändert sich die Maßzahl.

51
Q

Erläutern sie das Konzept des Paarvergleichs.

A

Jede Person wird mit jeder anderen Person hinsichtlich der beiden zu untersuchenden Variablen verglichen.

Gesamtzahl der vergleichenden Paare
= [N x (N-1)] /2

52
Q

Welche Typen von Paaren können bei solchen Paarvergleichen austreten und wie werden sie benannt.

A

KONKORDANT:
> nur konkordante Paare= perfekt positiver Zusammenhang

DISKONKORDANT
> nur diskondordante Paare= perfekt negativer Zusammenhang

TIEx
> viele TIEx

TIEy

53
Q

Wie kommt es dass man in den Sozialwissenschaften häufig nur mit schwachen oder mittelstarken Zusammenhängen zutun hat.

A

> Komplexe Zusammenhänge
Vielfältige Wechselwirkung
Faktoren lassen sich nur bedingt voneinander isolieren

54
Q

Welche Rolle können unterschiedliche Zusammenhänge in Subgruppen für den in der Gesamtgruppe beobachtbaren Zusammenhang spielen.

A

> Schwache Zusammenhänge in der Gesammtgruppe können Hinweise für stärkere Beziehungen liefern, die in Subgruppen vorliegen.
Nur weil der Gesammtzusammenhang schwach ist, bedeutet dies eventuell nicht, dass keine stärkeren zusammenhänge vorliegen

55
Q

Klären sie den Begriff der Regression und der Korrelation.

A

Regression = Zurückführung der abhängigen auf die unabhängige Variable

Korrelation= Aussage über den Zusammenhang und deren Stärke

56
Q

Was ist eine Regressionsgerade?

A

> Bestmögliche Repräsentierung der Verteilung durch geringsten Abstand von Gerade zu allen Punkten

> Untersuchung des Zusammenhangs zwischen eigener abhängigen und einer unabhängigen Variable

> Regressionsgerade bildet den Zusammenhang mit einer linearen Gerade, welche den linearen Zusammenhang untersucht

57
Q

Wie sind die Parameter der Regressionsgeraden zu interpretieren?

A

Y= a+bx

Y= die Gerade

A= Steigung der Gearde

B= y-achsenabschnitt

58
Q

Was ist ein Determinationskoeffizient?

A

> Kennzahl zur Beurteilung des Anpassungsvermögens einer Regression

> basiert auf Quadratsummenzerlegung, Gesammtsumme wird in erklärende und nicht erklärende Varianz geteilt

1= sehr starker Zusammenhang 
0= kein Zusammenhang
59
Q

Welchen Wertebereich kann ein solcher Koeffizient (Determinationskoeffizient) annehmen?

A
0 bis 1 
> keine Aussage über die Richtung 
0 —> kein Zusammenhang 
0,05 —> geringe Korrelation 
0,2 —> mittlere Korrelation 
0,5 —> hohe Korrelation 
0,7 —> sehr hohe Korrelation
60
Q

Erläutern sie die Berechnung und die Interpretation des standardisierten Regressionskoeffizient: b*

A

> es handelt sich um eine Standardisierung der Steigung

> Verteilung die mehr als 2 Variablen untersuchen

> Ausgleich von verschiedenen Maßeinheiten

B x (Sx/Sy)= b*

61
Q

Erläutern sie das Konzept der Variable Bildungsjahre.

A

> metrische Transferierung der Variable Schulabschluss

7 = kein Schulabschluss 
9 = Hauptschulabschluss 
10 = mittlere Reife 
12 = Fachabitur 
13 = Abitur 

1,5 Jahre —> Lehre/Verwaltung
2 Jahre —> Fachschulabschluss
3 Jahre —> Technikerausbildung
5 Jahre —> Hochschulabschluss

62
Q

Erläutern sie den SPSS-Output.

A
B—> Steigung 
R= Korrelationskoeffizienten 
R2 = Determinationskoeffizient 
Beta= standardisierter Regressionskoeffizient 
Konstante= y-wert
63
Q

Interpretieren sie die Ergebnisse: Koeffizienten, Regressionsgerade, Zusammenhangsmaße

A

Determinat

64
Q

Erläutern sie die in der Vorlesung vorgestellten Modellannahmen für die Verwendung eines linearen Regressionsmodells.

A

1) Adäquanz eines linearen Modells
( könnte z.b. auch parabelförmigoder exponentiell sein)

2) Homoskedastizität
(Gleiche Streuung der Punkte um die Regressionsgerade & damit die Residuen in allen Wertebereichen) —> Lösung: kann Logaritmierung sein

3) Normalverteilung der Residuen
(Wenn Residuen nicht normalverteilt sind muss man andere Faktoren miteinbeziehen/ es gibt immer viele Randbedingungen)

4) Beeinflussung der Regression durch Ausreißer
(Hohe Hebelkraft d. Ausreißer/ Extremfälle müssen überprüft & eventuell entfernt werden)

65
Q

Skizzieren sie summarisch, wie die Prüfung dieser Modellannahmen erfolgt.

A

D

66
Q

Was ist ein statistischer Zusammenhang?

A

> Modell zur Untermauerung/Widerlegung kausaler Argumentationen

> erlauben eine (Un)Plausibilisierung verschiedener kausaler Argumentationen

> Konzept der Variable, Transformation sozialer Phänomene in den numerischen Raum

> drückt mathematisch eine Beziehung zwischen Variablen aus, die vom Wissenschaftler konstruiert wurden

67
Q

In welchem Verhältnis stehen statistische Zusammenhänge und Erklärungen? Erläutern sie Probleme.

A

> Mehrebenenprobleme
unterschiedliche Wirkungslogiken
Zeitdimension (dynamische Entwicklungen)
komplexe Interaktion zwischen Variablen

68
Q

Was versteht man unter einem ökologischen Fehlschluss?

A

> ökologischer Fehlschluss bedeutet dass es sich bei dem vorliegenden Zusammenhang um einen Scheinzusammenhang handelt, welcher bei Einbeziehung anderer Variablen kein Zusammenhang mehr ist

69
Q

Welche Zusammenhangsbeziehungen können einen solchen Fehlschluss „aufklären“?

A

> die Einbeziehung einer Drittvariablen
Z.B. niedriges Mitniveau und Drogenabhängigkeit
(Höhere Kriminalität durch Beschaffungskriminalität)

70
Q

Wie könnte man herauskriegen, ob tatsächlich ein ökologischer Fehlschluss vorliegt?

A

> Drittvariablenkontrolle
Weitere Faktoren in Form von Drittvariablen Kontrolle miteinbeziehen um zu schauen ob es sich tatsächlich um einen Zusammenhang handelt
Bei Kriminalität z.b Drogenabhängigkeit, Beschaffungskriminalität

71
Q

Wo liegen Probleme bei der Interpretation von Zusammenhangsbeziehungen auf der Basis von Querschnittsdaten?

A

> das Problem ist, dass es sich bei Querschnittsdaten lediglich um Momentaufnahemn handelt, welche unterschiedliche Form der Interpretation zur Folge hat

72
Q

Welche darüber hinausgehenden Interpretationsmöglichkeiten bieten Panel-Daten?

A

> mit längeren Perioden der Begutachtung, kann man fundiertere Aussagen über Veränderung oder gleichbleibende Zustände tätigen, da man eine bessere Vergleichbarkeit hat

> bessere Möglichkeit in Richtung kausal zu argumentieren

73
Q

Welche Bedeutung hat die Einbeziehung von Drittvariablen für die Untersuchung von Zusammenhängen zwischen einzelnen Variablen?

A

> Drittvariable eröffnet neue Möglichkeiten bei Analayse und Interpretation
Modelle werden durch Einbeziehung einer Drittvariablen komplexer und eventuell unübersichtlicher

74
Q

Warum spricht man von Dritt-Variablen-Kontrolle?

A

> durch die Einbeziehung einer Drittvariablen kann sich der Zusammenhang einer bivariaten Verteilung auflösen

> die Einbeziehung einer Drittvariablen kann also als Prüfung eines bivariaten Zusammenhangs genutzt werden

75
Q

Erläutern sie an vier ausgewählten Varianten, wie sich die Zusammenhänge zwischen den drei beteiligten Variablen gestalten können.

A

Additiver Effekt —> Drittvariable verstärkt den Zusammenhang, hängt aber selber nicht von x ab

Scheinkausalität/Zusammenhang—> x und y werden durch z erklärt (Storchenbeispiel)

Intervention —> x bestimmt z, z bestimmt y, kein direkter Zusammenhang von x&y
(Kriminalität&Migrationshintergrund)

Suppression —> Einfluss von x auf y wird durch z verschleiert
(Geschlecht-Einkommen durch Bildung in einem Unternehmen)

76
Q

Warum ist es bedeutsam zwischen Zusammenhangsbeziehungen (Korrelationen) und kausalen Beziehungen zu unterscheiden?

A

> bei Suche nach Erklärungen für statistische Zusammenhänge wird es sehr schnell sehr komplex und theoretisch

> durch statistische Zusammenhänge kann man keine Kausalität unterstellen
—> keine Letztbegründungen drängender Fragen durch Statistik

77
Q

Geben sie einige Beispiele und stellen sie jeweils Probleme dar.

Korrelation und Kausalität

A

> Zusammenhang zwischen Geburten und Störchen

—> die Variablen können Korrelieren, aber die Storchenrate hängt nicht kausal mit der Geburtenrate zusammen

78
Q

Beispiel: Geschlecht, Bildung & Stundenlohn

a) In welchem Zusammenhang stehen Geschlecht und Stundenlohn?
b) Welches zusätzlichen Erkenntnisse gewinnt man durch die Einbeziehung der Bildung?

A

a) Stundenlohn ->abhängig
Geschlecht->unabhängig
Der Stundenlohn variiert je nach Geschlecht

b) Der Zusammenhang zwischen Geschlecht und Einkommen bleibt bestehen. Die Einbeziehung der Drittvariable ergibt keinen signifikanten Unterschied

79
Q

Geben sie die Funktion zur Ermittlung der Y-Werte für einen Drei-Variablen Zusammenhang an; erläutern sie einzelne Parameter.

A

Y=b0+b1*x+b2+w+E

B0= Regressionskonstante

B1 & B2 = partiellen Regressionsgewichte

E = Residuen (Streuung der Punkte um die Regressionsebene)

80
Q

Was ist eine Regressionsebene und durch welche Parameter wird sie bestimmt?

A

> 3 Variablen —> somit 3 Dimensionen
—> Ebene die von allen Punkten den geringsten Abstand hat (Regressionsgerade)

> Ŷ= b0 + b1+ x + b2 * W

B0= Regressionskonstante

B1 & B2 = partiellen Regressionsgewichte

81
Q

Wie kann man die Parameter der Regressionsebene interpretieren?

A
Ÿ= B0+B1*x+B2*w
B0= Regressionskonstante->keine Aussagekraft, ohne Regressionsgewichte, Startpunkt der Ebene 
B1= partieller Effekt von x auf ÿ bereinigt um den Einfluss von w 
B2= partieller Effekt von w auf ÿ bereinigt um den Einfluss von x
82
Q

Wie kann die Darstellung vereinfacht werden, wenn es sich um eine dichotome Dritt-Variable handelt? Bitte skizzieren sie diese Variante.

A

> Wenn die Drittvariable dichotom ist
= Vereinfachung möglich
—> Reduktion auf 2 Dimensionen
2 parallel verlaufende Graphen mit Abstand des Faktors (Regressionsgewicht) von W

83
Q

Was ist damit gemeint wenn man sagt, der Einfluss einer Variablen wurde auspartialisiert?

A

> Bereinigung des Effekts der entsprechenden auspartialisierten Variable: b1 beschreibt partiellen Einfluss von X auf Y bereinigt um Einfluss von W auf Y

Z.B
Pxy.w
—> w wird ausgeschlossen, auspartialisisert
Betrachtet wird nur der Zusammenhang zwischen x und y

84
Q

Welchem Zweck dient die Standardisierung der Regressionsgewichte?

A

> ermöglicht den Vergleich der unterschiedlich skalierten Regressionsgewichte

> Aussage möglich, welche Variable sich stärker auf y auswirkt

85
Q

Wie erfolgt die Standardisierung der Regressionsgewichte?

A

Bk*=bk•sk/sy

k ist dabei der Index für x,w usw.

86
Q

Unter welchen Bedingungen entsprechen die standardisierten Regressionsgewichte den bivariaten Korrelationskoeffizienten zwischen den unabhängigen und der abhängigen Variable? Begründen sie dies an Hand der Formel.

A

> standardisierte Regressionsgewichte entsprechen bivariaten Korrelationskoeffizienten zwischen Variablen wenn Zusammenhang zwischen x und w = 0 ist

87
Q

Welche Zusammenhangsmaße lassen sich für die Beschreibung von trivariaten Zusammenhängen nutzen?

A

> multipler Determinationskoeffizient

> Bivariate Beziehung in trivariaten Zusammenhängen

> symmetrisch: partielle Korrelationskoeffizienten

> asymmetrisch: partielle Regressionsgewichte

88
Q

Welche Zusammenhangsmaße lassen sich für die Beschreibung der bivariaten Beziehungen in einem trivariaten Zusammenhang nutzen?

A

Symmetrisch:
Partielle Korrelationskoeffizienten

Asymmetrisch:
Partielle Regressionsgewichte

89
Q

Was sind partielle Korrelationskoeffizienten? Erläutern sie dabei auch die Indexierung der Koeffizienten.

A

> Maßzahl zur Stärke des Zusammenhangs zweier Variablen unter Ausschluss der dritten Variablen

> Rxy.w bedeutet, dass W ausgeschlossen wurde uns sich nur der Beziehung zwischen xy gewidmet wir

90
Q

Wie werden die partiellen Korrelationskoeffizienten ermittelt; zeigen sie dies am Beispiel des Koeffizienten rxy.w.

A

Foto

91
Q

Was unterscheidet partielle Korrelationskoeffizienten von partiellen Regressionsgewichten?

A

> symmetrisches Modell

ALSO keine Richtungsannahme

92
Q

Was unterscheidet partielle Korrelationskoeffizienten von den bivariaten Korrelationskoeffizienten?

A

> Konstanthaltung der dritten Variablen (Bereinigung um diesen Effek), daher fallen sie meist geringer aus

93
Q

Wie wird der multiple Determinationskoeffizient berechnet? Erläutern sie die Bedeutung der einzelnen Terme.

A

Formelsammlung Seite 19 letzter Punkt

94
Q

Wie kann der multiple Determinationskoeffizient interpretiert werden; erläutern sie dabei auch die Begriffe Gesamtvariation, erklärte und nicht erklärte Variation.

A

Erklärte Variation ->

95
Q

Geben sie ein Beispiel für die Anwendung des Logistischen Regressionsmodells.

A

Künstliche Intelligenz -> Bereich des maschinellen Lernens

Ein Algorithmus der Herausfindet ob etwas zutrifft oder nicht. Zum Beispiel Krankenversichert ist oder nicht

96
Q

Was unterscheidet die logistische von der linearen Regression?

A

> metrische Variablen als erklärende Variablen, dichotome/kategoriale Variablen als abhängige Variablen

> dichotome/kategoriale Variablen lassen keinen Raum für Interpolierung (entweder wähle ich CDU [1] oder nicht [0]

> bei logistischen Regressionen geht es im Prinzip um die Voraussage von Entscheidungen und Angaben, wie gut diese Voraussagen sind (Wahrscheinlichkeit)

> genauer als lineare Reg. Für solche Betrachtungen

97
Q

Was ist ein Effektkoeffizient und wie kann er interpretiert werden? Beziehen sie sich dazu auf das Beispiel in Díaz-Bone zum Zusammenhang von Netzwerkgröße und Bleibewahrscheinlichkeit.

A

> Ja/Nein Entscheidung Wahrscheinlichkeiten

> p für Ja/1-p für Ja (Gegenwahrscheinlichkeit)

> Effektkoeffizienten bilden konditionale Odds ab, Euler´sche Zahl hoch Regressionsgewicht einer Variable = Konditionale Odds

> Effektkoeffizient =1 kein Zusammenhang
Effektkoeffizient gen Null —> negativer Zusammenhang
Effektkoeffizient gen Unendlich —> positiver Zusammenhang

98
Q

Mit welchen Maßen können Aussagen über die Qualität des Gesamtmodells gemacht werden?

A

> Prozentangabe, wie viele Fälle durch log Regression richtig vorhergesagt wurden

> Logarithmierte Likelihood