Univariante, Bivariante und Multivariante Datenanalyse Flashcards

Question

Wie wird die Analyse von mehreren Merkmalen genannt?

Answer 1

Multvariante Analyse

Answer 2

Der Mittelwert bei Merkmalen mit Intervall- und Ratioskala - nur dann ist er interpretierbar! Berechnet durch die Summe aller gültigen Werte, dividiert durch die Anzahl der Werte

Answer 3

Der Median ist der Mittelwert bei Merkmalen mit Ordinalskala. Er kann immer dann angerannt werden, wenn Merkmale in einer Rangfolge existieren. Es ist der Merkmalswert, den mindestens 50% alle Werte einer Stichprobe vom Umfang unterschreiten oder erreichen und den mindestens 50% alerter Werte überschreiten oder erreichen Der Median muss nicht ein Wert des vorliegenden Datenmaterials sein, sondern der, der dieses in zwei gleichgroße Hälften teilt Der Median ist robust gegenüber Ausreißern (Extremwerten)

Answer 4

Der Modus ist der Mittelwert bei Merkmalen mit Nominalskala. Hier wird auch von "modalen Klassen" gesprochen. Es ist die am häufigsten Auftretende Ausprägung oder Merkmalswert.

Answer 5

Die unterschiedliche Streuung, die zwei Verteilungen auch bei ähnlichen zentralen Tendenzen aufweisen können. Das Dispensionsmaß informiert über den Unterschied dieser Werte.

Answer 6

Die Gesamtbreite aller Messwerte. Sie gibt an in welchem Bereich sich die Messwerte befinden. Zur Berechnung wird der kleinste Wert vom größten abgezogen.

Answer 7

Ein Quantil definiert einen bestimmten Teil einer Datenmenge. In diesem Fall ein viertel.

Answer 8

Der häufigste Perztil ist der Median. Für das untere und obere viertel einer Verteilung (25% und 75%) wird auch der Begriff "unteres bzw. oberes Quantil" verwendet.

Answer 9

Die inneren 80% eines Perztils - also begrenzt durch P10 und P90.

Answer 10

Die Summe der quadrierten Abweichungen vom Mittelwert Sie ist gleich Null, wenn keine Differenz zwischen den Werten besteht - also nur ein Merkmalswert vorhanden ist

Answer 11

Die Wurzel der empirischen Varianz. Sie ist inhaltlich interpretierbar.

Answer 12

Wenn eine Hypothese als Wenn-Dann-Frage aufgestellt wurde. Die einfachste Form der Kreuztabelle ist die 2x2 Tabelle zur Überprüfung einer unabhängigen und einer abhängig Variable. Dabei werden Aussagen über das Vorhanden- bzw. Nichtvorhandensein getroffen.

Answer 13

Eine 2x2 Tabelle vergleicht eine unabhängige mit einer abhängigen Variable. Dabei wird die unabhängige Variable in den Spalten, die abhängig in den Zeilen dargestellt. Die einzelnen Felder werden nach der Position der unabhängigen + abhängigen Variable benannt. Zusätzlich wird die 2x2 Tabelle in der Regel um die Randhäufigkeit ergänzt.

Answer 14

Die Randhäufigkeit beschreibt die Ausprägung eines Merkmals im Bezug auf die gesamte Messung. - Also wie oft dieses Merkmal in der Messung vorhanden ist. - Dabei werden die Werte einer Zeile bzw Spalte zusammengefasst.

Answer 15

Die Gesamte Randhäufigkeit

Answer 16

Die Prozentuale Darstellung der Randhäufigkeit

Answer 17

Der Chi-Quadrat-Test untersucht die Häufigkeitsunterschiede von Merkmalsausprägungen und analysiert deren Kombinationen. Dabei wird die Häufigkeit der vorhandenen Werte mit der erwarteten Häufigkeit verglichen. Ziel ist es eine Aussage über die Signifikanz der Abweichung zu treffen. Ist die Abweichung Zufall oder nicht?

Answer 18

Die Korrelationsanalyse untersucht wechselseitige Zusammenhänge. Dabei ist sie Abhängig von der Erscheinung der Variablen sowie dem Grad und der Art des Zusammenhangs

Answer 19

*von der Erscheinung der Variablen *vom Grad und der Art des Zusammenhangs der Variablen

Answer 20

* X bewirkt Y * Y bewirkt X * X und Y bewirken Z

Answer 21

Der Korrelationskoeffizent beschreibt die Stärke des Zusammenhangs zwischen zwei Variablen Er kann den Wertebereich -1 bis +1 annehmen Er unterscheidet sich nach dem Skalenniveau Ermöglicht die interpretation von Werten

Answer 22

Es stellt die Stärke des Zusammenhangs zwischen zwei Variablen da. Der Wertebereich des Bestimmungsmas liegt zwischen 0 und +1 - je näher der Wert an 1 liegt, desto höher ist der Zusammenhang. Ist der Wert = 0 gibt es keinen Zusammnehang Das Betsimmtheitsmaß ist das Gütemaß der Anpassung einer Regression

Answer 23

Der Pearson-Korrelationseffizient findet bei normalverteilten Daten mit linearem Zusammenhang zwischen den Variablen Anwendung. Er ist bei normainalskalierten Daten anwendbar

Answer 24

Der Spearman-Korrelationseffizente findet bei nicht normalverteilten Daten und nicht linearen Zusammenhängen Anwendung. Dabei ist er nicht auf norminalskalierte Daten beschänkt

Answer 25

Kundalls Tan ist ein Model zur Berechnung des Korrelationskoeffizienten. Es ist vielseitig und ein Vergleich aller Wertepaare unteteinander ist möglich. Dabei ist das Model auf beliebig viele Werte anwendbar und nicht auf Wertepaarreihen beschränkt.

Answer 26

Partialkorrelation ist der Wert für die Stärke des Zusammenhangs von zwei Variablen unter Herausrechnung einer dritten. Auch: herauspartialisieren Beispiel: Verheiratete Paare - Alter

Answer 27

Die Regressionsanalyse erklärt Zusammenhänge zwischen abhängigen und unabhängigen Variablen. Dabei können unbekannte Werte der abhängigen Variablen geschätzt werden. Dazu werden Zeit, Wirkung oder Ursache prognostiziert.

Answer 28

*Zeitreihungsanalysen: wie verändert sich die Variable im Laufe der Zeit? * Wirkungsprognossen: wie verändert sich die abhängige Variable, wenn die unabhängige verändert wird? * Ursachenanalyse: Welchen Einfluss hat die unabhängige auf die abhängige Variable?

Answer 29

Ziel ist die Schätzung bzw.Berechnung der Regressionsgleichung. Das heißt die Darstellung eines Zusammenhangs (Je niedriger der Preis, desto höherer der Verkauf) anhand von Datenpunkten.

Answer 30

Die Grade durch Datenpunkte, bei der der Abstand der Datenpunkte zur Geraden minimal ist. Perfektion diese Gerade wenn alle Abstände minimal sind.

Answer 31

Residuum ist der Abstand des Datenpunkts zur Regressionsgreaden in einer Regression.

Answer 32

Durch das Verfahren des kleinsten Quadrats = Quadriesierung, Summierung, Minimierung der Residuuen aller Datenpunkte. Dabei werden größere Abstände stärker gesichtet und positive und negative Abstände heben sich nicht auf.

Answer 33

Das Bestimmtheitsmaß gibt an, wie gut ein Model durch den Regressionsgrad erklärt wird Der Wertebreich liegt zwischen 0 und +1 Bei 0 liegt keine Varianz vor, 1 erklärt die gesamte Varianz.

Answer 34

Die Regression beschreibt den Zusammenhang von mindestens zwei Variablen zueinander. Dargestellt auf einem Grafen.

Answer 35

Der ist ein Mittel der Varianzanalyse. So kann mit einer gewissen Konferenz entschieden Werdern, ob zwei Stichproben aus unterschiedlichen normalverteilten Populationen hinsichtlich ihrer Varianz Unterschiede aufweisen.

Answer 36

Mit einem T-Test wird die Verteilung vom Mittelwert der Stichprobe zum wahren Mittelwert der Grundgesamtheit berechnet. Wenn Sie die Daten untersuchen, erkennen Sie, dass die durchschnittliche Bewertung von männlichen Befragten bei 9 liegt, während die durchschnittliche Bewertung von weiblichen Befragten bei 12 liegt. Woher sollen Sie nun wissen, ob sich 9 signifikant von 12 unterscheidet? Genau hier kommt der t-Test ins Spiel. Der t-Test ist eine Möglichkeit, zu ermitteln, ob sich zwei Zahlen signifikant voneinander unterscheiden. Es gibt verschiedene Arten von t-Tests, und jeder wird mit einer anderen Formel berechnet.

Answer 37

Die Fakorenanalyse wird zur Komplexitätzreduzierung bei einer großen Menge an Variablen eingesetzt. Sie hat zwei Formen: explorativ und konfirmativ Bei der Faktorenanalyse können interessante Variablen zunächst wehrlos erhoben werden und dann mit der Faktorenanalyse auf ihre Relevanz überprüft werden. - Diese extrahiert abhängige Beschreibung- und Erklärungsfaktoren.

Answer 38

Die explorative Faktoenanalyse dient der Datenerhebung. Sie ist ohne Vorwissen über die Zusammenhänge der verschiedenen Variablen möglich

Answer 39

Die konfirmative Faktorenanalyse überprüft eine Hypothese. Die hierfür relevanten Variablen müssen bekannt sein.

Answer 40

In der Problematik, das einerseits * extrahierte Faktoren Variablen zusammenfassen und vereinfachen sollen andererseits *ein Informationsverlusst dadurch entsteht wenn die extrahierten Faktoren viele Variablen zusammenfassen Es muss daher eine "goldene Mitte" gefunden werden

Answer 41

Die Untersuchung von Kausalzusammenhängen (Ursache-Wirkung) zwischen unabhängigen Variablen. Kennt man diese Beziehung kann eine Aussage über de Güte getroffen werden. Außerdem lassen sich abhängige Variablen schätzen.

Answer 42

Während du bei der einfachen linearen Regression nur eine Variable betrachtest, verwendest du bei der multiplen linearen Regression also mehrere Variablen, um das Kriterium zu schätzen. Das hat den Vorteil, dass du mehrere Einflussfaktoren gleichzeitig in deiner Vorhersage berücksichtigen kannst.

Answer 43

*Die Regressionskoeffizienten müssen einzeln darauf überprüft werden welche unabhängige Variable den größten Einfluss hat? (Dazu wird ein T-Test durchgeführt) *linearität muss gegeben sein *Homoskelastizität (Identische Varianz bei den Residuen) *keine Autokorrelation *keine Multikolliearität

Answer 44

Multikolliearität liegt vor, wenn sch eine unabhängige Variable als lineare Funktion einer anderen unabhängigen Variable darstellen lässt.

Answer 45

Autokorrelation liegt vor, wenn zwei Residuuen miteinander korrelieren. Das wird mit den Durbin-Watson-Test überprüft. Wenn hier der Wert 2 herauskommt liegt keine Autokorrelation vor.

Answer 46

Die Autokorrelation von zwei Risiduen. Der Wert zwischen 0 und 4 gibt Auskunft über den Grad der Korrelation. 0 = positive Autokorrelation 4 = negative Autokorrelation 2 = keine Autokorrelation

Answer 47

Homoskelastizität bedeutet, dass es unter den Risiduen identische Varianzen gibt. Das Gegenteil ist hetroskelastizität.

Answer 48

Die Funktion der Varianzanalyse ist das finden von Mittelwertunterschieden. Dabei kann die Varianzanalyse einfaktorisch oder mehrfaktorsch sein. Wichtig: Das Wirkungsmodel (Welche Variable ist welche) muss bekannt sein.

Answer 49

Der Mittelwert stellt den zentralen Wert einer Merkmalsverteilung dar. Je nach Skalenniveau sind dies Modus, Median oder arithmetisches bzw. getrimmtes Mittel.

Answer 50

... der Anzahl der zu überprüfenden Variablen. Typisch sind: ANOVA (analysiert eine abhängige Variable) MANOVA (analysiert mehrere Variablen gleichzeitig)

Answer 51

1. Definition des Erklärungsmodels - welche unabhängigen und abhängigen Variablen werden betrachtet - und Abklärung der methodischen Voraussetzungen (Skalenniveau, Homoskelasitizität, Verteilungsformen) 2. Varianzanalyse: ermitteln der Gesamtvarianz des Models und der Varianzen innerhalb der Gruppen - das Verhältnis gibt Auskunft über den Erklärungsgrad der Faktoren 3. Bei Unterschieden zwischen den Guppenmittelwerten (t-Test) wird überprüft, ob es sich um echte Unterschiede in der Grundgesamtheit handelt Dazu wird auch ein Post-Hoc-Test durchgeführt.

Answer 52

Ein Test zur Feststellung welcher der wahren Faktorenstuffenmittelwerte sich unterscheidet. 2 Formen 1. Paarvergleichstest: Dabei werden alle möglichen Faktornestufenpaare auf Signifikanz getestet 2. Spanweitentest

Answer 53

Eine mistangewendete Form des Post-Hoc-Tests. Dabei ist der Schaffe-Test sicher, birgt aber die Gefahr, dass Differenzen die im T-Test oder F-Test aufgefallen sind, hier nicht erkannt werden

Answer 54

Strukturgleichungsmodelle (SGM) bilden a priori formulierte und theoretisch und/oder sachlogisch begründete komplexe Zusammenhänge zwischen Variablen in einem linearen Gleichungssystem ab und dienen der Schätzung der Wirkungskoeffizienten zwischen den betrachteten Variablen sowie der Abschätzung von Messfehlern“ (Weiber/Mühlenhaus 2014, S. 7)

Answer 55

*Zielsetzung: Prüfung eines theoretisch oder sachlogisch erstellten Hypothesensystems. *Typen von Variablen: Analyse von Ursache-Wirkungs-Zusammenhängen zwischen manifesten und/oder latenten Variablen. *Variablenbeziehungen: Eine Variable kann im Hypothesensystem sowohl eine abhängige (endogene) als auch eine unabhängige (exogene) Größe darstellen, wodurch Interdependenzen zwischen Variablen erfasst werden können. *Vorgehensweise: Abbildung der Variablenbeziehungen in einem sog. Strukturmodell (Pfaddiagramm) und Überführung in ein lineares Mehrgleichungssystem. Eine SGA besteht aus mindestens zwei Regressionsbeziehungen, durch die das Strukturmodell abgebildet wird. *Schätzmethodik: Die Wirkungskoeffizienten (Pfadkoeffizienten) des Strukturmodells werden simultan oder sukzessive so geschätzt, dass mithilfe der Parameterschätzungen und der a priori unterstellten Variablenstruktur die zu den Variablen erhobenen Ausgangsdaten möglichst genau reproduziert werden können

Answer 56

Wenn etwas mit einer bestimmten Wahrscheinlichkeit nicht auf Zufälligkeit beruht. (min. 95%)

Answer 57

Sie dient zur Einteilung einer Menge von Objekten in Cluster (Gruppen); Voraussetzung dabei ist, dass die Objekte einer Gruppe möglich homogen sind. So können mehrere Merkmale parallel Betrachtet erden und Ähnlichkeite/Unterschiede über mehrere Dimenssionen. Die Herausforderung: die Ähnlichkeit der Objekte muss genau gemessen werden - das besten Verfahren dazu ist die hirachische Clusteranalyse

Answer 58

Die hierarchische Cuteranalyse ist fast immer anwendbar, doch ihr Informationsgehalt ist geringer als bei anderen multivarianten Analyseverfahren

Answer 59

über den Prozess des Agglomerierens. Dazu werden zunächst alle Objekte als einzelne Cluster betrachtet, bevor die zwei Objekte mit der geringsten Distanz zu einem Cluster zusammengefasst werden. Dann beginnt der Prozess von vorne. Am Ende steht ein Megercluster in dem alle Objekte zusammengefasst sind. Das Ergebnis ist allerdings die optimale Cluterverteilung, die durch die Untersuchung der einzelnen Schritte und Teilstufen gefunden werden muss. Das braucht Erfahrung.

Answer 60

Eigentlich immer. Bei metrisch skalierten Merkmalen auch ohne weitere Arbeit. Nominal und ordinal skalierte Merkmale müssen erst codiert werden (0/1) Zu beachten ist, das keine Korrelation zwischen den Merkmalen vorliegen sollte

Answer 61

Nach dem Skalenniveau des Merkmals

Answer 62

Als Tabelle oder Grafik *Distanzmatrix: sämtliche Distanzwerte aller Einzelobjektpaare werden dargestellt *Agglomerationstabelle: Abbildung des Verlaufs (denn bei jeder Zusammenfassung werden de Distanzwerte (Koeffizienten) größer *Eiszapfendiagram *Dendrogramm

Answer 63

*weil mehrere Hypothesen gleichzeitig untersucht werden müssen *weil eine Wechselwirkung zwischen den Variablen bestehen kann (das heißt eine Variable kann gleichzeitig abhängig und unabhängig sein, je nach Untersuchung) = intervenierende Variable

Answer 64

Bei einer intervenierenden Variable besteht eine Wechselwirkung, das heißt eine Variable kann gleichzeitig abhängig und unabhängig sein, je nach Untersuchung) =

Answer 65

Verwobene Konstrukte in Strukturen zu überführen und einzelne Hypothesen testen zu können (bei der Annahme, dass Wechselwirkungen ausschließlich linear sind) * Kann auch Richtung und Stärke der Wechselbeziehung schätzen *kann Messfehler herausfiltern und reduzieren

Answer 66

Das Herausfiltern von Messfehlern

Answer 67

Nach den Variable. 1. manifeste Variablen (empirisch direkt zu Beobachten) 2. latente Variablen ( empirisch nicht zu beobachtend, sondern nur du h ein geeignetes Messmodel)

Answer 68

Eine Variable die empirisch Direktübertragung beobachten ist

Answer 69

Eine latente Variable kann nicht empirisch beobachtet werden. Man nutzt hier eingeeignetes Messmodel

Answer 70

*Regressionsanalyse *Pfardanalyse (quasi mehrere Regressionsanalysen) *LISREL-Modelle (linear Struktur Relations) *Varianzanalyse

Answer 71

Die Abweichung des Mittelwerts um den eigentlichen Mittelwert der Grundgesamtheit bei unterschiedlichen Stichproben. Ein Maß für die Größe der Streuung

Answer 72

Streuung einzelner Werte einer Stichprobe um den Stichprobenmittelwert

Answer 73

Bei der eingipfligen symmetrischen Verteilung

Answer 74

Während aretmetisches Mittel und Median gleich bleiben, können bei dieser Verteilubg mehrere Modalwerte auftreten. Das nennt man auch Bimodale Verteilung

Answer 75

Das arithmetische Mittelist größer als derMedian. Der Median ist größer als der Modalwert Linkssteile Verteilungen werden auch rechtsschief oder positiv schief genannt.

Answer 76

Das arethmetische Mittel ist kleiner als der Median. Der Median ist kleiner als der Modalwert. Solche Kurven werden auch Linksschwüngen oder negativ steil genannt

Answer 77

Rechtsstreit oder negativ schief

Answer 78

Linkssteil oder positiv schlief

Answer 79

In vier Schritten 1. Auswahl de Variablen die einbezogen werden sollen Dafür wird eine Korrelationsmatrix erstelltund mit Hilfe dieser eine engere Auswahl getroffen Variablen die minimal miteinander korrelieren werden herausgenommen 2. Faktoren werden extrahiert. Dabei werden Fakoren ermittelt, was zur Clusterbildung führt Anhand statistischer Kennzahlen wird überprüft ob das gefundene Faktorenmodel passend ist 3.Transformation der Faktoren um sie zu interpretieren. Auch: Faktoration 4. inhaltliche Interpretation: Welche Variablen können welchen Faktoren zugeordnet werden? Wie gut erklärt sich damit das Model?

Answer 80

Faktoren können negative Werte oder positive Werte annehmen oder nahezu bei 0 liegen Negative Werte bedeutet, dass im Vergleich zu Anderen, hier ein unterdurchschnittlicher Zusammenhang zwischen Objekt und Faktor besteht Positive Werte deuten auf einen überdurchschnittlichen Zusammenhang zwischen Objekt und Faktor Ein Wert der nahezu 0 ist zeigt hingegen, dass der Zusammenhang zwischen Objekt und Faktor im Vergleich durchschnittlich ist