Univariante, Bivariante und Multivariante Datenanalyse Flashcards
Definition diskreter Merkmale/ Variablen
Die Menge der angenommenen Werte ist albzählbar.
Definition von stetigen Variablen
Die Menge der angenommenen Werte ist nicht albzählbar.
Definition von quasistetigen Variablen/Merkmalen
De Menge der angenommenen Werte ist nur aufgrund der mangelnden Auflösung des Messgeräts nicht abzählbar.
Wie können Merkmale Kategorisiert werden?
*in der Anzahl ihrer Ausprägungen
*im Bezug auf das Skalenniveau
*als qualitative oder qualitative Merkmale
Definition eines normalskalierten Merkmals
Die Ausprägungen sind Namen oder Kategorien die NICHT in eine Ordnung gebracht werden können.
Beispiel: Haarfarben, Geschlecht
Definition eines ordinaklskalierten Merkmals
Die Ausprägungen des Merkmals können in eine Ordnung gebracht werden.
Beispiel: Schulnoten
Definition eines intervalskalierten Merkmals
Die Ausprägungen können in eine lineare Ordnung mit einheitlichen Abständen gebracht werden.
Beispiel: Grad Celsius
Definition eines verhältnisskalierten Merkmals
Die Ausprägungen des Merkmals können quotiert und inhaltlich interpretiert werden.
Beispiel: Währungswerte
Definition eines kardianlsskalierten Merkmals
Die Ausprägung der Merkmale sind sowohl intervallskalierte als auch verhältnisskalierte Merkmale. - also in linearer Ordnung mit einheitlichen Abständen und quotierter und interpretierbar.
Definition quantitativer Merkmale
Messbare Merkmale
Deviation qualitativer Merkmale
Der Zustand der Merkmale ist NICHT messbar.
Womit Beginnt die empirische Auswertung der gesammelten Daten?
Mit einer Exploration zur Übersicht. Dabei werden die Daten nach Ausprägung und Häufigkeit z.B. in einer Tabelle dargestellt.
Die tabellarische Darstellung erlaubt außerdem die Erfassung nicht erlaubter Werte.
Was ist die “absolute Häufigkeit”?
Die Verteilung der Antworten in Nennungen, also absoluten Zahlen
Was ist die “relative Häufigkeit”?
Die Verteilung der Häufigkeit in Prozenten
Womit wir die Gesamtzahl aller Fälle bezeichnet?
n
Was sind “gültige Prozentwerte”?
Anders als bei der relativen Häufigkeit, werden hier nur gültige Werte berücksichtigt.
Welchen Wert muss die letzte Ausprägung der Häufigkeitstabelle in der Spalte “kumulative Häufigkeit” aufweisen?
100
Wann ist es sinnvoll Ausprägungen zu Kategorien zusammenzufassen, bevor man sie in einer Häufigkeitstabelle darstellt?
Bei intervallskalierten Variablen oder ordinalsaklierten Variablen mit vielen Ausprägungen (z.B. Gehalt)
Dabei werden Merkmalsausprägungen systematisch gruppiert. Ziel ist eine bessere Übersicht.
Wonach richtet sich die Merkmalskategorisierung?
Nach deme gewünschten Differenzierungsgrad und der Größe der Stichprobe
Wofür ermittelt man die Kategorienbreite?
Wenn man bleichgroße Kategorien bilden möchte. Dazu ermittelt man zunächst die Variationsbreite als Differenz aus den größten und kleinsten Wert und dividiert diesen durch die Gewünschte Anzahl an Kategorien.
Welche sechs Kriterien müssen bei der Bildung von Kategorien beachtet werden?
*die Anzahl der Kategorien soll eine Differenzierung ermöglichen, aber nicht zu hoch sein
*Kategorien sollten die gleiche Breite haben
*jede Kategorie sollte zumindest eine gewisse Anzahl an Fällen aufweisen
*“Natürliche” Schwellwerte müssen berücksichtigt werden
*Kategoriebildung unabhängig von Ausreißerwerte
*Grenzen der Kategorien müssen plausibel sein
Welche sechs Kriterien müssen bei der Bildung von Kategorien beachtet werden?
*die Anzahl der Kategorien soll eine Differenzierung ermöglichen, aber nicht zu hoch sein
*Kategorien sollten die gleiche Breite haben
*jede Kategorie sollte zumindest eine gewisse Anzahl an Fällen aufweisen
*“Natürliche” Schwellwerte müssen berücksichtigt werden
*Kategoriebildung unabhängig von Ausreißerwerte
*Grenzen der Kategorien müssen plausibel sein
Wie wird die Analyse eines einzelnen Merkmals genannt?
Univariante Analyse?
Was ist eine Bivariante Analyse?
Die Analyse von zwei Merkmalen
Wie wird die Analyse von mehreren Merkmalen genannt?
Multvariante Analyse
Was ist das arithmetische Mittel und wie wird es gebildet?
Der Mittelwert bei Merkmalen mit Intervall- und Ratioskala - nur dann ist er interpretierbar!
Berechnet durch die Summe aller gültigen Werte, dividiert durch die Anzahl der Werte
Wann kann der Median genutzt werden?
Der Median ist der Mittelwert bei Merkmalen mit Ordinalskala.
Er kann immer dann angerannt werden, wenn Merkmale in einer Rangfolge existieren.
Es ist der Merkmalswert, den mindestens 50% alle Werte einer Stichprobe vom Umfang unterschreiten oder erreichen und den mindestens 50% alerter Werte überschreiten oder erreichen
Der Median muss nicht ein Wert des vorliegenden Datenmaterials sein, sondern der, der dieses in zwei gleichgroße Hälften teilt
Der Median ist robust gegenüber Ausreißern (Extremwerten)
Wofür verwendet man den Modus?
Der Modus ist der Mittelwert bei Merkmalen mit Nominalskala.
Hier wird auch von “modalen Klassen” gesprochen.
Es ist die am häufigsten Auftretende Ausprägung oder Merkmalswert.
Was ist Dispersion?
Die unterschiedliche Streuung, die zwei Verteilungen auch bei ähnlichen zentralen Tendenzen aufweisen können.
Das Dispensionsmaß informiert über den Unterschied dieser Werte.
Was ist die Variationsbreite oder Range?
Die Gesamtbreite aller Messwerte.
Sie gibt an in welchem Bereich sich die Messwerte befinden.
Zur Berechnung wird der kleinste Wert vom größten abgezogen.
Was ist ein Quantil?
Ein Quantil definiert einen bestimmten Teil einer Datenmenge. In diesem Fall ein viertel.
Was ist ein Perztil?
Der häufigste Perztil ist der Median.
Für das untere und obere viertel einer Verteilung (25% und 75%) wird auch der Begriff “unteres bzw. oberes Quantil” verwendet.
Was ist der Interdezilbereich?
Die inneren 80% eines Perztils - also begrenzt durch P10 und P90.
Was ist die empirische Varianz?
Die Summe der quadrierten Abweichungen vom Mittelwert
Sie ist gleich Null, wenn keine Differenz zwischen den Werten besteht - also nur ein Merkmalswert vorhanden ist
Was ist die empirische Standartabweichung?
Die Wurzel der empirischen Varianz. Sie ist inhaltlich interpretierbar.
Wann wird eine Kreuztabelle verwendet?
Wenn eine Hypothese als Wenn-Dann-Frage aufgestellt wurde.
Die einfachste Form der Kreuztabelle ist die 2x2 Tabelle zur Überprüfung einer unabhängigen und einer abhängig Variable. Dabei werden Aussagen über das Vorhanden- bzw. Nichtvorhandensein getroffen.
Wie sieht eine 2x2 Tabelle aus?
Eine 2x2 Tabelle vergleicht eine unabhängige mit einer abhängigen Variable. Dabei wird die unabhängige Variable in den Spalten, die abhängig in den Zeilen dargestellt. Die einzelnen Felder werden nach der Position der unabhängigen + abhängigen Variable benannt.
Zusätzlich wird die 2x2 Tabelle in der Regel um die Randhäufigkeit ergänzt.
Was ist die Randhäufigkeit?
Die Randhäufigkeit beschreibt die Ausprägung eines Merkmals im Bezug auf die gesamte Messung. - Also wie oft dieses Merkmal in der Messung vorhanden ist. - Dabei werden die Werte einer Zeile bzw Spalte zusammengefasst.
Was ist die Spaltenrandsumme?
Die Gesamte Randhäufigkeit
Was ist die Ausprägungshäufihkeit?
Die Prozentuale Darstellung der Randhäufigkeit
Was ist der Chi-Quadrat-Test?
Der Chi-Quadrat-Test untersucht die Häufigkeitsunterschiede von Merkmalsausprägungen und analysiert deren Kombinationen.
Dabei wird die Häufigkeit der vorhandenen Werte mit der erwarteten Häufigkeit verglichen. Ziel ist es eine Aussage über die Signifikanz der Abweichung zu treffen. Ist die Abweichung Zufall oder nicht?
Was ist die Korrekationsanalyse?
Die Korrelationsanalyse untersucht wechselseitige Zusammenhänge.
Dabei ist sie Abhängig von der Erscheinung der Variablen sowie dem Grad und der Art des Zusammenhangs