Maschinelle Datenanalyse mit R Flashcards by Marcel Klein

Was versteht man unter analytischer Datenmodellierung?

Darunter versteht man wie mithilfe der auszuwertenden Datenbestände ein statistisches Modell entwickelt und dessen Qualität evaluiert werden kann.

How well did you know this?

Not at all

Perfectly

Welche fünf Schritte gehören zum Datenanalyseprozess?

Einlesen ->
Aufbereiten Modellieren
Aufbereiten  Visualisieren
Aufbereiten ->Kommunizieren
Modellieren  Visualisieren

How well did you know this?

Not at all

Perfectly

Was gehört zum Einlesen?

Extraktion des Datenbestands aus der Datenquelle

Einlesen der Daten mit geeigneter Analysesoftware

How well did you know this?

Not at all

Perfectly

Was gehört zum Aufbereiten?

Aufteilen der Daten in Variablen (=Dimensionen) und Beobachtungen (=Fakten)

Filtern und Bereinigen der Daten entsprechend des Analysezwecks

How well did you know this?

Not at all

Perfectly

Was gehört zum Modellieren?

(Maschinelle) Generierung eines (statistischen) Vorhersagemodells

Validierung und Anwendung des Vorhersagemodells auf neuen Datensätzen

How well did you know this?

Not at all

Perfectly

Was gehört zum Visualisieren?

Deskriptive (direkte) und/oder prädiktive (anhand Modell) Auswertung der Daten

Visuelle Aufbereitung und Präsentation der Analyseergebnisse

How well did you know this?

Not at all

Perfectly

Was gehört zum Kommunizieren?

Mitteilung der gewonnenen Erkenntnisse an betriebliche Entscheidungsträger

Umsetzung der Erkenntnisse in konkretes unternehmerisches Handeln

How well did you know this?

Not at all

Perfectly

Was ist ein statistisches Modell?

Ein mathematisches Konstrukt welches Aufschluss über die folgenden Fragen gibt:

Welche Werte nehmen die beobachteten Größen an?
Wie sind diese Werte verteilt, d.h. welche Werte treten wie häufig auf?
Anhand welcher Variablen lässt sich vorhersagen, ob bestimmte beobachtete Werte häufiger oder seltener auftreten.

How well did you know this?

Not at all

Perfectly

Aus welchen Schritten besteht die stat. Modellbildung?

Ermittlung der Eigenschaften der beobachteten Werte (Verteilung, Korrelationen,..) -> deskriptive Statistik
Ermittlung von Beziehungen zwischen gegebenen Variablen (Dimensionen) und beobachtbaren Größen (Fakten) zur Erstellung von Vorhersagen für zukünftige Werte -> prädiktive Statistik / Interferenzstatistik

How well did you know this?

Not at all

Perfectly

Was ist Statistik?

Die Wissenschaft von Sammlung, Analyse, Interpretation und Kommunikation von Daten mithilfe mathematischer Verfahren.

How well did you know this?

Not at all

Perfectly

Was gehört zu deskriptiver Statistik?

Prägnante Zusammenfassung von Daten

Ermittlung von Lagemaßen und Streuungsmaßen (Wo liegen die Daten und Wie sind die Daten verteilt?)

Ermittlung von Zusammenhangsmaßen (Wie hängen die Daten zusammen?) -> Korrelationen

How well did you know this?

Not at all

Perfectly

Was gehört zu prädikativer Statistik?

Ziehen von Rückschlüssen auf eine Grundgesamtheit durch Betrachtung einer Stichprobe

Entwicklung von Vorhersagemodellen zur Klassifikation von zuvor unbekannten Daten

Aufspüren von kausalen Beziehungen in den Daten.

How well did you know this?

Not at all

Perfectly

Was ist Datenanalyse letztendlich?

Nichts weiter als angewandte statistische Modellierung

Für Assoziationsanalysen werden verfahren der deskriptiven Statistik benötigt

Für Klassifikations-/Regressionsverfahren werden Verfahren der prädikativen Statistik benötigt.

How well did you know this?

Not at all

Perfectly

Was gehört zur Bildung und Bewertung statistischer Vorhersagemodelle?

Vorhandene Datensätze (aus DW) dienen als Stichprobe für Grundgesamtheit aller (zukünftigen) betrieblichen Vorgänge.

Ziel: statistische Zusammenhänge in den vorhandenen Datensätze finden die sich zur Prognose der Zukunft eignen.

Bevor Modell eingesetzt werden kann: zunächst Messung wie genau es die Zusammenhänge in den Daten vorhersagen kann -> Güte

Aber stets neue Stichprobe zur Modellbewertung nehmen, da nur weil ein Modell eine Stichprobe sehr gut beschreibt es nicht heißt dass es auch die Grundgesamtheit so gut beschreibt.

How well did you know this?

Not at all

Perfectly

Welche Gütemaße neben Precision und Recall können noch zur Validierung von Vorhersagemodellen genutzt werden?

Falsch Positiv Rate (FPR): Anteil an falsch positiven Vorhersagen an der Menge aller negativer Vorhersagen

Falsch negativ Rate: Anteil an falsch negativen Vorhersagen an der Menge aller positiven Vorhersagen

Accuracy: Anteil richtiger Vorhersagen an allen Vorhersagen (TP+TN) von allen Vorhersagen

F-Maß: Kombination aus precision und recall und nummt besonders hohe Werte an wenn sowohl p. als auch r hohe Werte aufweisen.

How well did you know this?

Not at all

Perfectly

Was ist die Formel vom F-Maß?

(2 * P * R) / P+R

Was ist die ROC Kurve?

(receiver operating characteristic)
X Achse: FPR von 0(links) bis 1(rechts)
Y Achse: FNR von 1(unten) bis 0 (oben)

Kann die Güte verschiedener Modelle durch einen Plot der FPR und NFR visualisieren.

Jeder Punkt der Kurve repräsentiert ein Vorhersagemodell und dessen FPR und FNR.

Je weiter oben ein Punkt links oben, desto besser das Modell (FNR)
Um zu messen wie gut en Vorhersagemodell ist im Vergleich zu anderen Modellen kann die Fläche unter der Kurve gemessen werden -> je höher desto besser

Pukte unterhalb der gestrichelten Linie bedeuten, dass das Modell häufiger falsch als richtig liegt.

Was ist R?

Eine freie, quelloffene Programmiersprache mit der sich relativ einfach maschinelle Datenanalysen durchführen und ggf. automatisieren lassen.

Was sind Vorteile von R?

Unterstützung moderner Verfahren (Packages zu prädikativen modellierung, Mehr Funktionsumfang als Tabellenkalkulationssoftware)

Reproduzierbarkeit (Durch die Erstellung eines Programms werden die Analyseschritte dokumentiert, Transparenz was Vorgehensweise angeht)

Automatisierbarkeit (Einmal erstellte Programme können wiedeholt mit neuen Daten ausgeführt werden, Daten und Analysebefehle sind nicht vermischt)

Quelloffenheit (Kostenlos und ohne Lizenzen nutzbar, R wird permanent weiterentwickelt)

Was sind die wichtigsten Elemente in R?

Objekte (variablen denen Werte zugewiesen werden können, z.B. num. Werte, Listen, Dataframes etc. Zuweisung mit “

Was ist ein DataFrame?

technisch gesehen eine Liste von vektoren

Was sind Operationen zur Datenreinigung und -transformation in R (Paket: dplyr)?

filter() Löschen irrelevanter Zeilen

select() auswählen von relevanten Spalten

arrange() Sortieren von Zeilen des DF

group_by() Erhöhung der Aggregationsstufe der Daten im DF

summarize() Aggregation von Daten im Data Frame zu einer erhöhten Aggregationsstufe

Was sind Beispiele für Lagemaße?

Mittelwert (Durchschnitt)

Median (mittlerer Wert)

Modus (häufigster Wert)

Was sind Beispiele für Streuungsmaße?

Standardabweichung (durchschn. Abweichung von Mittelwert)

Variationskoeffizient (Quotient aus Standardabweichung und Mittelwert)

Welche Schritte gehören zu Auswahl, Erstellung und Validierung eines statistischen Vorhersagemodells?

Festlegung des Ziels: Was soll das Modell bezwecken (z.B. Klassifikation, Regression) Auswahl des Modells: Welchen Sachverhalt soll das Modell darstellen (z.B. linearer Zusammenhang zwischen Verkaufszahlen und Umsatz) Entwicklung des Modells: Wie sehen die EIntscheidungsregeln/Parameter aus? (z.B. lineare Funktion Umsatz = 4,5* Verkaufszahl Überprüfung der Modellgüte: Wie hoch ist die Genauigkeit des Modells? z.B. Berechnung von Precision, Recall, Accuracy etc.

Warum unterteilt man ein Datenset in Trainings- und testdaten?

Um später die Modellgüte mit den Testdaten prüfen zu können

Was ist der Unterschied zwischen Regressionsmodell und Klassifikationsmodell?

Regr: kontinuierliche Zahlenwerte werden vorhergesagt z.B. Vorhersage des Umsatzes Klass: ein (binäres) Klassenlabel wird benötigt z.B. ob Umsatz über- oder unterdurchschnittlich ausfällt. (binäre Vorhersage)

Was ist RSME?

Mittlere Fehlerquote (RSME, mittlere quadratische Abweichung der tatsächlichen Werte von der Funktion eines Regressionsmodell) Zur Berechnung der Modellgüte