Maschinelle Datenanalyse mit R Flashcards
Was versteht man unter analytischer Datenmodellierung?
Darunter versteht man wie mithilfe der auszuwertenden Datenbestände ein statistisches Modell entwickelt und dessen Qualität evaluiert werden kann.
Welche fünf Schritte gehören zum Datenanalyseprozess?
Einlesen -> Aufbereiten Modellieren Aufbereiten Visualisieren Aufbereiten ->Kommunizieren Modellieren Visualisieren
Was gehört zum Einlesen?
Extraktion des Datenbestands aus der Datenquelle
Einlesen der Daten mit geeigneter Analysesoftware
Was gehört zum Aufbereiten?
Aufteilen der Daten in Variablen (=Dimensionen) und Beobachtungen (=Fakten)
Filtern und Bereinigen der Daten entsprechend des Analysezwecks
Was gehört zum Modellieren?
(Maschinelle) Generierung eines (statistischen) Vorhersagemodells
Validierung und Anwendung des Vorhersagemodells auf neuen Datensätzen
Was gehört zum Visualisieren?
Deskriptive (direkte) und/oder prädiktive (anhand Modell) Auswertung der Daten
Visuelle Aufbereitung und Präsentation der Analyseergebnisse
Was gehört zum Kommunizieren?
Mitteilung der gewonnenen Erkenntnisse an betriebliche Entscheidungsträger
Umsetzung der Erkenntnisse in konkretes unternehmerisches Handeln
Was ist ein statistisches Modell?
Ein mathematisches Konstrukt welches Aufschluss über die folgenden Fragen gibt:
- Welche Werte nehmen die beobachteten Größen an?
- Wie sind diese Werte verteilt, d.h. welche Werte treten wie häufig auf?
- Anhand welcher Variablen lässt sich vorhersagen, ob bestimmte beobachtete Werte häufiger oder seltener auftreten.
Aus welchen Schritten besteht die stat. Modellbildung?
- Ermittlung der Eigenschaften der beobachteten Werte (Verteilung, Korrelationen,..) -> deskriptive Statistik
- Ermittlung von Beziehungen zwischen gegebenen Variablen (Dimensionen) und beobachtbaren Größen (Fakten) zur Erstellung von Vorhersagen für zukünftige Werte -> prädiktive Statistik / Interferenzstatistik
Was ist Statistik?
Die Wissenschaft von Sammlung, Analyse, Interpretation und Kommunikation von Daten mithilfe mathematischer Verfahren.
Was gehört zu deskriptiver Statistik?
Prägnante Zusammenfassung von Daten
Ermittlung von Lagemaßen und Streuungsmaßen (Wo liegen die Daten und Wie sind die Daten verteilt?)
Ermittlung von Zusammenhangsmaßen (Wie hängen die Daten zusammen?) -> Korrelationen
Was gehört zu prädikativer Statistik?
Ziehen von Rückschlüssen auf eine Grundgesamtheit durch Betrachtung einer Stichprobe
Entwicklung von Vorhersagemodellen zur Klassifikation von zuvor unbekannten Daten
Aufspüren von kausalen Beziehungen in den Daten.
Was ist Datenanalyse letztendlich?
Nichts weiter als angewandte statistische Modellierung
Für Assoziationsanalysen werden verfahren der deskriptiven Statistik benötigt
Für Klassifikations-/Regressionsverfahren werden Verfahren der prädikativen Statistik benötigt.
Was gehört zur Bildung und Bewertung statistischer Vorhersagemodelle?
Vorhandene Datensätze (aus DW) dienen als Stichprobe für Grundgesamtheit aller (zukünftigen) betrieblichen Vorgänge.
Ziel: statistische Zusammenhänge in den vorhandenen Datensätze finden die sich zur Prognose der Zukunft eignen.
Bevor Modell eingesetzt werden kann: zunächst Messung wie genau es die Zusammenhänge in den Daten vorhersagen kann -> Güte
Aber stets neue Stichprobe zur Modellbewertung nehmen, da nur weil ein Modell eine Stichprobe sehr gut beschreibt es nicht heißt dass es auch die Grundgesamtheit so gut beschreibt.
Welche Gütemaße neben Precision und Recall können noch zur Validierung von Vorhersagemodellen genutzt werden?
Falsch Positiv Rate (FPR): Anteil an falsch positiven Vorhersagen an der Menge aller negativer Vorhersagen
Falsch negativ Rate: Anteil an falsch negativen Vorhersagen an der Menge aller positiven Vorhersagen
Accuracy: Anteil richtiger Vorhersagen an allen Vorhersagen (TP+TN) von allen Vorhersagen
F-Maß: Kombination aus precision und recall und nummt besonders hohe Werte an wenn sowohl p. als auch r hohe Werte aufweisen.
Was ist die Formel vom F-Maß?
(2 * P * R) / P+R
Was ist die ROC Kurve?
(receiver operating characteristic)
X Achse: FPR von 0(links) bis 1(rechts)
Y Achse: FNR von 1(unten) bis 0 (oben)
Kann die Güte verschiedener Modelle durch einen Plot der FPR und NFR visualisieren.
Jeder Punkt der Kurve repräsentiert ein Vorhersagemodell und dessen FPR und FNR.
Je weiter oben ein Punkt links oben, desto besser das Modell (FNR)
Um zu messen wie gut en Vorhersagemodell ist im Vergleich zu anderen Modellen kann die Fläche unter der Kurve gemessen werden -> je höher desto besser
Pukte unterhalb der gestrichelten Linie bedeuten, dass das Modell häufiger falsch als richtig liegt.
Was ist R?
Eine freie, quelloffene Programmiersprache mit der sich relativ einfach maschinelle Datenanalysen durchführen und ggf. automatisieren lassen.
Was sind Vorteile von R?
Unterstützung moderner Verfahren (Packages zu prädikativen modellierung, Mehr Funktionsumfang als Tabellenkalkulationssoftware)
Reproduzierbarkeit (Durch die Erstellung eines Programms werden die Analyseschritte dokumentiert, Transparenz was Vorgehensweise angeht)
Automatisierbarkeit (Einmal erstellte Programme können wiedeholt mit neuen Daten ausgeführt werden, Daten und Analysebefehle sind nicht vermischt)
Quelloffenheit (Kostenlos und ohne Lizenzen nutzbar, R wird permanent weiterentwickelt)
Was sind die wichtigsten Elemente in R?
Objekte (variablen denen Werte zugewiesen werden können, z.B. num. Werte, Listen, Dataframes etc. Zuweisung mit “
Was ist ein DataFrame?
technisch gesehen eine Liste von vektoren
Was sind Operationen zur Datenreinigung und -transformation in R (Paket: dplyr)?
filter() Löschen irrelevanter Zeilen
select() auswählen von relevanten Spalten
arrange() Sortieren von Zeilen des DF
group_by() Erhöhung der Aggregationsstufe der Daten im DF
summarize() Aggregation von Daten im Data Frame zu einer erhöhten Aggregationsstufe
Was sind Beispiele für Lagemaße?
Mittelwert (Durchschnitt)
Median (mittlerer Wert)
Modus (häufigster Wert)
Was sind Beispiele für Streuungsmaße?
Standardabweichung (durchschn. Abweichung von Mittelwert)
Variationskoeffizient (Quotient aus Standardabweichung und Mittelwert)