Machine Learning Flashcards
1
Q
Machine Learning Definition
A
- Generierung von Informationen aus (großen Mengen an) Daten
- Speicherung zum wiederholten Gebrauch
- Input Parameter ergeben (trainierten) Output
- Output kann eine Klassifikation, ein (Funktions-)Wert, oder eine Entscheidung sein
- Modellfrei: Es werden keine kausalen Bedingungen an das Modell gestellt
Supervised vs. reinforcement Learning
- Supervised Learning:
- Die richtige Lösung ist bekannt.
- Training des Verfahren, um den Fehler zu minimieren.
- Reinforcement Learning:
- Nur Input wird bereitgestellt
- Verfahren bewertet/lernt Güte der Entscheidung selbst
- Anwendung, wenn „richtige“ Entscheidung nicht offensichtlich
- Beispiel GO: Verfahren entdeckt neue Strategie
Supervised Learning: Prozedur
- Training Phase:
- Training einer Approximations-Architektur mit bekannten Daten
- Ziel: Minimierung des Fehlers (Zum Beispiel quadratische Abweichung)
- Implementation Phase:
- Neue Daten mit unbekanntem Ergebnis werden in die Architektur gegeben und auf Grundlage des Trainings wird der Output ausgegeben
2
Q
Kritik am Machinellen Lernen: Modellfreiheit
A
- Konventionelles Vorgehen:
- Erstellung eines (kausalen) Modelles
- Ableitung auf Grundlage dieses Modelles
- Beispiel: Kreditvergabe
- Maschinelles Lernen:
- Kein kausales Modell wird benötigt
- Entscheidungen können nicht begründet/erklärt werden
- Was wird überhaupt gelernt?
- Maßnahmen: Modellannahmen bei
- Auswahl des Inputs
- Auswahl der Architektur
- Erklärung des Outputs
- „Deep Dreaming“
3
Q
Features
A
- Oftmals werden nicht alle Daten in das Modell integriert
- Features: Wichtige Kennzahlen, die Daten differenzieren
- Input-Feature 𝐼1,…,𝐼𝑛
- Die Approximations-Architektur erlaubt die Verknüpfung von Input- Feature und Output-Wert 𝑂
Auswahl der Input-Feature
- ▪In vielen Fällen ist der Input zu komplex, um sämtliche Dimensionen in die Approximation zu Integrieren
- Aggregation: Auswahl einiger aussagekräftiger Feature
- Creating features is an art form, and depends on the problem. Powell, 2011
- Aufgaben der Feature:
- Feature sollen Zustände differenzieren
- Zu viele Feature erschweren die Approximation
4
Q
Approximations-Architekturen
A
- Training Phase: Eine Approximations-Architektur unterstützt die Generierung und Speicherung von Informationen auf Grundlage von Trainingsdaten
- Implementierungs Phase: Für jeden Input-Vektor generiert die Architektur einen Outpu
- Wie kann man die Information speichern?
- Beispiele für Architekturen:
- Tabellarisch
- Funktional
- Neuronale Netze
- Entscheidungsbaum
- …
- Kombinationen: Tabelle mit Funktionen, Entscheidungsbaum mit Funktionen, etc….
5
Q
Tabellarische Speicherung der Informationen
A
- Idee: Anlegen einer 𝑛-dimensionalen Tabelle.
- Bei kontinuierlichen Werten: Einteilung der Tabelle in Intervalle
- In jedem Feld: Mittelwertberechnung
- Minimierung der Quadratischen Abweichung
- Für unser Beispiel: 1 Input→1-Dimensionale Tabelle
Vorteile:
- Keine Annahmen nötig
- Detaillierte Approximation
- Abbildung von „Sprungstellen“
Nachteile:
- Skalierbarkeit
- Fehlende Einträge/Beobachtungen
- Globale Zusammenhänge werden ignoriert
- Ergebnis hängt von der Intervalllänge ab
6
Q
funktionale Speicherung der Informationen
A
- Idee: Output folgt einem funktionalen Zusammenhang
- 𝑂=𝑓(𝐼1,…,𝐼𝑛)
- Beispiele: Linear, Polynomial, Exponentiell, etc.
- Häufige Annahme in der Literatur: Linear
- 𝑂 =𝜃0 +𝜃1𝐼1 +𝜃2𝐼2 +⋯+𝜃𝑛𝐼𝑛
- Bestimmung der 𝜃𝑖 mittels multipler linearer Regression
- Minimierung der Quadratischen Abweichung
Vorteile:
- Wenige Beobachtungen reichen aus
- Fortschreibung in unbeobachtete Bereiche möglich
- Interpretierbarkeit
Nachteile:
- Abhängigkeit von Funktionsauswahl
- Grobe Abbildung
- Realweltliche Phänomene folgen generell keinem einfachen funktionalen Zusammenhängen
7
Q
Neuronale Netze zur Speicherung der Informationen
A
- (Komplexes) Netzwerk verbindet Input und Output
- Gewichtete Kanten zur Verstärkung /Reduktion des Input-Einflusses (linear)
- Activation functions in Knoten:
- Nichtlineare Zusammenhänge
- Zum Beispiel:
- Sigmoid-Funktion
- ReLU-Funktion
- Vorteile:
- Skalierbarkeit
- Automatisierung
- Detaillierte Abbildung (Sprungstellen können nahezu abgebildet werden)
- Globale funktionale Zusammenhänge
- Unbeobachtete Bereiche
- Nachteile:
- Komplizierter Aufbau des Netzes (Knoten, Layer, Kanten, Funktionen)
- Viele Daten notwendig
- Interpretierbarkeit
8
Q
Entscheidungsbaum zur Speicherung der Informationen
A
- Idee: Hierarchische Abstufungen (Wenn 𝐼1 >100, dann…)
- Vorteil:
- Dekomposition möglich
- Interpretierbarkeit
- Kombination mit weiteren Architekturen
- Nachteile:
- (Oftmals) Expertenwissen notwendig
- Automatisiertes Lernen schwierig
9
Q
Zeitfenster
A
- Alle Verfahren zentrieren das Zeitfenster um die ARTE-Ankunftszeiten
- Statische Zeitfenster: Alle Kunden erhalten die gleiche Zeitfenstergröße
- Lineare Zeitfenster:
- Idee: Je mehr Information verfügbar, desto kleiner das Zeitfenster
- Informationen nehmen über Zeit zu
- Lineare Abnahme der Zeitfenstergröße über die Zeit
- State-Dependent:
- Zeitfenster ist abhängig von der Standardabweichung des Zustandes
- Machine Learning
- Wir brauchen ein Vergleichsmaß, das unsere Verfahren bewerten kann
- Zwei Ziele:
- Minimiere Zeitfenstergrößen
- Maximiere getroffene Zeitfenster
- Vorgehen:
- Fokus auf Zeitfenstergrößen
- Verschiebung der getroffenen Zeitfenster in die Nebenbedingungen
- Alle Verfahren werden skaliert, dass im Durchschnitt 95% der Kunden in ihrem Zeitfenster bedient werden
10
Q
Zusammenfassung Machine Learning
A
- Machine Learning generiert Informationen auf Grundlage von Daten
- Supervised Learning: Das richtige Ergebnis ist abschließend bekannt
- Zustände werden zu Features aggregiert
- Informationen werden mittels Approximations-Architektur generiert
- Fallstudie Zeitfensterbestimmung im Service Routing: Machine Learning kann Kundenzufriedenheit erhöhen