VL 7&8 Flashcards
Funktionsweise Unüberwachtes Lernen
• Exploratives Verfahren
• Deskriptives maschinelles Lernverfahren
• Ziel: Identifikation von möglichst homogenen Muster-Gruppen im Datensatz -> Cluster
• Gruppierung von Datenpunkten mit ähnlichen Eigenschaften, bspw.:
> Ähnliches Kundenprofil (Alter, Erfahrung, Fähigkeiten)
> Ähnliche Verhaltensweisen (Transaktionen, Intervalle)
• Anwendbar auf verschiedenen Datentypen (Intervall, ordinal, kategorisch) -> ggf. Datentransformation notwendig
• Kein Vorwissen über die Daten notwendig
• Ableitung von Mustern / Zusammengehörigkeiten ohne festgelegte Regeln auf Basis des zugrundeliegenden Datensatzes
• Keine feste Zielvariable gegeben (wie bei Klassifikation: Label) an dem sich das ML-Verfahren orientiert
• Kein vorhersagegetriebenes Lernverfahren Durchführung auf dem gesamten, bereinigten Datensatz
-> Keine Trainings- & Testphase im klassischen Sinne notwendig bei unüberwachten Lernverfahren (!)
Kundensegmentierung
• Bestimmung von Kundensegmenten durch gespeicherten Stammdaten & Verhaltensdaten
• individuelle Aktionsangebote für spezifische Kundencluster erstellen
• Nutzen
- Möglichkeit der gezielten Kundenansprache-> wie Kundenbindung & Zufriedenheit erhöhen
- Möglichkeiten des personalisierten Marketings
- Steigerung des Umsatzes durch systematisches, gezieltes Handeln
Betrugserkennung (Fraud Detection)
• Erkennung von außerordentlichen/ungewöhnlichen Transaktionen
• Durchführung von Ausreißeranalysen mittels Clustering
• Beispiele für Potentielle Indikatoren für Betrugserkennung in Daten
- Dimension der Geldsumme
- Fehlende/mangelhafte Bonitätsinformationen
- Details über IP-Adresse
- Verwendung von mehr als einer Kreditkarte
- Eingabe korrekter Kartenprüfnummer (CVV)
k-Means Clustering
Funktionsweise
- Bestimmung der Cluster-Anzahl k
- Initialisierung: Zufällige Auswahl von k Zentren zu Beginn
- Zuweisung aller Datenpunkte zum nächstliegenden Zentrum (Basis: Distanzmetrik)
- Verschieben der Cluster-Zentren in den Mittelpunkt aller zugeteilten Datenpunkte
- Durchführung der Schritte 2 & 3 bis sich Cluster-Zentren entweder nicht mehr verschieben ODER ein definiertes Abbruchkriterium erreicht ist (Anzahl Durchläufe/Iterationen)
Distanzmetrik
Distanzmetrik
• Abstand zwischen dem Datenpunkt & Cluster-Zentrum
• Beispiele für Distanz-Metriken anhand denen Clustering durchgeführt werden kann:
> Euklidischer Abstand
> Manhattan-Distanz
• Zielvorgabe: Distanzminimierung
• Gruppierung der Datenpunkte mit ähnlichen Eigenschaften bzw. Koordinaten
k-Means - Vor- und Nachteile
Vorteile:
• einfache Anwendung auf den Daten
• Gute Skalierung auf großen Datenmengen
• Steuerung des Clustering möglich
Nachteile
• Clustergröße k muss selbst festgelegt werden
> Auf Basis von Informationen aus dem Anwendungskontext
> Datengetriebene, mathematische Ableitung
• Ausschließliche Verarbeitung von numerischen Eingaben
Hierarchisches Clustering
• Häufig verwendete renommierte Technik (nach dem k-Means Clustering)
• Ziel: Generierung einer hierarchischen Cluster-Struktur
• Ableitung eines Dendrogramms (= Baum)
o Hierarchische Baumstruktur
o Baumstruktur mit Verästelungen
• Keine vorhergehende Definition der Cluster-Anzahl (k) erforderlich Möglichkeiten des hierarchischen Clusterings
1. Agglomeratives Clustering = Anhäufendes Clustering
2. Divisives Clustering = Aufteilendes Clustering
Hierarchisches (agglomeratives) Clustering – Funktionsweise
- Initialisierung: Beginne mit der Annahme, dass jeder Datenpunkt ein eigenes Cluster darstellt
- Linkage (= Zusammenführung): Zusammenführung der Cluster mit dem geringstem geometrischen Abstand zueinander
- Durchführung des 2. Schrittes (bis Abbruchkriterium erreicht wird)
→ In jedem Schritt werden 2 Cluster mit geringstem geometrischen Abstand zusammengeführt
Möglichkeit des Linkage
• Minimaler Abstand zweier Punkte zwischen den Gruppen
• Mittlerer Abstand (Durchschnitt) aller Punkte beider Gruppe
• Abstand zwischen den Gruppenzentren
Hierarchisches Clustering – Dendrogramm
• Werkzeug zur Evaluation von Clustering-Ergebnissen
• Achsen des Dendrogramms
o x-Achse: Auflistung Datenpunkte
o y- Achse: das ausgewählte Distanzkriteriums
• Hierarchische Zuordnung einzelner Cluster erkennbar
o Erkennung von Hauptgruppen
→ Distanz zur nächstliegenden Gruppe verhältnismäßig gering
o Erkennung von Ausreißern
→ Distanz zur nächstliegenden Gruppe verhältnismäßig hoch
Hierarchisches Clustering – Vor- und Nachteile
Vorteile:
• Verfolgbarkeit der genauen Zusammensetzung ausgehend von der Einzeldatenebene
• Offene Interpretationsmöglichkeit
• Festlegung der Cluster in Anlehnung an das hierarchische Clustering möglich
Nachteile
• Gefahr der Unübersichtlichkeit bei großen Datensätzen
• Ausschließliche Verarbeitung von numerischen Eingaben
• Bestimmung der Cluster-Anzahl nicht eindeutig
Bewertung von Clustering
• Bewertung anhand Wahrheitsmatrizen nicht möglich, da Klassenlabels unbekannt
• Möglichkeiten der Beurteilung von Clustering
- Manuelle Beurteilung durch Expert:innen
- Silhouette Diagramm beim k-Means Clustering
- Dendrogramm beim hierarchischen Clustering
Unterschied Clustering und Klassifikation?
Klassifikation
• Ziel: Zuweisung von bekannten Kategorien/Labels für unbekannte Daten
• Lernt auf Basis von Training & Testing
• Vorhersage der Labels für neue Daten
Clustering
• Ziel: Segmentierung/Aufteilung von Datensätzen in n Kategorien/Cluster
• Finden von Kategorien/Labels in den Daten → Labels unbekannt
• Beschreibender Charakter der Methode wie Muster in den Daten aussehen
Integration von Kl in Fahrzeugen
• Unterstützung des Menschen bei der Steuerung (Fahrassistenz) und komplette Übernahme von Teilaufgaben (Automatisierung)
• Stand heute: Zahlreiche straßenzugelassene Verkehrsmittel wie Autos oder Motorräder mit zahlreichen KI-
Assistenzsystemen
• Treffen intelligenter Entscheidungen & Ableitung intelligenter Handlungen von Kl durch Verarbeitung von Sensordaten
Fahrassistenzsystem
• Unterstützung des Fahrers & Erhöhung der Fahrsicherheit
• Eingriff des Assistenten in bestimmten, notwendigen Situationen
• Warnung durch ein Signal in Situationen: Bremsassistenten, Ausweichassistent, Abbiegeassistenz, Spurhalteassistenz, Kommunikationsassistenz