Process Mining Flashcards

1
Q

Traditionelle Verwendung von Geschäftsprozessmodellen

A
  • Einsicht
  • Diskussion
  • Dokumentation
  • Verifikation
  • Performance Analyse
  • Animation Spezifikation
  • Konfiguration
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Aktuelle Herausforderung

GP Modellierung für Compliance

A
  • Steigende Anzahl von Regulierungen
    • Finanzen Solvency 2, Basel 3
  • Steigende Komplexität des Compliance Nachweises
    • Viele Facetten
    • Wechselseitige Abhängigkeiten
    • Aggregation
    • Cloud Computen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was sind Nachteile manueller Prozessmodellierung?

A
  • Manuelle Modelle unterscheiden sich oft von Realität
    • idealisierte Sicht auf Prozesse
    • nur ausführbare Modellen können Arbeitsweise erzwingen
  • Manuelle Erstellung of aufwendig
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie kann man die Nachteile manueller Prozessgewinnung überwinden?

A
  • Konformanz Laufzeitverhalten <-> Prozessmopdell überprüfen
  • Prozessmodell aus Laufzeitverhalten extrahieren
  • Process Mining
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Process Mining

A
  • (Teil-)automatisierte Extraktion von GP-Modellen aus Laufzeitdaten
  • Extraktion von Modellen basierend auf Fakten.
  • ​nicht Erzeugung eines einzelnen Modells des Prozesses.
  • verschiedene Sichten auf gleiche Realität auf verschiedenen Abstraktionsebenen.
  • Auch gesamtes Verhalten betrachtbar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Process Mining

Im Workflow Lebenszyklus

A
  • Process Discovery: Extraktion des Workflow Designs für ausgeführten WF
  • Delta Analysis Vergleich: Workflow Desing mit ausgeführtem WF
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Konformanzüberprüfung durch Play-Out

A
  • Aus Prozessmodell Event Logs generieren
  • Ist Bebobachtetes Eventlog Teil des generierten EventLogs?
    • Ja: Beobachtetes Eventlog Konformant zu Prozessmodell
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Extraktion durch Play-In

A
  • Zugehöriges Prozessmodell aus gegebenen Event Logs generieren
  • Zugehörig bedeutet:
    • Ursprüngliches Eventlog konform zu generiertem Prozessmodell
    • Präzises/einfachstes Modell sollten mehrere Möglich sein
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Mit Process Mining extrahierte Perspektiven

A
  • Kontrollfluss Perspektive
    • Reihenfolge der Aktivitäten
  • Betriebliche Perspektive
    • Informationen über Ressourcen
  • Fall-Perspektive
    • Eigenschaften von Fällen
  • Zeitliche Perspektive
    • Timing/Frequenz von Ereignissen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Process Mining

Verbesserung durch Replay

A
  • Ausführungsfolgen aus extrahiertem Modell generieren und mit ursprünglichen Event-Log vergleichen
  • Grad der Konformanz überprüfen
  • Modelle nachjustieren
  • Vorraussagende Modelle konstruieren
  • Betiebsunterstützung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Process Mining

Einschränkungen Modellbasierter Analyse

A
  • Idealisierte Version der Realität.
  • Menschliches Verhalten nicht adäquat darstellbar.
  • Oft falsche Abstraktionsebene.
  • Verifikation und Performanzanalyse braucht hochqualitative Modelle.
  • Bei zu großem Unterschied Modell – Wirklichkeit: modellbasierte Analyse sinnlos.
  • Oft fehlt Abgleich: handgemachte Modelle – Wirklichkeit.
    • Geschäftsprozessmodellierung nicht vorhanden / nicht vollständig bzw. aktuell.
    • Wird GP-Dokumentation in der Praxis befolgt ?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Petrinetz-Syntax

Stelle

A
  • Möglicher lokaler Zustand (passiv)
  • S: endliche Menge von Stellen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Petrinetz-Syntax

Transition

A
  • Lokaler Übergang (aktiv)
  • T: endliche Menge von Transitionen
    • T= {t1,t2,t3}
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Petrinetz-Syntax

Bogen

A
  • Fluss (automatisch)
  • F: Menge von Bögen
    • F={(t1,s1), (t1,s2), (s1, t2)…}
    • F ⊆ S x T ∪ T x S
  • konsumierend
    • Von Stelle zu Transition
      • Marken werden aus Stellen entnommen
  • erzeugend
    • Von Transition zu Stelle
      • Marken werden Stellen hinzugefügrt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Petrinetz-Syntax

Marken (Token)

A
  • Globaler Startzustand
    • M0 : S → ℕ0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Petrinetz-Syntax

Bogenvielfachheit

A
  • Gibt an wieviele Marken beim Folgen des Flusses erzeugt oder konsumiert werden
    • 1 wird weggelassen
  • W: F → ℕ\0
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Petrinetz

Syntaxdefinition

A
  • S: endliche Menge von Stellen
  • T: endliche Menge von Transitionen
    • mit S≠∅, T≠∅ und S∩T=∅
  • F: Menge von Bögen:
    • F ⊆ S x T ∪ T x S
  • ​W: Bogenvielfachheit (Gewicht):
    • W: F→ℕ\0
  • M0: Globaer Startzustand
    • M0 : S → ℕ0
  • ⇒ (S, T, F, W, M0): Petrinetz
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Petrinetz

Aktivierung von Transitionen

A
  • Transition t ist aktiviert wenn:
  • ∀ p∈Vorgänger von t : W(p ,t)⩽ mp
    • W((p,t)): Gewicht des Bogens von p nach t

mp: Anzahl Marken auf p

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Petrinetz

Schalten von Transitionen

A
  • Eine der aktivierten Transitionen wird beim Übergang von Zustand Mx nach Zustand Mx+1 geschaltet (nicht deterministische Auswahl)
    • Marken auf Voränger-Stellen werden konsumiert
    • Marken auf Nachfolger-Stellen werden produziert
  • Jede Folgemarkierung ergibt sich aus dem Schalten jweils genau einer Transition
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Gibt es eine obere Grenze, wieviele Nachrichten gleichzeitig in dieser Queue enthalten sein können ?

A
  • In der Queue befindet sich höchstens eine Nachricht .
  • Ausführung der Transition „Queue füllen“, nachdem die Stellen „Nachricht empfangen“ und „Queue leer“ einen Marker besitzen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Petrinetz

Erreichbarkeit: Notation und Definition

A
  • M [t> : bei Markierung M ist Transition t aktiviert ( [> symbolisiert Pfeil)
  • M [t> M’ : M’ ist direkte Folgemarkierung zur Markierung M nach Schaltung von Transition t
  • M [w> : Liste von Transitionen w=[t1,t2,…,tn] ist iterativ aktiviert unter Markierung M, d.h.: M [t1> M1 [t2> M2 … [tn> Mn
  • M [{t1, t2, …, tn}> : Liste von Transitionen [t1,t2,…,tn] ist in beliebiger Schaltungsreihenfolge iterativ aktiviert unter Markierung M (= alle Permutationen als Schaltfolgen aktiviert; genannt “nebenläufig aktiviert”)
  • [M0> := {M | ∃ w ∈ T* mit M0 [w> M} (Erreichbarkeitsmenge des Systems; die Markierungen M ∈ [M0> heißen erreichbar)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Petrinetz

Erreichbarkeitsalgorithmus (breadth-first)

A
  • Eingabe: Petrinetz Ausgabe: Erreichbarkeitstabelle
  1. Erstelle Tabelle: Markierungsnummer, Markierung, Schaltunen und Trage M0 ein
  2. In aktueller Markierung Mi für jede Transition t: aktiviert?
    • Falls t aktiviert: Berechne Folgemarkierung
      • Folgemarkierung bereits eine Markierung Mj?
      • Wenn nicht berechne Folgemarkierung Mj mit j > i und lege neue Zeile in der Tabelle für Mj an
    • trage Mi[t> Mj in Zeile Mi ein
  3. Mi erledigt falls alle Transitionen überprüft
  4. Alle eingetragenen Markierungen erledigt?
    1. Ja: Erreichbarkeitsanalyse abgeschlossen
    2. Nein: Überprüfe nächste Markierung und fahre bei 2 fort
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Petrinetz

Erreichbarkeitsalgorithmus als Graph darstellen

A
  • Erreichbarkeitstabelle oft als Graph dargestellt:
    • Knoten:Zustände(linkeSpalte;ggf.inkl.Markierungsbelegungen)
    • Kanten:Schaltungen(rechteSpalte)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Petrinetz

Analyse von Systemen:

Simulation

A
  • Kann zeigen, dass bestimmte Situationen auftreten können.
  • Kann nicht zeigen, dass bestimmte Situationen nicht auftreten.
  • Ausschnitt aus Menge aller möglichen Verhalten.
  • Keine Aussage über deren Eintrittswahrscheinlichkeit.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Petrinetz

Analyse von Systemen

Verifikation

A

Verifikation: Beweis von Eigenschaften:

  • Statische Eigenschaften: Unabhängig von Markierungen, nur von Netztopologie abhängig.
    • z.B. Verklemmungen / Deadlocks
  • Dynamische Eigenschaften: Abhängig von der Menge erreichbarer Markierungen.
    • Standardhilfsmittel: Erreichbarkeitsgraphen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Petrinetze

Kapazitäten

A
  • K: S → ℕ ∩ {∞} erklärt eine (möglicherweise unbeschränkte) Kapazität für jede Stelle.
  • Markierungen M: S → ℕ\0 müssen Kapazitäten respektieren, d.h. für jede Stelle s ∈ S gilt: M(s) ≤ K(s).
  • Transitionen sind bei Verwendung von Kapazitäten nur dann aktiviert, wenn Folgemarkierung Kapazitäten respektiert.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Petrinetz

Analyse von Systemen

Sicherheit

A
  • Sei P=(S,T,F,K,M0) Petrinetz.
  • Abbildung B: S → ℕ\0 ∪ {∞} ordnet jeder Stelle eine „kritische Markenzahl“ zu.
  • Petrinetz P heißt:
    • B-sicher (oder B-beschränkt), wenn für alle erreichbaren Markierungen Anzahl der Markierungen pro Stelle durch B begrenzt, d.h.: für alle M ∈ [M0> und s ∈S gilt: M(s) ≤ B(s).
    • 1-sicher, 2-sicher usw., wenn B=1, B=2 usw.
    • beschränkt, wenn es natürliche Zahl b gibt, für die P b-sicher.
  • Stelle s heisst b-sicher, wenn P B-sicher mit B(s)=b, und B(s‘)= ∞ für s’#s.
  • Unterschied zwischen Kapazität und Sicherheit:
    • Kapazität begrenzt Stellenmarkierung (a priori-Begrenzung).
    • Sicherheit beobachtet Stellenmarkierung (a posteriori-Begrenzung).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Petrinetze

Analyse von Systemen

Lebendigkeit von Transitionen

A

Transition t eines Petrinetz P=(N,M0) heißt:

  • aktivierbar: In mindestens einer erreichbaren Markierung aktiviert: existiert M1 ∈ [M0> mit: M1[t>
  • lebendig: In allen erreichbaren Markierung aktivierbar: für alle M1 ∈ [M0> gilt: existiert M2∈ [M1> mit: M2[t>
  • tot: In keiner erreichbaren Markierung aktiviert: für alle M ∈ [M0> gilt: ¬M[t>
  • Tot ist nicht logische Negation von lebendig sondern von aktivierbar !
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Petrinetz

Analyse von Systemen

Lebendigkeit von Petrinetzen

A

Petrinetz P=(S,T,F,K,W,M0) heißt:

  • lebendig: In jeder erreichbaren Markierung ist jede Transition aktivierbar: für alle M1 ∈ [M0> und t ∈ T gilt: existiert M2 ∈ [M1> mit: M2[t>
  • deadlockfrei: In jeder erreichbaren Markierung ist mindestens eine Transition aktiviert: für alle M1 ∈ [M0> gilt: existiert t ∈ T mit: M1[t>
  • tot: Keine Transition aktiviert: ∀t ∈ T: ¬M0 [t>
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Petrinetz

Workflownetz

A
  • genau eine Stelle ohne eingehenden Bogen (Start-Stelle)
  • genau eine Stelle ohne ausgehenden Bogen (End-Stelle)
  • jede Stelle und Transition auf Pfard von Start- zu End-Stelle
  • Initiale Markierung
    • Start-Stelle genau eine Marke
    • Rest: Keine Marke
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Petrinetz

AND-Split

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Petrinetz

AND-Join

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Petrinetz

XOR-Split

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Petrinetz

XOR-Join

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Petrinetz

Bewertung

A
  • Positiv
    • Einfache und wenige Notationselemente.
    • Graphisch gut darstellbar.
    • Marken: übersichtliche Visualisierung des Systemzustands.
    • Syntax und Semantik formal definiert.
    • Werkzeuge zur Erstellung, Analyse, Simulation, Code-Generierung vorhanden (z.B. Process Mining).
    • Gut geeignet für kooperierende Prozesse.
  • Nachteil
    • Zunächst keine Datenmodellierung (kann aber dahin erweitern).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

Data-Mining vs. Process-Mining

A
  • Process Mining: Data Mining auf Prozess-Daten
  • Process-Mining: Ende zu Ende Prozesse
  • Data-Mining: Datenbasiert und nicht prozessbasiert
  • Qualitätsbewertung
    • Viele Ähnlichkeiten, aber auch Unterschiede
  • Process-Mining-Techniken können Vorteile aus Erfahrungen im Bereuch Data Mining ziehen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

Data Mining

Variablen

A
  • Datensatz besteht aus Instanzen (Individuen, Entitäten, Fälle, Objekte oder Aufzeichnungen).
  • Variablen: als Attribute, Features oder Datenelemente bezeichnet. Zwei Typen:
    • Kategorielle Variablen:
      • Ordinal (hoch – mittel – niedrig)
      • Nominal (true – false, rot – pink – grün)
    • Numerische Variablen (geordnet, können nicht einfach aufgezählt werden).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

Data Mining

Überwachtes Lernen

A
  • Klassifizierte Daten (Labeled Data)
    • Jede Instanz durch Response-Variable gekennzeichnet.
  • Ziel:
    • Erkläre Response-Variable (abhängige Variable) in Form von Predictor-Variablen (unabhängige Variable).
  • Klassifikationstechniken (z.B.: Lernen mit Entscheidungsbäumen)
    • Setzen kategorielle Response-Variablen voraus.
    • Ziel: Instanzen anhand Predictor-Variablen klassifizieren.
  • Regressionstechniken: Benötigen numerische Response-Variablen.
    • Ziel: Zu Daten passende Funktion mit wenigsten Fehlern finden.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

Data Mining

Nicht überwachtes Lernen

A
  • Nicht überwachtes Lernen verwendet unlabeled data. Variablen nicht in Response- und Predictor-Variablen unterteilt.
  • Beispiele:
    • Clustering (z.B.: k-means clustering und agglomerative hierarchical clustering).
    • Pattern discovery (association rules).
41
Q

Data Mining

Entscheidungsbaum generieren:

Grundidee

A
  • Teile Menge der Instanzen auf, sodass Variation in jeder Teilmenge kleiner wird
  • Variation messen (z.B. durch Entropie)
  • Minimiere durchschnittliche Entropie; maximiere Informationsgewinn pro Schritt
42
Q

Data Mining

Entropie

A
  • Entropie E
    • informationstheoretisches Maß für Chaos in einer Multimenge
  • Element v<strong>i</strong> in einer Multimenge ci-mal enthalten
  • Multimenge hat n Elemente
  • Einzelentropie: -log2(pi), wobei pi=ci/n
  • Gesamtentropie: E=−∑(pi log2(pi)) (i=1, k)
43
Q

Data Mining

Iterative Dichotomiser 3 (ID3)

Entscheidungsbaum generieren

A
  • Anwendung:
    • Bei großer Datenmenge viele verschiedene Attribute von Bedeutung.
      • Entscheidungsbaum ohne große Berechnungen generieren.
  • Algorithmus:
    • Iterativ
    • Benutzt Entropie zur Bestimmung von Baum-Knoten.
    • Abbruch, falls jedem Blattknoten eine Klassifikation zugeordnet.
  • Eingabe:
    • Menge zu klassifizierender Objekte, Wurzelknoten, Menge noch zu vergebener Merkmale
  • Ausgabe:
    • Struktur mit Tupeln (Entscheidungsbaum)
44
Q

Data Mining

Iterative Dichotomiser 3 (ID3)

Algorithmus: Informell

A
  • Gegeben: X={x1 ,…,xn}⊂{1,…,v1}×…×{1,…,vp}, y={y1,…,yn}⊂{1,…,c}
  • Aufrufen: ID3({1,…,n}, Wurzel,{1,…,p})
  • Prozedur ID3(I,N,K)
  1. Wenn alle y(I) gleich dann abbrechen
  2. Berechne Informationsgewinn gj((X(I),y(I))) = E(X)−∑j∈y((∣Xj∣)/(∣X∣) ) * E(X j)∀ j∈K
    • X: Datensatz, E(X): Entropie im Datensatz, c: Klassifikation

X j : Untermenge von X, ∣X∣: Mächtigkeit von X, ∣Xj∣: Mächtigkeit von X j

  1. Bestimme Gewinnermerkmal i = argmx{gj((X(I), y(I)))}
  2. Zerlege I in vi disjunkte Teilmengen
  3. für j mit Ij ≠ {}
    • Generiere neuen Knoten Nj und hänge ihn an N
    • Aufrufen ID3(Ij, N, I{i})
45
Q

Data Mining

Bedingte Entropie

A

Maß über den Wert einer Zufallsvariable, welche verbleibt, nachdem das Ergebnis einer anderen Zufallsvariable bekannt wird.

46
Q

Data Mining

Konfusionsmatrix

A
  • tp: Anzahl true positives; korrekterweise als positiv klassifiziert.
  • fn: Anzahl false negatives; als negativ klassifiziert, aber positiv.
  • fp: Anzahl false positives; als positiv klassifiziert, aber negativ.
  • tn: Anzahl true negatives; korrekterweise als negativ klassifiziert.
47
Q

Data Mining

Konfusionsmatrix

Error

A

Error = (fp+fn)/N

48
Q

Data Mining

Konfusionsmatrix

accuracy

A

accuracy = (tp+tn)/N

49
Q

Data Mining

Konfusionsmatrix

tp-Rate

A

tp-Rate = tp/p

p=tp+fn

50
Q

Data Mining

Konfusionsmatrix

fp-Rate

A

fp-Rate = fp/n

n = fp+tn

51
Q

Data Mining

Konfusionsmatrix

precision

A

precision = tp/p’

p’ = tp+fp

52
Q

Data Mining

k-Means-Cluster-Analyse

Lloyd Algoritmus: Informell

A
  • Anzahl K zu ermittelnder Cluster vorher festlegen.
  • Start (i=0): Positionen der Clusterschwerpunkte zufällig initialisieren.
  • Objekte nächstgelegenen Schwerpunkten zuordnen. (i=1)
  • Bei jeder Iteration i Schwerpunkt und nächstliegende Kandidaten neu berechnen.
  • Dies Wiederholen bis Summe quadratischer Distanz einzelner Objekte zu ihrem jeweiligen Clusterschwerpunkt über alle Cluster ein Minimum erreicht.
    • Bild
  • xnDatensätze und μk Schwerpunkte der Cluster.
  • Entscheidungskriterium für Cluster-Zugehörigkeit der Testobjekte: Abstände der Testvektoren von Clusterschwerpunkten.
53
Q

Data Mining

Assoziationsregel-Lernen

Ziel

A
  • Regeln der Form “IF X THEN Y” lernen:
    • X⇒Y
54
Q

Data Mining

Assoziationsregel-Lernen

support(X⇒Y)

Relevanz

A

support(X⇒Y) = NX∧Y/N

(NX: Anzahl Datensätze, die alle Eigenschaften in X erfüllen).

55
Q

Data Mining

Assoziationsregel-Lernen

confidence(X⇒Y)

Gültigkeit

A

confidence(X⇒Y) = NX∧Y/NX

(NX: Anzahl Datensätze, die alle Eigenschaften in X erfüllen).

56
Q

Data Mining

Assoziationsregel-Lernen

lift(X⇒Y)

Aussagekraft

A

lift(X⇒Y) = (NX∧Y *N) / (NX * NY)

(NX: Anzahl Datensätze, die alle Eigenschaften in X erfüllen).

57
Q

Data Mining

Assoziationsregel-Lernen

Brute-force-Algorithmus

A
  • Definition: Für gegebenen support-Schwellwert minsup:
    • Menge Z heißt frequent item-set, wenn NZ / N >= minsup.
  • Assoziationsregeln wie folgt generierbar:
  1. Generiere frequent item-sets: alle Mengen Z sodass NZ / N größer als gegebener Schwellwert für support und |Z| >=2.
  2. Für jedes frequent item-set Z betrachte Partition in nicht-leere Teilmengen X, Y.
    • Behalte Regeln X => Y, für die confidence gegebenen Schwellwert überschreitet oder gleich ist.
58
Q

Data Mining

Assoziationsregel-Lernen

Unter welcher Voraussetzung ist Teilmenge einer frequent item-set ebenfalls eine frequent item-set ?

A
  • Beobachtung: Jede nicht-leere Teilmenge einer frequent item-set ist ebenfalls frequent: Durch Teilmengen-Bildung kann sich Menge der zu erfüllenden Eigenschaften allenfalls verringern (nicht vergrößern), daher kann sich der support allenfalls vergrößern (nicht verringern), da es einfacher wird, alle Eigenschaften zu erfüllen.
  • Maximale frequent item-sets ausgehend von 1-elementigen frequent item-sets generierbar.
59
Q

Data Mining

Hidden-Markov-Modell

A
  1. Wahrscheinlichkeit der Sequenz berechnen (gegeben Beobachtungssequenz und Hidden-Markov-Modell)
  2. Gegeben Beobachtungssequenz und Hidden-Markov-Modell, wahrscheinlichsten „hidden path“ im Modell berechnen (= interne Zustandsfolge; kann zur z.T. beobachtet werden).
  3. Bei gegebener Beobachtungs- sequenz Hidden-Markov-Modell ableiten, welches mit max. Wahrscheinlichkeit Sequenzen erzeugt.
60
Q

Data Mining

Qualitätsbewertung von Lernalgorithmen: Cross-Validierung

A

Mit hilfe gegebener Datan testen wie gut der Algo ist.

61
Q

Ziel des Process-Minings

A
  • Was geschah in der Vergangenheit ?
  • Warum ist es passiert ?
  • Was wird vermutlich in der Zukunft geschehen ?
  • Wann und warum weichen Unternehmen und Leute voneinander ab ?
  • Wie kann ein Prozess besser kontrolliert werden ?
  • Wie kann ein Prozess neu entworfen werden, sodass die Performanz gesteigert wird ?
62
Q

Datenbeschaffung

Log-Komponenten

A
  • Prozess enthält Fälle (cases).
  • Fall besteht aus Events, jeden Event genau einem Fall zuordnen.
  • Events innerhalb eines Falles: geordnet.
  • Events können Attribute haben.
  • Beispiele typischer Attributnamen: activity, time, costs und resource.
63
Q

Datenbeschaffung

Herausforderungen beim Extrahieren des Event-Logs

A
  • Korrelation: Events in Event-Log: nach Fällen gruppiert.
    • Nicht trivial: setzt Korrelation der Events untereinander voraus.
  • Zeitstempel: Events pro Fall ordnen.
    • Probleme: nur Datum, unterschiedliche Uhren, verzögertes Loggen.
  • Snapshots: Fälle ggf. über Dauer der Aufnahme hinweg aktiv.
    • Z.B.: Fall vor Beginn des Event-Logs gestartet.
  • Scoping: Welche Tabellen berücksichtigen ?
  • Granularität: Events in Event-Log: andere Granularität als für Endnutzer relevante Aktivitäten.
64
Q

Datenbeschaffung

Event-Log erstellen

A
  • Verschieden Datenquellen zusammenfassen
  • Haupttabelle festlegen und Attribut zur Zusammenführung bestimmen
65
Q

Prozessextraktion

Anforderungen an Event Log

A
  • Minimal: Nummer der GP-Instanz („case“ / Fall), GP-Aktivität, zeitliche Ordnung
  • Optional: Genaue Zeit, Nutzer, assoziierte Daten etc.
  • Rauschfrei“: GP-Instanznr. erlaubt irrelevante Daten wegzufiltern.
  • Vollständig: Relevante Daten für verschiedene GP-Instanzen vorhanden.
66
Q

Prozessextraktion

Anforderungen an extrahiertes Modell

A
  • Angemessenheit (Fitness)
    • Verhalten des Event-Logs zulassen.
  • Genauigkeit (Precision)
    • vermeide Unteranpassung (underfitting)
    • kein Verhalten ohne Bezug zu Inhalt des Event-Logs zulassen.
  • Verallgemeinerung (Generalization)
    • vermeide Überanpassung (overfitting)
    • Verallgemeinerung des Beispiel-Verhaltens im Event-Log sein.
  • Einfachheit (Simplicity)
    • so einfach wie möglich sein.
67
Q

α-Algorithmus

Grundidee

A
  • α-Algorithmus: aus Menge von Folgen von Log-Daten GP-Modell als Petrinetz extrahieren.
  • Idee:
    • Informationen über Abfolge der Aktivitäten durch Verwendung geeigneter Ordnungs-Relationen sammeln.
      • Ob Aktivitäten in verschiedenen Folgen in Kausal-Beziehung stehen, oder parallel bzw. unabhängig voneinander sind.
    • Damit Petrinetz konstruieren.
68
Q

α-Algorithmus

Annahmen

A
  • Annahmen an zu erzeugende Petrinetze:
    • Ausführung: jede Transition erzeugt jeweils ein Ereignis in Log- Datei mit zugehöriger Bezeichnung.
    • Verschiedene Transitionen haben verschiedene Bezeichnungen.
    • Keine Bogen-Vielfachheiten.
  • Annahmen an Folge von Log-Daten:
    • Log-Daten alle vom relevanten GP erzeugt. GP durch Petrinetz modellierbar.
    • Aufteilung der Log-Daten auf Folgen in gegebener Menge entsprechen verschiedenen GP-Instanzen.
    • Abstrahieren von mehrfachen GP-Instanzen mit demselben Verlauf (und von GP-Instanznummern).
69
Q

Prozessextraktion

Ordnungsrelationen

A
  • Direkte Nachfolge: x >W y
    • ∃ σ∈W worin y direkt auf x folgt
  • Kausalität x →W y

x >W y und nicht y >W x

  • Parralelität x ||W y

x>W y und y>W x

  • Unabhängigkeit x #W y

nicht x>W y und nicht y>W x

70
Q

Welches Petrinetz wird aus der Kausalität

x→y

erstellt?

A
71
Q

Welches Petrinetz wird aus der Relation

x→y, x→z, y||z

erstellt?

A
72
Q

Welches Petrinetz wird aus der Relation

x→y, x→z, y#z

erstellt?

A
73
Q

Welches Petrinetz wird aus der Relation

x→z, y→z, x||y

erstellt?

A
74
Q

Welches Petrinetz wird aus der Relation

x→z, y→z, x#y

erstellt?

A
75
Q

α-Algorithmus

Vorgehen

A
  • Gesucht: Workflow-Schema als Petrinetz α(W) = (Stellen PW, Transitionen TW, Verbindungen FW)
  • Transitionen
      1. TW ={ t ∈ T | ∃σ∈W t ∈ σ }
      1. TI={t∈T | ∃σ∈W t=first(σ)} Start-Transitionen
      1. TO={t∈T | ∃σ∈Wt=last(σ)} End-Transitionen
  • ​Kandidaten für Stellen
    • ​4. XW = { (A,B) | A ⊆ TW ∧ A ≠ ∅ ∧ B ⊆ TW ∧ B ≠ ∅ ∧ ∀a ∈ Ab ∈ B a →W b ∧ ∀a1,a2 ∈ A a1#w a2 ∧ ∀b1,b2 ∈ B b1#W b2 }
  • ​Stellen
    • ​5. YW = {(A,B) ∈ XW | ∀(A´,B´) ∈ Xw A⊆A´ ∧ B⊆B´ ⇒ (A,B) = (A´,B´)}
      1. PW={(p(A,B)) | (A,B)∈YW}∪{iW,oW}
  • ​Verbindungen und Resultat
      1. FW={(a,p(A,B) ) | (A,B)∈YW∧a∈A} ∪ {p(A,B) ,b | ( A,B) ∈ YW∧ b∈B} ∪ {(iW ,t)|t∈TI} ∪ {(t,oW )| t∈TO}
      1. α(W )=(PW, TW, FW)
76
Q

Prozessextraktion

Schwierigkeiten

A
  • Rauschen
    • Event-Log enthält seltenes und unregelmäßiges Verhalten.
    • Nicht typisches Verhalten des Prozesses.
    • Lösung z.B. durch Betrachtung der Häufigkeit
  • Unvollständigkeit
    • Event-Log enthält zu wenig Events, um alle

Kontrollflüsse zu erfassen.

77
Q

Welche Qualitätskriterien erfüllt dieses Modell in besonderer Weise ?

A

Paradebeispiel für unterangepasstes Modell:
jedes Verhalten auf Basis der Ereignisse a, …, h zulässig.

78
Q

Prozessextraktion

Was macht Process-Mining zu so einem schweren Problem?

A
  • Keine negativen Beispiele:
    • Logs zeigen, was geschah. Nicht: was nicht passieren kann.
  • Durch Nebenläufigkeit, Schleifen, Verzweigungen:
    • Suchraum hat komplexe Struktur.
    • Log enthält nur Teil des möglichen Verhaltens.
  • Kein Zusammenhang zwi. Größe des Modells und seinem Verhalten:
    • Kleines Modell kann mehr/weniger Verhalten generieren.
    • Klassische Analyse- und Evaluations-Methoden erwarten Monotonie-Eigenschaften.
79
Q

Konformanzanalyse

Auditierung

A
  • Auditierung: Evaluation von Unternehmen und ihren Prozessen.
  • Audits stellen Validität und Zuverlässigkeit von Informationen über Unternehmen und entsprechende Prozesse sicher.
  • Test von Ausführung der GP in bestimmten Grenzen (von Managern, der Politik und anderen Interessenvertretern gesetzt).
  • Process-Mining: bei Aufdecken von Betrug, Fehlverhalten, Risiken und Ineffizienzen hilfreich.
  • Alle Events eines GP evaluierbar, auch während Prozess noch läuft.
80
Q

Konformanzanalyse

Konformanz messen

Vorgehen

A
  • In jedem Schritt gibt es Zähler:
    • p (produzierte Tokens)
    • c (konsumierte Tokens)
    • m (fehlende Tokens),
    • r (überbleibende Tokens).
  • Am Anfang: alle leer.
  • Umgebung produziert ein Token für Stelle Start →p=1.
  • Transition a konsumiert ein Token und produziert 2 Tokens → p = 3, c = 1.
  • Am Ende konsumiert die Umgebung ein Token → c inkrementieren.
  • Durchführen bei jeder Transition
81
Q

Konformanzanalyse

Angemessenheit (Fittness) eines Modells zum Log Folge bestimmen

A
  • produced, consumed, missing, remaining
  • (1-m/c) berechnet Anteil fehlender Tokens.
  • (1- r/P) berechnet Anteil überbleibender Tokens.
  • σ: Log, N: Modell.
  • 0 ≤ fitness(σ, N) ≤ 1.
  • Falls fitness (σ, N) = 1: Keine fehlende oder überbleibende Token.
  • fittness(σ, N) = 1/2 * (1 - m/c) + 1/2 * (1 - r/p)
82
Q

Konformanzanalyse

Angemessenheit (Fittness) eines Modells zu Log Folgen bestimmen

A
83
Q

Workflow-Diagnose

Interessante Fragestellungen

A
  • Fehlerfreie Workflow-Ausführung ? Workflow-Ausführung mit geringem oder normalem
  • Ressourcenverbrauch ?
  • Identifikation kritischer Aktivitäten (hoher Ressourcenverbrauch).
  • Wie sehen häufige / typische Ausführungen aus?
84
Q

Timed Replay

A
  • (Timed) Replay: Timing-Information mit Modellelementen verknüpfen. Ziele:
    • Visualisierung
    • Analyse
  • der Zeit-Informationen
85
Q

Decission Mining

In Petrinetzen

Motivation

A
  • Entscheidungspunkte in extrahierten Petrinetzen zunächst „nicht-deterministisch“:
    • im Modell nicht determiniert, welcher Ausführungszweig in welcher Ausführung gewählt wird
  • Nützliche Information !
    • Idee: Klassifikationstechniken (s. Abschnitt 2.2) anwenden, um Rationale hinter der in den Ausführungen gewählten Entscheidungen auf Basis der Logdaten zu erkennen.
  • => „Decision Mining“
86
Q

Decission Mining

In Petrnetzen

Was sind Entscheidungspunkte?

A

Wenn eine Stelle die Wahl zwischen 2 Transitionen hat.

87
Q

Online-Analyse

Wie kann Process-Mining helfen?

A
  • Flaschenhälse entdecken.
  • Abweichungen / Probleme entdecken.
  • Performanz-Messungen.
  • Verbesserungen vorschlagen.
  • Entscheidungshilfe (z.B.: Empfehlung und Vorhersage).
  • Rückkopplung geben.
88
Q

Online Analyse

Arten von Eventdaten

A
  • “Post-mortem”-Eventdaten
  • Abgeschlossene Fälle.
  • Zur Verbesserung und Auditierung. Nicht, um gegebenen Fall zu beeinflussen.
  • “Pre-mortem”-Eventdaten:
  • Nicht abgeschlossene Fälle.
  • Wenn Fall läuft / „lebt“ (pre-mortem):
  • Informationen aus Event-Log über Fall (akt. Daten) verwertbar.
  •  Korrekte und effiziente Durchführung des Falls sicherstellen.
89
Q

Lasagne Prozesse

A

Stark strukturierte Prozesse

Verhalten ist “vorhersehbar”

90
Q

Spaghetti Prozesse

A

unstrukturierte Prozesse mit vielen möglichen Pfaden

91
Q

Agglomerative Hierarchische Cluster-Analyse

A
  1. Weise jedem Datenpunkt einen Cluster zu
  2. Füge die beiden nächsten Cluster zusammen (merge)
  3. Wiederhole 2 bis nur noch ein Cluster existiert.
92
Q

Apriori: Effiziente Generierung von Frequent Item sets

A
93
Q

Nennen Sie die Kernelemente eines Petri-Netzes aus der Vorlesung und ihre jeweiligen Entsprechungen in der BPMN und EPK.

A
94
Q

Erläutern Sie die drei Hauptarten von Process-Mining und ihre Funktion anhand eines Beispiels.

Nehmen Sie als zu untersuchende Umgebung eine Bank an, die aus Mitarbeitern in der Filiale, einem Bank-Automaten und zu tätigenden Überweisungen, sowie dem Kunden, besteht.

A
  • Discovery/Extraktion:
    • Es existiert kein Modell, das die Vorgänge in der Bank modelliert. Zuständigkeiten einzelner Mitarbeiter und erlaubte / mögliche Aktionen des Kunden können über Process Mining ermittelt werden.
  • Conformance/Konformanz:
    • Es existiert ein Modell, das die Bank modelliert. Das Modell wird mit den Logs verglichen, die bei der Ausführung der Systeme entstehen. So können zum Beispiel Indizien gesammelt werden, um festzustellen, ob Mitarbeiter ihre Kompetenzen überschreiten oder das Vier-Augen-Prinzip verletzt wird. Darüber hinaus können auch Lücken im Prozess festgestellt werden: wenn der Bankautomat nach einem Softwareupdate auch Kreditanträge bearbeiten kann und dies nicht im Prozessmodell nachgepflegt wurde, kann dies aufgedeckt werden.
  • Enhancement/Verbesserung:
    • Ein bereits vorhandener Prozess soll um Informationen angereichert werden. Hier können bspw. lange Laufzeiten einer Kontoeröffnung auf- gedeckt werden und zu einer Optimierung oder Erweiterung eines Prozesses führen.
95
Q

Ordnen Sie die drei Hauptarten von Process Mining den Methoden Play- in, Play-out und Replay zu.

A
  • Extraktion: Play-in
  • Konformanz: Play-out
  • Verbesserung: Replay
96
Q

Ist es aus Ihrer Sicht möglich, dass Process Mining in Zukunft die Modellierung von Geschäftsprozessen ersetzt?

A

Vielfach werden IT-Systeme und interne Prozesse überhaupt an zuvor modellierten Prozessen ausgerichtet. Hier kann also gar kein Mining-Ansatz benutzt werden, bevor nicht mit GP-Modellierung gearbeitet worden ist.

97
Q

Welche Unzulänglichkeiten kann es beim Process Mining geben?

A
  • Informationen, die Process Mining liefert, basieren grundsätzlich auf der Auswertung einer begrenzten Zeitspanne. Aktivitäten, die in dieser Zeit nicht im Log auftauchen, aber eigentlich benötigt werden, können so aber nicht beachtet werden.
  • Die Abstraktionsebene wird durch das Log bestimmt und nicht dadurch welche Abstraktion sinnvoll ist.
98
Q

Erläutern Sie den Unterschied zwischen überwachtem und nicht überwachtem Lernen.

A

Beim überwachten Lernen ist das Ziel eine abhängige Variable (die Response-Variable) durch unabhänige Variablen (die Predictor-Variablen) zu erklären. Beim nicht überwachten Lernen gibt es keine Unterscheidung zwischen den Variablen und das Ziel ist es diese zu Clustern oder ihre Beziehung untereinander darzustellen.

99
Q

Welche Anforderungen werden an ein Log File gestellt, damit dieses mittels Alpha-Algorithmus analysiert werden kann?

A
  • Fall-Nummer :
    • Wird zur Bildung der Sequenzen benötigt. Ohne Fallnummer ist das Extrahieren eines Netzes nur dann möglich wenn es keine parallelen Ausführungen des Prozesses gibt.
  • Task :
    • Werden in Transitionen überführt. Ohne eindeutigen Bezeichner für einzelne Tasks würden mehrere Transitionen pro Task erzeugt und ein verfälschtes Netz entstehen.
  • zeitliche Ordnung :
    • Wird zur Bildung der Relationen zwischen Transitionen benötigt.
  • Rauschfrei :
    • Der α Algorithmus ist nicht in der Lage fehlerhafte oder unvollständige Sequenzen zu filtern.
  • Vollständig :
    • Das Log File ist vollständig.