10 Bayes Flashcards

1
Q

Lernen nach Bayes

A

statistisches Lernverfahren:

  • kombinieren vorhandenen Wissens (a priori Wahrscheinlichkeiten) mit beobachteten Daten
  • Hypothesen können mit einer Wahrscheinlichkeit angegeben werden
  • Jedes Beispiel kann die Glaubwürdigkeit einer bestehenden Hypothese erhöhen oder verringern –> kein Ausschluss bestehender Hypothesen
  • Mehrere mögliche Hypothesen können gemeinsam ausgewertet werden, um genauere Ergebnisse zu erzielen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Erfolgreiche Lernverfahren nach Bayes

A

Voting Gibbs (Optimaler Bayes-Klassifikator)

Niver Bayes-Klassifikator

Bayessche Netze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Lernen nach Bayes: Herausforderungen

A

praktische Probleme:

  • initiales Wissen über viele Wahrscehinlichkeiten / Verteilungen notwendig
  • aber: oft schätzung basierend auf Hintergrundwissen, vorhandenen Daten, etc. möglcih

Erheblicher Rechenaufwand:

  • linear mit anzahl der möglichen Hypothesen
  • aber : in speziellen Fällen deutliche Reduzierung des Rechenaufands möglich
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Definition: bedingte Unabhängigkeit

A

X ist bedingt unabhängig von Y gegeben Z, wenn die Wahrscheinlichkeitsverteilung von X bei gegebenem Wert von Z unabhängig vom Wert von Y ist

P(X|Y,Z) = P(X|Z)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

MAP

A

Maximum a posteriori Hypothese:

Ziel: Finden der Hypothese h aus H mit der größten Wahrscheinlichkeit gegeben die beobachteten Daten D

h_{MAP} = arg max{h} P(h|D)

= arg max P(D|h)P(h) / P(D)

[ P(D) = const. ]

= arg max P(D|h)*P(h)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

ML Hypothese

A

Maximum Likelihood Hypothese

unter der Annahme P(h_i) = P(h_j):

h_{ML} = arg max{h_i} P(D|h_i)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Definition: konsitente Lerner

A

Ein Lernverfahren ist ein konsistenter Lerner, wenn es eine Hypothese liefert, die keine Fehler auf den Trainingsdaten macht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Optimaler Bayes Klassifikator

A

V_ob = arg max{v} ∑ P(v_j | h–i) P(h_i | D)

Vorteil: Kein anderes Klassifikationsverfahren (bei gleichem Hypothesenraum und Vorwissen) schneidet im Durchschnitt besser ab!

Nachteil: Sehr kostenintensiv bei großer Hypothesenanzahl

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Naiver Bayes-Klassifikator

A

Gegeben:

  • instanz x : konjunktion von Attributen a1 … an
  • endliche Menge von klassen V
  • Menge klassifizierter Beispiele

Gesucht
Wahrscheinlichste Klasse für eine neue Instanz

v_{MAP} = arg max{v} P(vj | a1 … an)

= arg max P(a1 … an | vj)P(vj)

P(vj) lässt sich leicht aus dem Auftreten der Klasse vj in der Trainingsmenge berechnen (einfach zählen)

P(a1…an | vj) ist schwer zu berechnen: Auszählen aller Kombinationen über Attributwerte –> riesige Trainigsmenge notwendig!

=> vereinfachte Annahme ai bedingt unabhängig:
P(a1 … an | vj) = ∏ P(ai | vj)

Naiver Bayes-Klassifikator:

v_{NB} = arg max{v} P(v_j) ∏ P(a_i | v_j)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Naiver Bayes Klassifikator Zusammenfassung

A

P(vj) und P(ai | vj) werden basierend auf den Häufigkeiten in den Trainingsdaten geschätzt

Wahrscheinlcihkeiten für Klassifikation ergibt gelernte Hypothese

Neue Instanzen werden klassifiziert unter Anwendung MAP Regel

Wenn annahme (bedingt Unabhängigkeit der Attribute) erfüllt ist, ist v(nb) äquivalent zu einer MAP-Klassifikation

=> keine explizite Suche im Hypothesenraum!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Bayesche Netze

A

beschreiben bedingte Abhängigkeiten / Unabhängigkeiten bzgl. Untermengen von Variablen

=> erlauben somit die Kombination von a priori Wissen über bedingte (Un-) abhängigkeiten von Variablen mit den beobachteten Trainingsdaten

  • gerichteter azyklischer Graph
  • jede Zufallsvariable wird durch eine nKnoten im Graph repräsentiert
  • Definition: X ist Nachfolger von Y, wenn ein gerichteter Pfad von Y nach X existiert.
  • Die Kanten repräsentieren die Zusicherung ,dass eine Variable von ihren Nicht-Nachfolgern bedingt unabhängig ist, gegeben ihre direkten Vorgänger
  • für diskrete Zufallsvariablen: lokale Tabelle mit bedingten Wahrscheinlichkeiten für jede Variable gegeben ihre direkten Vorgänger
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Beyessch Netze: Lernen

A

Struktur bekannt, alle Variablen beobachtbar:
* lernen der bedingten aBhängigkeiten wie für naiven bayes klassifikator

Struktur bekannt, nur einige Variablen beobachtbar:
* gradientenanstieg, EM-Methode

Strutkur unbekannt:
* heuristische Verfahren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

EM Algorithmus

A

Expectation Maximization

Problemstellung allgemein:

  • daten sind nur partiell beobachtbar
  • parameter einer (teil-)hypothese sollen geschätzt werden

Grundidee:
Interativer Ansatz - schätzen der nicht beobachtbaren Werte (E) und Anpassung der Parameter (M)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Einordnung

A
Typ der Inferenz: induktiv
Ebene des Lernens: subsymbolisch
Lernvorgang: überwacht 
Beispielgenerierung: nicht inkrementell 
Umfang der Beispiele: umfangreich 
Hintergrundwissen: empirisch
How well did you know this?
1
Not at all
2
3
4
5
Perfectly