Vorlesung 10 - Einführung in Textmining / Wortassoziationen Flashcards

1
Q

Text Mining und Analyse

A
  • Text Mining ≈ Text Analyse
  • Überführung von textuellen Daten in hoch qualitative
    Informationen oder anwendbares Wissen
    − Minimiert menschlichen Aufwand (beim Umgang mit textuellen Daten)
    − Liefert Wissen um optimal Entscheidungen zu treffen
  • Hat einen Bezug zum Text Retrieval, welches eine essentielle Komponente jedes Text Mining-Systems ist
    − Text Retrieval kann ein Vorverarbeitungsschritt für Text Mining sein
    − Text Retrieval wird für die Herkunft des Wissens benötigt
  • Ziel: Muster und Trends erkennen, um
  • Entwicklung und Vorhersage von Straftaten zu ermöglichen (Predictive Policing)
  • inkriminierte Texte zu finden
  • Informationen extrahieren, welche zur Aufklärung aller Tatumstände beitragen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Text vs. Nicht-Text-Daten
Der Mensch als subjektiver Sensor

A

reale Welt -> aufnehmen -> Sensor -> berichten -> Daten

Ereignis -> Wahrnehmung (Perspektive) -> menschlicher Sensor -> Ausdruck (Deutsch)-> Bericht

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Forensisches Text Mining

A

bezeichnet das interdisziplinäre Feld, welches sich Methoden aus Informationsrückgewinnung, Verarbeitung natürlicher Sprache, Statistik, maschinellen Lernverfahren, Mustererkennung, Datenbanktechnologien, Netzwerkforschung, wissensbasierten Systemen, künstlicher Intelligenz, High Performance-Computing und Datenvisualisierung nutzbar macht, um große Mengen von Texten zu strukturieren, mit dem Ziel Muster und Trends zu erkennen, welche die Entwicklung und Vorhersage von Straftaten ermöglichen ( Predictive Policing) sowie inkriminierte Texte zu finden und daraus Informationen zu extrahieren, welche zur vollständigen Aufklärung aller Tatumstände einer Straftat beitragen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Arten von Wissen durch Text Mining

A
  • Mining von Wissen über Sprache
    -> Word Association Mining & Analysis
  • Mining des Inhalts der Textdaten
    -> Topic Mining & Analysis
  • Mining von Wissen über den Beobachter
    -> Opinion Mining & Sentiment Analysis
  • Ableiten anderer Real World-Variablen
    -> Text-based Prediction
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Verschiedenen Textanalysemöglichkeiten die notwendige Textrepräsentation zuordnen

A
  • Textrepräsentation
    -> Generalität
    -> Ermöglichte Analysen
    -> Anwendungsbeispiele
  • String
    -> #####
    -> Stringverarbeitung
    -> Kompression
  • Wörter
    -> ####
    -> Wortrelationsanalysen; Topic
    Analysis; Sentiment Analysis
    -> Thesaurus-Erzeugung;
    Anwendungen mit Bezug zu
    Topics und Opinions
  • Syntaktische Strukturen
    -> ###
    -> Analyse des Syntaxbaumes
    -> Stilistische Analysen; strukturbasierte FeatureExtraktion
  • Entities & Relationen
    -> ##
    -> Analyse des Wissensgraphen, Informationsnetzwerkes
    -> Aufklärung von Wissen und Meinungen über spezifische Entitäten
  • Prädikatenlogik
    -> #
    -> Integrierte Analyse von
    verteiltem Wissen; logische Inferenz
    -> Wissensassistent für Forensiker
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Syntagmatische Relation:
Sprache, Satz

A
  • Definition: Sprache
    -> Sei 𝑳 = (𝑾, 𝑺) eine beliebige Sprache, wobei 𝑊 die Menge der Wörter und 𝑆 die Menge der bedeutungstragenden Sätze bezeichnet.
  • Definition: Satz
    -> Jeder Satz aus 𝐿 kann dann als eine Menge einzelner Wörter repräsentiert werden: 𝑠 = {𝑤1, … , 𝑤𝑛}.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Syntagmatische Relation:
lokaler Kontext

A
  • Der lokale Kontext 𝑪𝒔 𝒘 eines Wortes 𝑤 ist die Menge aller Wörter, die gemeinsam
    mit 𝑤 im Satz 𝑠 auftauchen: 𝐶𝑠 𝑤 = 𝑠{𝑤}, 𝑤 ∈ 𝑠.
  • Wenn 𝑛 die Häufigkeit des Auftretens von 𝑤 ist, dann gibt es maximal 𝒏 Kontexte.
  • Verschiedene Sätze können den gleichen Kontext teilen, wenn sie sich nur in ihrer
    Repräsentation unterscheiden.
  • Da das Konzept des lokalen Kontexts auf dem Konzept des Satzes beruht, ist es
    beschränkt auf die linguistische Ebene der Sätze.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Syntagmatische Relation:
Definition

A
  • Zwei Wörter 𝑤𝑖 ∈ 𝑊 und 𝑤𝑗 ∈ 𝑊 stehen genau dann in syntagmatischer Relation,
    wenn es mindestens einen lokalen Kontext gibt, der beide Wörter enthält:
    𝑆𝑌𝑁 (𝑤𝑖, 𝑤𝑗) ↔ ∃𝑠: 𝑤𝑗 ∈ 𝐶𝑠(𝑤𝑖).
  • Das gemeinsame Auftreten zweier Wörter in einem lokalen Kontext wird auch als Kookkurrenz bezeichnet.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Statistisch Syntagmatische Relation: Definition

A
  • Zwei Wörter 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in statistisch syntagmatischer Relation 𝑺𝒀𝑵𝑺(𝒘𝒊, 𝒘𝒋), wenn sie in syntagmatischer Relation stehen und ihr gemeinsames Auftreten in Bezug auf ein Signifikanzmaß nicht zufällig ist.
  • Satzkookkurrenzen
    -> Dependenzen
    -> Aufzählungen
    -> Feste Wendungen
  • Nachbarschaftskookkurrenzen
    -> Mehrwortbegriffe
    -> Head-Modifier-Relations
    -> Kategorie- und Funktionsbegriffe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Paradigmatische Relation

A
  • ähnlicher Kontext
  • Fragen im Zusammenhang mit Paradigmen:
    -> Wie ähnlich sind Kontext(“cat”) und Kontext(“dog”)?
    -> Wie ähnlich sind Kontext(“cat”) und Kontext(“computer”)?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Paradigmatische Relation:
globaler Kontext

A
  • Der globale Kontext 𝑪𝑮 (𝒘𝒊) eines Wortes 𝑤𝑖 ∈ 𝑊 ist die Menge aller Wörter 𝑤 ∈ 𝑊 für die gilt: 𝐶𝐺 𝑤𝑖 = {𝑤|𝑆𝑌𝑁𝑆 𝑤𝑖, 𝑤 }.
  • Aufgrund dieser Definition gibt es exakt einen globalen Kontext 𝐾𝐺(𝑤𝑖) für ein Wort 𝑤𝑖 in Abhängigkeit des gewählten Signifikanzmaßes und des zugrundeliegenden Korpus.
  • Der globale Kontext 𝐶𝐺 𝑤𝑖 eines Wortes 𝑤𝑖 enthält alle Wörter, die statistisch
    signifikant oft mit 𝑤𝑖 auftreten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Paradigmatische Relation:
Definition

A
  • Zwei Wortformen 𝑤𝑖, 𝑤𝑗 ∈ 𝑊 stehen genau dann in paradigmatischer Relation, wenn deren globale Kontexte, in Bezug auf ein gegebenes Ähnlichkeitsmaß und einen vorbestimmten Schwellwert, ähnlich zueinander sind :
    PARA (𝑤𝑖, 𝑤𝑗) ↔ 𝑆𝐼𝑀𝑡(𝐾𝐺 𝑤𝑖,𝐾𝐺(𝑤𝑗))
  • Der globale Kontext eines Wortes kann durch Filterfunktionen geändert werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Paradigmatische Relation:
Filter

A
  • Syntaktische Kategorie 𝑪𝑨𝑻:
    𝑃𝐴𝑅𝐴 𝐶𝐴𝑇 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐶𝐴𝑇(𝑤𝑖) = 𝐶𝐴𝑇(𝑤)
  • Semantische Kategorie 𝑺𝑬𝑴:
    𝑃𝐴𝑅𝐴𝑆𝐸𝑀 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝑆𝐸𝑀 𝑤𝑖 = 𝑆𝐸𝑀(𝑤)
  • Gemeinsamer Begriff:
    {𝑤│𝑆𝑌𝑁𝑆(𝑤𝑖, 𝑤) ∧ 𝑆𝑌𝑁𝑆(𝑤𝑘, 𝑤) }, 𝑤𝑜𝑏𝑒𝑖 𝑤𝑖 ≠ 𝑤𝑘
  • Logische Bedingung 𝑳𝑶𝑮:
    𝑃𝐴𝑅𝐴𝐿𝑂𝐺 (𝑤𝑖, 𝑤) ↔ 𝑃𝐴𝑅𝐴 (𝑤𝑖, 𝑤) & 𝐿𝑂𝐺 𝑤𝑖 = 𝐿𝑂𝐺(𝑤)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Warum analysiert man
Wortassoziationen?

A
  • Verbesserung vieler Aufgaben aus der NLP
    − POS-Tagging, Parsing, Entity Recognition, Acronym Expansion
    − Grammar Learning
  • Nutzen in vielen Anwendungen aus Text Retrieval und Mining
    − Text Retrieval (z.B. vorschlagen von Variationen einer Query)
    − Forensische Textanalyse (z.B. Empfehlung von “überraschenden” Suchbegriffen)
    − Automatische Konstruktion einer Topic Map als Navigationsstruktur: Wörter als Knoten
    und Assoziationen als Kanten
    − Analyse von Meinungen (z.B. welche Wörter sind in positiven und negativen Kommentaren
    über Corona-Management am stärksten mit “Impfstoff” assoziiert?)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Generelle Ansätze

A
  • Paradigmatische Relationen
    -> Repräsentation eines Wort durch seinen globalen Kontext
    -> Berechnung der Kontextähnlichkeit
    -> Wörter mit hoher Kontextähnlichkeit stehen wahrscheinlich in paradigmatischer Relation
  • Syntagmatische Relationen
    -> Wie oft treten zwei Wörter gemeinsam in einem lokalen Kontext auf (z.B. Satz oder Absatz)
    -> Vergleich der Kookkurrenzen mit dem individuellen Auftreten
    -> Wörter mit hoher Kookkurrenz aber relativ seltenem individuellem Auftreten stehen wahrscheinlich in syntagmatischer Relation
  • Gemeinsame Bestimmung
    -> Wörter in paradigmatischer Beziehung stehen häufig auch in syntagmatischer Relation.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wortkontext als Pseudo-Dokument

A
  • Kontext = Pseudo-Dokument = “Bag of Words”
  • kann adjazente oder/und nicht-adjazente Wörter beinhalten
17
Q

Messen der Kontextähnlichkeit

A
  • Hohe 𝑠𝑖𝑚(𝑊𝑜𝑟𝑡1, 𝑊𝑜𝑟𝑡2)
    → 𝑊𝑜𝑟𝑡1 und 𝑊𝑜𝑟𝑡2 stehen in paradigmatischer Beziehung.
18
Q

Möglichkeiten der Detektion syntagmatischer und paradigmatischer Relationen

A
  • Detektion paradigmatischer Relationen
    -> Pseudo-Dokument aus Kontext eines Kandidatenwortes erstellen (BoW)
    -> Ähnlichkeit der Kontextdokumente zweier Kandidatenwörter berechnen
    -> Annahme: Wörter mit hoch ähnlichen Kontexten stehen wahrscheinlich in
    paradigmatischer Relation
  • Detektion Syntagmatischer Relationen (Syntagmatische Relation = korreliertes Auftreten)
    -> Entropie-Wortvorhersage (Korrellationsmessung zwischen dem Auftreten zweier Wörter)
    -> Transinformation liefert einen Weg zur Detektion syntagmatischer Relationen
19
Q

EOWC
Expected Overlap of Words in Context

A

Wie werden Vektoren berechnet?
𝒅𝟏 = 𝒙𝟏, … , 𝒙𝑵
𝒙𝒊 = 𝒄(𝒘𝒊, 𝒅𝟏)/ |𝒅𝟏|

𝒅𝟐 = 𝒚𝟏, … , 𝒚𝑵
𝒚𝒊 = 𝒄(𝒘𝒊, 𝒅𝟐)/ |𝒅𝟐|

Welche Ähnlichkeitsfunktion kommt zum Einsatz?
sim (d1,d2) = d1* d2 = x1y1 + … + xNyN

Wahrscheinlichkeit, dass zwei zufällig aus 𝑑1 und 𝑑2 gewählte Wörter identisch sind.

20
Q

Probleme mit EOWC

A
  • Intuitiv sinnvoll!
    -> Je mehr Überlappung die beiden Kontextdokumente haben, desto höher ist die Ähnlichkeit.
  • Aber:
    − Es bevorzugt die Übereinstimmung eines sehr häufigen Begriffs gegenüber
    individuelleren Begriffen.
    -> Sublineare Transformation der Termfrequenz (TF)
    − Es betrachtet jedes Wort als gleichwertig (Überlappung von “the” ist nicht so
    bedeutungsvoll wie “eats”).
    -> IDF-Term-Gewichtung
21
Q

BM25-Score
für syntagmatische Relationen

A

Die hoch gewichteten Begriffe im Kontextvektor eines Wortes w stehen
wahrscheinlich in syntagmatischer Beziehung zu w

𝑰𝑫𝑭 ∗ 𝒅𝟏 = (𝒙𝟏 ∗ 𝑰𝑫𝑭 (𝒘𝟏) , … , 𝒙𝑵 ∗ 𝑰𝑫𝑭 (𝒘𝑵))

22
Q

Adaption BM25

A

sim (d1, 𝑑2) = Σ
( unten: 𝑖=1, oben: 𝑁) 𝐼𝐷𝐹 (𝑤𝑖) 𝑥𝑖𝑦i

23
Q

TR-Modelle können zur Berechnung der Ähnlichkeit von Kontexten adaptiert werden

A
  • BM25 + IDF-Weighting repräsentieren den State-of-the-Art
  • Syntagmatische Relationen können als “Nebenbeiprodukt” ebenfalls bestimmt werden
24
Q

Prinzip der Wortvorhersage

A
  • Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden?
  • Sind manche Wörter leichter vorherzusagen als andere?
    -> 1) 𝑾 = “𝒎𝒆𝒂𝒕” 2) 𝑾 = “𝒕𝒉𝒆” 3) 𝑾 = “𝒖𝒏𝒊𝒄𝒐𝒓𝒏”
25
Q

Formale Definition

A

Binäre Zufallsvariable: 𝑋𝑤 ∈ {0,1} 𝑋𝑤 = {
1 𝑤 𝑒𝑥𝑖𝑠𝑡𝑖𝑒𝑟𝑡
0 𝑠𝑜𝑛𝑠

𝑝 (𝑋𝑤 = 1) + 𝑝 (𝑋𝑤 = 0) = 1
* Je zufälliger 𝑿𝒘 ist, desto schwieriger seine Vorhersage.
* Wie kann man quantitativ die „Zufälligkeit“ einer Zufallsvariable wie 𝑋𝑤 messen?

26
Q

Entropie 𝐻(𝑋)
Maß der Zufälligkeit von X

A

𝐻 (𝑋w)= −𝑝(𝑋𝑤 = 0) log2 𝑝 (𝑋𝑤 = 0) − 𝑝(𝑋𝑤 = 1) log2 𝑝(𝑋𝑤 = 1)

27
Q

Entropie zur Wortvorhersage

A
  • Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden?
  • Sind manche Wörter leichter vorherzusagen als andere?
    -> 1) 𝑾 = “𝒎𝒆𝒂𝒕” 2) 𝑾 = “𝒕𝒉𝒆” 3) 𝑾 = “𝒖𝒏𝒊𝒄𝒐𝒓𝒏”
  • Was ist höher/niedriger? 𝑯 𝑿𝒎𝒆𝒂𝒕 , 𝑯 𝑿𝒕𝒉𝒆 , 𝒐𝒓 𝑯(𝑿𝒖𝒏𝒊𝒄𝒐𝒓𝒏)?
    -> 𝑯(𝑿𝒕𝒉𝒆) ≈ 𝟎 → keine Unsicherheit, weil 𝒑(𝑿𝒕𝒉𝒆 = 𝟏) ≈ 1
  • Wörter mit hoher Entropy sind schwerer vorherzusagen!
28
Q

Würden mehr Informationen über ein Textsegment helfen?

A
  • Vorhersagefrage: Ist Wort 𝑊 in einem Segment vorhanden?
  • Hilft das Vorhandensein von “eats” für die Vorhersage des Auftretens von “meat”?
    Wird die Unsicherheit bezüglich “meat”, also 𝑯(𝑿𝒎𝒆𝒂𝒕) reduziert?
    Was wäre wenn wir wüssten, dass “eats” nicht auftritt?
29
Q

Bedingte Entropie
vollständige Definition

A

Für jede diskrete Zufallsvariable 𝑿 und 𝒀 ist 𝑯(𝑿) ≥ 𝑯 𝑿 𝒀 !

30
Q

Identifikation
syntagmatischer Relationen

A
  • For each word 𝑊1
    -> For each other word 𝑊2,
    -> compute conditional entropy 𝐻(𝑋𝑊1|𝑋𝑊2)
    -> Sort all the candidate words in ascending order of 𝐻(𝑋𝑊1|𝑋𝑊2)
    -> Take the top-ranked candidate words as words that have potential syntagmatic
    relations with 𝑊1 (Notwendigkeit eines Schwellwertes für jedes 𝑊1)
  • 𝐻(𝑋𝑊1|𝑿𝑾𝟐) und 𝐻(𝑋𝑊1|𝑿𝑾𝟑) sind vergleichbar, 𝐻(𝑋𝑊1|𝑿𝑾𝟐) und 𝐻(𝑋𝑊3|𝑿𝑾𝟐) aber nicht!
31
Q

Transinformation I(X;Y)
Messung der Entropiereduktion

A
  • Wieviel kann die Entropy von 𝑿 durch Kenntnis von 𝒀 reduziert werden?
  • Transinformation: 𝑰 𝑿; 𝒀 = 𝑯 𝑿 − 𝑯 𝑿 𝒀 = 𝑯 𝒀 − 𝑯(𝒀|𝑿)
  • Eigenschaften:
    -> Nicht-Negativ: 𝐼 𝑋; 𝑌 ≥ 0
    -> Symmetrisch: 𝐼 𝑋; 𝑌 = 𝐼 𝑌; 𝑋
    -> 𝐼 ( 𝑋; 𝑌) = 0 𝑤𝑒𝑛𝑛 𝑋 & 𝑌 𝑢𝑛𝑎𝑏ℎä𝑛𝑔𝑖𝑔 𝑠𝑖𝑛d
  • Bei Bestimmung der Rangfolge verschiedener 𝑌s, ergeben 𝐼(𝑋; 𝑌) und 𝐻(𝑋|𝑌) dieselbeReihenfolge, sofern 𝑋 fix ist.
  • 𝐼(𝑋; 𝑌) erlaubt es aber verschiedene (𝑋,𝑌)-Paare zu vergleichen
32
Q

Transinformation 𝐼(𝑋; 𝑌)
für syntagmatische Relationen

A
  • Transinformation: 𝑰 𝑿; 𝒀 = 𝑯 𝑿 − 𝑯 𝑿 𝒀 = 𝑯 𝒀 − 𝑯(𝒀|𝑿)
    -> Wenn “eats” auftritt, welches andere Wort tritt tendenziell auch auf?
  • Welche Wörter haben eine hohe Transinformation mit “eats”?
    𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒎𝒆𝒂𝒕𝒔) = 𝑰(𝑿𝒎𝒆𝒂𝒕𝒔; 𝑿𝒆𝒂𝒕𝒔) > 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒕𝒉𝒆) = 𝑰(𝑿𝒕𝒉𝒆; 𝑿𝒆𝒂𝒕𝒔)
    𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒆𝒂𝒕𝒔) = 𝑯(𝑿𝒆𝒂𝒕𝒔) ≥ 𝑰(𝑿𝒆𝒂𝒕𝒔; 𝑿𝒘)
33
Q

Umformulierung der Transinformation
mit Kullback-Leibler-Divergenz

A

Transinformation misst die Divergenz der tatsächlichen gemeinsamen Verteilung
von der erwarteten Verteilung unter der Unabhängigkeitsvermutung.
Je größer die Divergenz ist, desto größer ist die Transinformation.
beobachtete gemeinsame Verteilung von
𝑋𝑤1 und 𝑋𝑤2 / Erwartete gemeinsame Verteilung von 𝑋𝑤1 und 𝑋𝑤2 , wenn 𝑿𝒘𝟏
und 𝑿𝒘𝟐 unabhängig sind.

34
Q

Glättung

A
  • Hinzufügen von Pseudodaten, so dass jedes Ereignis mindestens einmal vorkommt (Vortäuschen beobachteter Zusatzdaten)

𝑝 (𝑋𝑤1 = 1) = 𝑐𝑜𝑢𝑛𝑡 (𝑤1) + 0.5 / 𝑁 + 1
𝑝 (𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡 (𝑤2) + 0.5 / 𝑁 + 1
𝑝 (𝑋𝑤1 = 1, 𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡 𝑤1, 𝑤2 + 0.25 / 𝑁 + 1

35
Q

Schätzung der Wahrscheinlichkeiten
auf Basis vorhandener Daten

A

𝑝 (𝑋𝑤1 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤1) / 𝑁
𝑝 (𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤2) / 𝑁
𝑝 (𝑋𝑤1 = 1, 𝑋𝑤2 = 1) = 𝑐𝑜𝑢𝑛𝑡(𝑤1, 𝑤2) / N

36
Q

Berechnung der Transinformation

A

An-/Abwesenheit 𝒘𝟏: 𝒑(𝑿𝒘𝟏 = 𝟏) + 𝒑(𝑿𝒘𝟏 = 𝟎) = 𝟏
An-/Abwesenheit 𝒘𝟐: 𝒑(𝑿𝒘𝟐 = 𝟏) + 𝒑(𝑿𝒘𝟐 = 𝟎) = 1

Kookkurrenzen von 𝒘𝟏 und 𝒘𝟐:
𝒑 (𝑿𝒘𝟏 = 𝟏, 𝑿𝒘𝟐 = 𝟏) + 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) + 𝒑 (𝑿𝒘𝟏 = 𝟎, 𝑿𝒘𝟐 = 𝟏 ) + 𝒑 (𝑿𝒘𝟏 = 𝟎, 𝑿𝒘𝟐 = 𝟎) = 𝟏

Nebenbedingungen:
𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏) + 𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟏 = 𝟏)
𝒑 (𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟏) + 𝒑( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟏 = 𝟎)
𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏 )+ 𝒑( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟏) = 𝒑(𝑿𝒘𝟐 = 𝟏)
𝒑 (𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟎) + 𝒑 ( 𝑿𝒘𝟏 = 𝟎,𝑿𝒘𝟐 = 𝟎) = 𝒑(𝑿𝒘𝟐 = 𝟎)

Wir brauchen nur 𝒑(𝑿𝒘𝟏 = 𝟏), 𝒑(𝑿𝒘𝟐 = 𝟏) und 𝒑 𝑿𝒘𝟏 = 𝟏,𝑿𝒘𝟐 = 𝟏 zu schätzen.