01a - Sprachsynthese Flashcards

1
Q

Was ist Sprachsynthese?

A
  • Eine Maschine soll beliebigen Text vorlesen/ausgeben können
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist ein TTS System?

A
  • Ein Text to Speech Synthese System

- Es beschreibt wie Text in Sprache umgewandelt wird bzw. welche Schritte dafür notwndig sind

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Aus welchen Prozessteilen besteht ein TTS System?

A
  • NLP = Natural Language Processing

- DSP = Digital Signal Processing

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was passiert beim Natural Language Processing?

A
  • Ist Teil des TTS Systems

- Der Text wird in Lautschrift und ProsodieBeschreibung konvertiert

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was passiert beim Digital Signal Processing?

A
  • Die Ausgabe des NLP wird genommen und es wird eine Synthese durchgeführt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was wird bei der Textnormalisierung gemacht und wofür wird sie gebraucht?

A
  • Buchstaben werden je nach Wort oft anders ausgesprochen (st, …)
  • Manchmal sind Symbole, Abkürzungen (.NET) im Text enthalten, wovon man nicht weiß wie diese ausgesprochen gehören
  • Bei der Textnormalisierung muss herausgefunden werden wie diese Buchstaben richtig ausgsprochen werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist Prosodie?

A
  • Die Prosodie bestimmt folgende Eigenschaften von lautsprachlichen Äußerungen:
    • Akzent/Betonung
    • Grundfrequenzkonturen
    • Lautstärke
    • Intonation
    • Sprechgeschwindigkeit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist Intonation?

A
  • Der Tonhöhenverlauf innerhalb eines Sprechaktes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist das Problem bei der Prosodie in Bezug auf Sprachsynthese?

A
  • Im geschriebenen Text ist nur wenig Information über Prosodie kodiert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein Phonem?

A
  • Ein einzelner Laut
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was sind Grapheme?

A
  • Nicht jeder Laut hat einen Buchstaben
  • Für den Laut ch, sch, nk, pf, ts, äu, … werden mehrere Buchstaben verwendet
  • Laute, die Buchstabenkombinationen benötigen nennt man Grapheme
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Was passiert beim Synthetisator?

A
  • Das Sprachsignal wird erzeugt

- Hier werden Dauer, Lautstärke und Tonhöhe des Signals bestimmt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was passiert bei der modernen Sprachsynthese?

A
  • Bei der Textanalyse findet eine Segmentierung statt
  • Segment → Phonem, Silbe, Wort, Phrase
  • Segmente werden mit einer Reihe von akustischen udn phonetischen Eigenschaften wie Grundfrequenzverlauf, Dauer oder Nachbarn gespreichert
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Welche allgemeinen Ansätze bei der modernen Sprachsynthese gibt es?

A
  • Konkatenative Synthese
  • Formatsynthese
  • Artikulartorische Synthese
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie funktioniert die konkatenative Synthese, welche Probleme gibt es damit und wo wird sie eingesetzt?

A
  • Durch Suchalgorithmen und gewichtete Entscheidungsbäume wird eine Reihe möglichst großer Segmente bestimmt
  • Probleme können bei der Aneinanderreihung der Segmente entstehen, da sie sich in Lautstärk und Grundfrequenz unterscheiden
  • Wird häufig in kommerziellen Systemen verwendet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wie funktioniert die Formatsynthese?

A
  • Beruht auf der Beobachtung, dass es zur Unterscheidung der Vokale genügt, die ersten zwei Formanten passend zu reproduzieren
  • Ein Formant wird durch einen in der Mittenfrequenz und Güte steuerbaren Bandpass nachgebildet
17
Q

Welchen Ansatz gibt es zur Formatsynthese und wie funktioniert dieser?

A
  • Akustisches Modell

- Das Modell bildet die Resonanzeigenschaften des Vokaltrakts durch einen Filter nach

18
Q

Wie funktioniert die artikulorische Synthese?

A
  • Basiert auf einem Modell des menschlichen Vokaltrakts und den Prinzipien der Schall Generierung und Schall Ausbreitung
  • Mit modernen bildgebenden Verfahren und Computergraphiken lassen sich Anatomie und Zusammenspiel der Artikulatoren visualisieren
  • Hoher Rechenaufwand
  • Hauptsächlich in Forschung eingesetzt
  • Kein kommerzieller Einsatz
19
Q

Was ist die Speech Synthesis Markup Language

A
  • Eine W3C Spezifikation
  • Eine Markup Sprache, mit der man mit Kommandos Dinge wie Textnormalisierung, Betonunssteuerung, Pause, usw. angeben kann