02 - Sprachsignal Flashcards
Was ist ein Phonem?
Kleinste bedeutungsunterscheidende, aber nicht bedeutungstragende Einheiten einer Sprache
zB t, k, p, m, n, a, e, …
Ersetzt man in einem Wort ein Phonem, so ändert sich die Bedeutung
Was ist die Phonemik?
Lehre über die Phoneme und deren Beziehungen in einer Sprache
Was ist ein Phon?
Eigentlicher, beim Sprechen erzeugter Klang (zB “d” im buchstabierten “l e d e r”
Was ist die Phonetik?
Lehre über die eigentlichen Klänger einer Sprache
Was sind Allophone?
Menge aller minimalen Varianten eines speziellen Klanges (“t” in “eight” gegenüber t in “top”)
Was sind Monophone, Biphone, Triphone?
Sequenzen von einem, zwi und drei Phons
WIrd in der Modellierung von akustischen Modellen verwendet
Wie werden im internationalen Phone Alphabet Vokale eingeteilt?
Sie werden in einer Matrix eingeteilt (Mund offen bis geschlossen) (vorne bis hinten im Mund)
Was ist das APRAbet?
Ein phonetisches Alphabet
Es ist eine Darstellung von Phonemen mit ASCII Zeichen
Wie funktioniert die Spracherzeugung im Gehirn/Körper?
Formerlierung einer Nachricht (gedanklich)
Übersetzung der Nachricht in Sprach-Code
Ausführung von neuromuskulären Kommandos, um
die Stimmbänder schwingen zu lassen
den Vokaltrakt zu verformen
die Zunge zu bewegen
Wie funktioniert die Sprachwahrnehmung im Gehirn/Körper?
Verarbeitung in Basilar-Membran des Innenohres
Spektralanalyse des Signals
Weitergabe an den Hörnerv
Übersetzung in Sprach-Code und Nachrichtenerfassung
Wie ist der Ablauf der Spracherzeugung und Sprachwahrnehmung im Gehirn/Körper (Blockschaltbild)?
Wie wird Sprache im Zeitbereich repräsentiert?
Sprache ist ein langsam variierendes Signal
Beobachtung über eine kurze Zeitspanne (5m - 100ms) → Charakteristik nahezu stationär
Beobachtung über längere Zeitspanne (500ms und länger) → Charakteristik ändert sich je nach erzeugtem Sprachgeräusch
Wie wird Sprache im Frequenzbereich repräsentiert und wie kann sie in den Frequenzbereich überführt werden?
Die Sprache wird mit der Running Fourier Analyse in den Frequenzbereich überführt.
Die Sprache wird dann im Breitband Spektrogramm und Schmalband Spektrogramm dargestellt
Aus den Spektogrammen ist die Ermittlung der einzelnen Frequenzmaxima im Spektrum möglich
Wie wird Sprache durch parametrisierte spektrale Aktivität repräsentiert?
Der menschliche Vokaltrakt ist imwesentlichen ein aus Röhren unterschiedlicher Dicke zusammengesetztes System
Die Luft in den Röhren wird entwedre an einem Röhrenende oder an einem Punkt entlang der Röhre zum Schwingen angeregt
Was besagt die Akustik Theorie?
Die Energietranferfunktion vom Anregungspunkt hin zum Ausgang lässt sich in Termen der Eigenfrequenzen der einzelnen Röhren beschreiben
Durch neuro-muskuläre Aktivität (sprechen) werden die Eigenfrequenzen der einzelnen Röhren verändert
XXX F12-14
x
Was sind Vokale und wofür werden sie in Spracherkennungssystemen benötigt?
q, w, z, g, h, …
Vokalerkennung ist sehr wichtig, um eine hohe Erkennungsrate zu gewährleisten
Vokale lassen sich mit der Hilfe der Formantenanalyse klassifizieren
Was sind Konsonanten und wofür werden sie in Spracherkennungssystemen benötigt?
a e i o u
Für das Dekodieren von Sprachnachrichten von entscheidender Bedeutung
Viel schwerer mit Hilfe von Signalverarbeitungstechniken zu klassifizieren
Wie werden Phoneme klassifiziert?
Was sind Zwielaute?
Gleitende einsilbige Sprachlaute
Beginnt gleich wie ein Vokal
Endet gleich wie ein anderer Vokal
Was ist der Unterschied von Vokalen und Zwielauten, wenn man sie auf einem Spektrogramm betrachtet?
Bei einem Zwielaut hat man eine Kurve (Die Frequenzen bewegen sich)
Welche Zwielaute gibt es im Deutschen?
au
ei, ai
eu, äu
ui
Was sind nasale Konsonanten und wie entstehen sie im Mund?
m, n
Entstehen durch
Stimmritzenschwingungen
Der Vokaltrakt ist an einem Punkt gänzlich eingeengt
Luftfluss nur durch den Nasaltrakt möglich
Mund dient nur als Resonanzhöhle
Was kann man bei nasalen Konsonanten zu der spektralen Charakteristik sagen?
Die spektrale Charakteristik ist sehr ähnlich → Sie sind schwer unterscheidbar, Der Frequenzbereich ist ähnlich
Was sind stimmlose Reibelaute und wie entstehen diese?
f, th, s, sh
Entsteht durch
- stationären Luftstrom
- Luftstrom wird turbulent in der Nähe einer Verengung des Vokaltrakts (f, th, s, sh)
Die Verengungen produzieren im wesentlichen nur Rauschen
Stimmlose Reibelaute lassen sich schwer unterscheiden
Was sind stimmhafte Reibelaute und wie entstehen diese?
v, th, z, zh
Stimmbänder sind neben den Anregungsquellen der stimmlosen Reibelaute noch ein zweites, stimmhaftes Anregungszentrum
Spektrogramm ist für die einzelnen Laute signifikant unterschiedlich