Cours 4 Flashcards
Quelles sont les deux façons de faire une analyse spectrale à partir d’une représentation dans le domaine du temps?
- Deux façons de faire une analyse spectrale à partir d’une représentation dans le domaine du temps
- En se servant de batterie de filtres électroniques (analogues)
o Technique révolue - Par des calculs automatisés; les plus communs :
o Transformée rapide de Fourier (FFT, « Fast Fourier Transform »)
o Régression linéaire – autocorrélation ou covariance (ex. LPC pour « Linear Predictive Coding »)
o Analyse par Wavelet (transformée en ondelettes) - En parole, celle qu’on voit la plus souvent est la FFT
- On va chercher les formants avec la LPC
- Wavelet est fait pour faire des analyses statistiques
- Donc chaque technique a ses avantages mais en phonétique, le gros de la job est en FFT
- L’analyse de Fourier et par ondelettes opèrent de façon similaire (en calculant le « produit de convolution »)
- En parole on utilise la Transformée rapide de Fourier* (FFT, « Fast Fourier Transform »)
Quelles sont les caractéristiques communes à toutes ces techniques?
- Les calculs s’appliquent sur des signaux numérisés. Ils possèdent leurs caractéristiques propres, mais tous reposent sur :
o Les propriétés des procédés de numérisation
o L’étendue du signal (amplitude x temps) sur laquelle on applique les calculs
o (Impliquent un réglage de paramètres relatifs à ces deux points)
Quelles sont les caractéristiques de la numérisation des signaux?
- Conversion A/N : conversion de l’analogique au numérique
- Numérisation :
o Échantillonnage
o Quantification - Signal analogue :
o Variations continues du voltage « analogues » aux variations de pressions…
o Signal analogue : la parole dans notre cas (mais peut aussi être son sur une bobine/cassette) –> donc signal analogue est un signal dont les variations d’amplitude sont continues (si notre signal passe du médium/milieu à l’autre, notre signal ne change pas) - Signal numérique :
o Variations discontinues du voltage - Signal analogue –> échantillonnage –> signal numérique
o Donc, quand on passe au numérique, on peut voir des petits escaliers dans notre signal, il n’est plus pareil donc n’est plus analogue
Qu’est-ce que l’échantillonnage?
- Échantillonnage :
o Nombre de pts/s
o Typiquement (avec les cartes de son standards) :
–> 11 025 Hz; 22 050 Hz et 44 100 Hz
–> Avec les cartes opérant sous Window 10 on a par défaut un taux de 48 kHz - Les lignes rouges représentent un peu la manière dont l’ordi se représente le signal : il va seulement se souvenir de l’amplitude du signal à différents moments dans le temps, et il va remplir le reste des trous avec sa mémoire, ce qui va donner les petits escaliers
- 44,1 kHz : veut dire qu’il y a 44 100 points par seconde qui ont été pris lors de la mesure
- Moins on a de points par seconde dans la mesure, plus on perd de la clarté, de l’information (donc plus on en a, plus le signal est clair)
- Et plus on a de points par seconde moins on a de grandes marches dans notre signal
Qu’est-ce que la quantification?
- Quantification :
o Nombre de niveaux disponibles
o Dépend du no. De bits (chiffres binaires) utilisés pour compter les niveaux de voltage.
o No. de niv. : 2N où N est le no. de bits. Ex. 16 bits = 65,536 niv
o Pour ces niveaux-là, on est limité par les capacités de capte de sons
o Bit = nombre de niveaux possibles de mesure
o Donc 16 bits = 216 niveaux de mesure possibles (par secondes)
Quelles sont les étapes typiques des systèmes d’analyse de signaux acoustiques avant la numérisation?
- Quelques étapes typiques dans des systèmes d’analyse de signaux acoustiques de la parole avant la numérisation (ces étapes se font automatiquement par certains systèmes)…
o Filtre de « préemphase » passe-haut, ex. +6dB/octave –> « Filtre » d’échantillonnage passe-bas –> Échantillonnage et quantification
o Filtre de « préemphase » passe-haut : au-delà d’une certaine fréquence (entre 100 Hz et 1 kHz) on gonfle les hautes fréquences
o Filtre d’échantillonnage passe-bas :
–> On enlève les fréquences au-delà de la plus haute fréquence d’intérêt (la valeur Nyquist) pour éviter l’« aliasing », qui est un principe important
–> Filtre passe-bas : super important et est présent dans toutes les machines car on doit enlever certaines fréquences avant de les numériser pour avoir un bon signal
Quels sont les différents facteurs qui influencent la précision de l’analyse?
- Plus le taux d’échantillonnage et le nombre de bits sont grands, plus on représente de façon précise le signal analogue
- Autres facteurs qui influencent la précision de l’analyse : la fenêtre de prélèvement ou d’analyse, c’est-à-dire l’étendue di signal (amplitude-temps) sur laquelle on applique le calcul
o Tout calcul visant à analyser la fréquence à partir d’une représentation amplitude-temps implique le choix d’une étendue de temps, une « fenêtre » contenant des points.
Comment la longueur de la fenêtre affecte donc l’analyse?
- Relativement facile de déterminer la fréquence de cette onde si on regarde un long extrait…
- Pas si on regarde un très court extrait…
- Lorsque le calcul automatisé segmente l’onde pour en calculer la fréquence, il crée des distorsions (des ondes complexes, transitoires, ayant d’autres fréquences)
o Ces autres fréquences vont influencer le résultat du calcul - Principe : plus la fenêtre servant au calcul est longue, plus le calcul de la fréquence est précis. Diminue le poids des transitoires en bordure de fenêtre dans le calcul. (Voir aussi la « forme de la fenêtre »)
o Plus la fenêtre est longue –> longue en termes de durée dans le temps ou nombre de points dans le temps (fréquence d’échantillonnage) - Lorsque le calcul automatisé segmente l’onde pour en calculer la fréquence, il crée des distorsions (des ondes complexes, transitoires, ayant d’autres fréquences)
o Ces autres fréquences vont influencer le résultat du calcul :
–> Transitoires vont contaminer le calcul
–> Beaucoup plus de signal représentatif de l’original que de transitoires –> calcul des fréquences précis
–> Moins de signal représentatif de l’original dans le calcul, donc –> perte de précision dans le calcul de la fréquence - Donc plus on rétrécit la fenêtre, plus l’impact des transitoires va être grand : donc une autre raison pour laquelle on veut avoir une fenêtre plus longue pour la précision
–> Très peu de signal représentatif de l’original dans le calcul, donc –> résultat plus représentatif des transitoires que du signal original - On peut entendre des transitoires lorsqu’on coupe un signal
- Théoriquement, une analyse spectrale FFT avec une fenêtre très longue permettra de déterminer de façon précise la fréquence, mais attention qu’elle ne soit pas trop longue…
o Longueur de fenêtre 4096 points; échantillonnage 22 050 Hz (point/s), donc durée de la fenêtre 4096/22050 = 0.186 ou 186 ms (plus long que l’écran « A » ci-dessus). Incertitude sur le temps du signal 1 000 Hz
o Donc on veut donc avoir une fenêtre longue mais pas trop longue (car ça dépasserait un peu le signal que l’on veut regarder) - Une analyse avec une fenêtre très courte pourrait révéler l’effet des transitoires (plusieurs fréquences avec une forte « densité »)
o Longueur de fenêtre 128 points; échantillonnage 22 050 Hz, donc, durée de la fenêtre 128/22 050 = 5 ms*. Par contre, plus de certitude sur le temps du signal 1000 Hz
o Ici, ne nous donne pas un signal de la parole mais plus un signal numérique accidentel - Conclusion partielle :
o Plus la fenêtre d’analyse est longue (plus il y a des points), moins les transitoires associées à la fenêtre d’analyse influencent le calcul et plus j’ai de précision sur l’axe des fréquences. Aussi, fenêtre d’analyse longue = effet d’un filtre passe-bande étroit.
o Par contre, plus la fenêtre est courte (moins il y a de points), plus j’ai de précision au niveau des changements sur l’axe du temps. Aussi, fenêtre d’analyse courte = effet d’un filtre passe passe-bande large.
–> Plus la fenêtre est longue –> donne meilleur signal si notre signal n’est pas dilué dans notre fenêtre, c.-à-d. qu’on ne va pas chercher d’autres signaux dans notre fenêtre
–> Souvent en parole, on va prendre des fenêtre plus courtes (on préfère perdre un peu de précision sur les fréquences dans ce cas plutôt que sur le temps)
–> Fenêtre plus courte : comme si on avait pris un filtre passe-bande plus large
Comment la forme de la fenêtre affecte-t-elle l’analyse?
- Autre facteur qui influence l’analyse : la forme de la fenêtre
o En tranchant (de façon carrée) dans le signal, on crée des transitoires (voir ex. ci-dessus). Si on « tranche » de façon moins, entendrons-nous des transitoires?
o La forme va souvent être précisée dans les labos du cours et il y a souvent des standards dans l’analyse de la parole
o La forme va changer la coupure du son quand on l’écoute, donc celle carré va avoir une coupure plus sèche mais on peut en choisir d’autres pour avoir une coupure plus douce - De même que la forme de l’onde peut réduire l’amplitude des transitoires entendues, on peut réduire l’effet des distorsions associées à la fenêtre d’analyse en proposant différentes formes de fenêtres
o Donc on peut voir une différence au niveau de l’amplitude avec la forme : dans la forme carré, on peut voir des petits pics vers la fin qui ne sont pas là dans la gaussienne
o Va donc affecter notre analyse - Donc, centrage de la fenêtre sur l’axe temps de l’oscillo est déterminé par la position qu’on indique (dans Multi-Speech = début de fenêtre est indiqué par la position du curseur sur l’oscillo et est en bleu)
Quels sont les différents réglages de paramètres pour les algorithmes des calculs FFT et LPC?
- Réglage de paramètres pour les algorithmes des calculs FFT et LPC :
o Ça dépend des informations que vous cherchez
o En général, une fois le calcul choisi (FFT ou LPC), on doit régler les propriétés de la numérisation et de la fenêtre :
–> Taux d’échantillonnage (et durée)
–> (Niveaux de quantification : prédéterminé)
–> Longueur de la fenêtre (effets de filtres)
–> Forme de la fenêtre (il y a des choix standards)
–> Pour le LPC, on spécifie la pente des filtres (ordre)
Comment sait-on à quelle fréquence on doit échantillonner?
- À quel taux doit-on échantillonner?
o Les fréquences d’intérêt pour la parole : env. 50 à 5 kHz
o Mais les fréquences d’intérêt pour la voix : 50 à 10 kHz ou plus
o Fréquence Nyquist : Plus haute fréquence que l’on peut analyser correctement en fonction d’un taux d’échantillonnage donnée. On la caractérise souvent comme la moitié du taux d’échantillonnage - Quand on choisit le taux d’échantillonnage à utiliser lors d’un enregistrement, on doit s’assurer d’avoir suffisamment de points par période pour bien représenter l’onde.
- Donc Nyquist nous dit que si on n’a pas assez de points pour enregistrer notre signal, l’enregistrement ne sera plus représentatif de notre signal (va avoir une trop grande perte d’informations)
Qu’est-ce que le problème de l’aliasing?
o Analyse de l’onde originale ≠ analyse de l’échantillonnage inférieur à la fréquence présente dans l’onde
o Aliasing : Onde numérisée n’est plus représentative de mon onde originale. Donc si on fait l’analyse de notre signal pointillé, notre fréquence est beaucoup plus basse
Qu’est-ce que la fréquence Nyquist?
o La plus haute fréquence à être numérisée « correctement ». La moitié de la fréquence d’échantillonnage
o Donc, pour éviter le problème d’aliasing ou en réduire l’effet, le taux d’échantillonnage doit être au moins le double de la fréquence la plus haute d’intérêt, pour avoir au moins 2 points par période (en pratique, préférable d’avoir un taux de 3 à 5 fois la fréquence d’intérêt la plus haute)
o P.ex., si on analyse de la parole de 0 à 5 kHz, on échantillonne à AU MOINS 10 kHz. Si on analyse de la voix de 0 à 20 kHz, on échantillonne à 44 kHz…
Qu’est-ce qu’une analyse spectrale dans le temps?
- Voici un « balayage » de fréquence qui varie dans le temps de 5 kHz à 500 Hz. L’analyse spectrale d’une telle onde dépend du point que l’on analyse sur l’oscillo
- Une représentation de l’analyse spectrale sur trois axes…
o Une analyse spectrale à tous les 10ms, ou 100ms
o Cette représentation correspond à un spectrogramme - Balayage de fréquence de 5000 à 500 Hz : analyses spectrales successives dans le temps.
- Passer d’une « section spectrale » à un spectrogramme, c’est comme si on regardait une série de sections spectrales « de haut ».
o Des graphiques comme ça existent, mais on n’en fera pas car sont difficiles à analyser
o Donc ce sont plusieurs tranches spectrales une à côté de l’autre
Quelle est la différence entre une coupe spectrale et un spectrogramme?
- Section spectrales (FFT) –> Représente UN MOMENT SPÉCIFIQUE dans le temps
o Spectre : À ce point ci dans le temps, voici le contenu en fréquence de ton signal, donc équivalent à une tranche de pain - Spectrogrammes (FFT) –> Séquence de coupes spectrales
o Spectrogramme : équivalent de prendre plusieurs tranches spectrales mises une à côté de l’autre que l’on regarde d’en haut, donc comme si on regarde notre pain complet d’en haut
o Donc, le spectrogramme va nous informer sur l’évolution de la fréquence ET de l’amplitude de notre signal dans le temps.
o Spectrogramme est utilisé pour nous donner une idée de comment notre signal a bougé/évolué dans le temps