klanken vergelijken met informatietheorie
1. Analyse van spraaksignalen
1.1 Signaal transformaties
- Startpunt: de amplitude van het signaal in functie van de tijd
- Omzetten naar het tijd-frequentie domein, de kleurcode komt overeen met het vermoden in het signaal
- Comprimeren van de frequentie-as; dit benadert de gevoeligheid van het menselijk oor
- Omzetten in Cepstra; het vergelijken van klanken kan eenvoudig door middel van een Euclidische aftand in deze ruimte
①Tijdssignaal |
②Tijd-frequentie plot (spectrogram) |
③Tijd-frequnentie plot (compressie v/d freq. as) |
④Cepstra |
 |
 |
 |
 |
1.2 Effect van ruis
Invloed van ruis: een optelling van de ruis- en spraakenergie in the tijd-frequentie vlak
①Tijdssignaal |
②Tijd-frequentie plot (spectrogram) |
③Tijd-frequnentie plot (compressie v/d freq. as) |
④Cepstra |
 |
 |
 |
 |
1.3 Effect van nagalam
De invloed van nagalm: links naar rechts uitsmering van de energie in het tijd-frequentie vlak.
①Tijdssignaal |
②Tijd-frequentie plot (spectrogram) |
③Tijd-frequnentie plot (compressie v/d freq. as) |
④Cepstra |
 |
 |
 |
 |
2. Modelleren van basisklanken
2.1 Gaussian Mixture Models (GMM)
- De spraak word omgezet in 13 Cepstrale coefficiënten.
- Daaraan worden 13 eerste en 13 tweede orde tijdsafgeleiden toegevoeg; de tijdsafgeleiden zorgen er voor dat ook het verloop van het signaal in functie van de tijd gemodelleerd wordt.
- Met een Gaussiaan of en 'Gaussian Mixture' wordt de verdeling van de 39 parameters gemodelleerd (plot in 2 dimensies).
2.2 Het voorgestelde "sum-of-parts" model
- Dit model werkt rechtsreeks in het MEL-Spectrum domein (verdeling van de energie in het tijd-frequentie vlak).
- Elke stukje van een basisklank wordt gemodelleerd als een som van basispatronen.
- De afstand kan dan gemeten worden met de (veralgemeende) Kullback-Leibler divergentie.
- De afstandmaat moet wel nog omgezet worden in een kansdichtheid.