Classificadores - Gaussian Mixture Model




Gaussian Mixture Model (GMM) é um modelo estocástico que representa, de maneira geral, a dependência das características espectrais da voz associadas ao locutor, em conjunto com a capacidade de modelar densidades de probabilidades desconhecidas; em específico, a distribuição dos vetores de características extraídos de uma locução.

O GMM pode ser encarado como sendo formado por dois sub-sistemas que auxiliam no reconhecimento de locutor: um classificador uni-modal gaussiano e um QV (quantizador vetorial, modelo que faz a separação espacial de duas classes acústicas de acordo com a distância entre elas). Dessa forma, o GMM combina a robustez do modelo gaussiano e paramétrico com a modelagem arbitrária e não-paramétrica de um modelo de QV, realizando a separação de classes acústicas através de probabilidades geradas por conjuntos de funções de densidade de probabilidade gaussianas estimadas previamente.

Um sistema de misturas de densidades de probabilidade gaussianas é modelado da seguinte forma:

Figura 4 - Função de densidade de probabilidade gaussiana
Onde x é a variável aleatória, λ é um modelo GMM para determinada classe acústica Cn, dn (x) são as densidades de probabilidade gaussianas e an são os pesos. A estimação de parâmetros é feita através da máxima verossimilhança.

A figura abaixo representa um sistema de reconhecimento de locutor:

Figura 5 - Ilustração do funcionamento de um sistema de reconhecimento de locutor



Esse sistema deve encontrar qual entre os modelos de locutores na base de dados com N locutores possui a maior probabilidade a posteriori, a partir das características extraídas do sinal de voz a ser identificado.



<<       Classificadores - Gaussian Mixture Model       >>