Biometria por impressão vocal - Reconhecimento de locutor
BIOMETRIA - IMPRESSÃO VOCAL

Guilherme Niedu
Home

1 - Introdução
2 - Biometria
O que é?
Tipos de biometria
3 - O som e a voz
4 - Conversão do som em sinal digital
5 - Reconhecimento de locutor
Modelo GMM
Modelo HMM
6 - Conclusões
7 - Perguntas
8 - Bibliografia
RECONHECIMENTO DE LOCUTOR

O trabalho seguinte ao da digitalização do sinal é o de reconhecimento do locutor. Tais sistemas funcionam em duas etapas como mostrado na Figura 3, conhecidas como treino e teste. Na primeira etapa, o locutor fornece as amostras para a base de dados, para que estas possam servir como parâmetro futuramente. Ou seja, essas amostras servem para criar um modelo dependente do locutor em questão e guardá-lo na base de dados. Na segunda etapa, o locutor irá tentar o acesso ao sistema. Ao fazê-lo, ele pede para usar o sistema, e o sistema pede que o usuário entre com uma elocução (uma senha, por exemplo). Essa elocução será processada e comparada com o modelo guardado na base de dados, e será fornecido uma pontuação (score) baseada no quão similar ao modelo foi a elocução. Após essa etapa, compara-se essa pontuação com a mínima aceita pelo sistema. Se for maior ou igual que esse valor, o acesso é garantido.

Figura 3 - Traduzida e adaptada de [6]

Há dois tipos de sistema de reconhecimento de locutor: os dependentes de texto e os independentes de texto. Nos sistemas dependentes de texto, as elocuções são as mesmas para treino e para teste. No entanto, há uma restrição: a locução de entrada deve corresponder à uma série de palavras que se encontram na base de dados do sistema, de tal forma que não importa tanto a pessoa que está falando, desde que ela fale as palavras corretas, como uma senha, por exemplo. Nos sistemas independentes de texto, como o da Figura 3, o acesso ao sistema não é baseado em palavras guardadas na base de dados, e sim em características da voz da pessoa. Esses sistemas, no entanto, exigem mais elocuções para treiná-los, de forma a garantir uma boa precisão.

Para sistemas dependentes de texto, o modelo mais utilizado é o HMM (Hidden Markov Models), que se baseia em observar as elocuções de treino e teste em um instante de tempo, e verificar a semelhança entre as duas do início ao fim das mesmas, através dos parâmetros espectrais de cada uma delas. Tal método se baseia, ainda, em variações estatísticas.

Para sistemas independentes de texto, o modelo mais utilizado é o GMM (Gaussian Mixture Models), que se assemelha muito ao HMM por também se basear em princípios estatísticos, sem, no entanto, observar as elocuções em instantes de tempo.

<<Anterior Topo Próxima>>