4. Métodos de Classificação para Reconhecimento de Locutor

Nesta seção, serão apresentadas algumas técnicas utilizadas no reconhecimento de locutor para geração de modelos usados no reconhecimento de padrões.

Esses modelos podem ser modelos template ou modelos estocásticos. Este último trata o processo de produção da fala como um processo randômico paramétrico, onde os parâmetros podem ser estimados de uma maneira precisa. Os modelos do tipo template, no entanto, modelam o processo de produção da fala de uma maneina não-paramétrica, guardando um número de sequencias de vetores acústicos de várias elocuções de uma mesma palavra geradas por uma mesma pessoa.

Para fins de implementação de sistemas dependentes de texto, os métodos mais usados são Dinamic Time Warping (DTW) e Hidden Markov Models (HMMs). No primeiro método, o algoritmo DTW (método template) é usado de modo a alinhar as duas elocuções correspondentes ao treino e ao teste em pontos equivalentes no tempo e o grau de similaridade entre essas duas elocuções é acumulado desde o começo até o fim das mesmas. O segundo método, no entanto, consiste em uma forma  de modelar as variações estatísticas dos parâmetros espectrais ao longo do tempo. Este método surgiu como uma extensão do anterior, baseado no algoritmo DTW e apresenta  melhor acurácia, quando comparado com o mesmo.

No entanto, para fins de implementação de sistemas independentes de texto, os métodos mais usados são métodos baseados em quantização vetorial ou vector quantization (VQ) (método template) e métodos baseados em Gaussian mixture models (GMMs).

Métodos baseados em quantização vetorial fazem uso de codebooks, que consistem em um número pequeno de vetores de parâmetros, que podem representar eficientemente características específicas de cada locutor. Sendo assim, um  codebook é construído especificamente para cada locutor, agrupando-se os vetores de parâmetros (extraídos da base de treino) de um determinado locutor e, então, durante a fase de teste, os vetores de parâmetros da fala correspondentes à elocução de entrada são comparados à entrada mais próxima de um codebook e as respectivas distorções são acumuladas, de modo a formar a base do processo de decisão.

Os métodos baseados em modelos Gaussian mixture models (GMMs), assim como o HMM, consiste numa forma estocástica de modelagem de classes acústicas. No entanto, este método não faz uso de informações temporais como o HMM.

Nas seções que seguem, os métodos que correspondem a processos estocásticos (aqueles baseados em HMMs e aqueles baseados em GMMs) serão explicitados (uma vez que são esses métodos que fornecem soluções de modelagem mais flexíveis) , então, de maneira mais detalhada.

 

 

 

 

 

 

 

Top