Extração de Parâmetros do Sinal

Para que seja possível processar o sinal de fala para geração do sistema de reconhecimento de locutor, torna-se necessária, em uma primeira etapa, a conversão da onda sonora em um sinal digital, que pode ser compreendido pelo computador. O processamento do sinal de fala, então, consistirá na amostragem do sinal e na extração de parâmetros do mesmo que serão relevantes para o processo de reconhecimento de locutor.  

Existem alguns métodos para modelar o sinal de voz,  como o método de predição linear Linear Predictive Coding (LPC), que é um método rápido, simples e também bastante efetivo na extração dos parâmetros principais do sinal.

No método LPC, uma amostra de sinal sn, como representado na equação 2.2.1, é modelada através da combinação linear de p amostras anteriores.


Text Box: (Equação 2.2.1)

 

, onde:

  • p é a ordem de predição;
  • ak  são os chamados coeficientes de predição;
  • sn-k  são as saídas anteriores;
  • cn é o erro de predição.

 

O objetivo, então, é estimar os coeficientes de predição ak, de modo a minimizar o erro de predição cn. Os chamados vetores de características do sinal são obtidos através da estimação desses coeficientes e estes são geralmente transformados de forma não linear em domínios perceptuais significativos para a aplicação em questão.

No entanto, um método de extração de coeficientes mel-cepstrais do sinal, que não envolve análise de predição linear, é o mais usado em sistemas de reconhecimento de locutor, uma vez que demonstrou-se que este método apresentava bom desempenho tanto para sistemas de reconhecimento de locutor quanto para sistemas de reconhecimento de voz.

Os Mel-Frequency Cepstrum Coefficients (MFCCs) ou coeficientes mel-cepstrais podem ser definidos como coeficientes derivados  de um tipo de representação cepstral  do sinal. O cepstro pode ser visto como o espectro de um espectro. Neste caso, uma escala logaritmica é usada para posicionar as bandas de frequência (ou seja, a escala de frequência é transformada para dar menos ênfase a frequências altas),  o que aproxima o modelo do comportamento do sistema auditivo humano, uma vez que a percepção das frequências dos sons por seres humanos é dita não-linear.

Em sistemas de reconhecimento de locutor, também é comum a extração de coeficientes derivativos  dos coeficientes mel-cepstrais no tempo, de modo a mapear características adicionais do sinal. Estes coeficientes são também conhecidos por coeficientes delta-cepstrais.

É importante mencionar ainda que as densidades dos cepstros são facilmente modeladas através de modelos de misturas de gaussianas (GMMs),  apresentados na seção 4 deste trabalho.

Além disso, também se torna interessante a extração dos logarítimos das frequências fundamentrais do sinal, assim como os derivativos desses valores no tempo para a formação dos vetores de características que representarão matematicamente o sinal de voz.

Como já mencionado na seção anterior, as frequências fundamentais (frequências de vibração das cordas vocais) correspondem a características possíveis de serem consideradas na ocasião da distinção entre locutores.

 

Top