Propriedades Acústicas do Sinal

Uma forma popular de representar a fala, que permite interpretação tanto por humanos quanto  por computadores, é a representação através de um sinal ou forma de onda acústica. Este sinal é produzido através de diversas transformações que acontecem em diferentes níveis. As diferenças nessas transformações mostram-se como diferenças nas propriedades acústicas do sinal.

As características de produção do sinal de voz chamadas dependentes de locutor podem ser usadas, então, para diferenciar locutores. Elas correspondem a uma combinação de características físicas e características adquiridas, sendo que estas últimas correspondem aos diferentes hábitos e maneiras de falar adquiridos por cada locutor.

Dentre as características físicas, a forma do trato vocal pode ser considerada como fator de distinção importante. O trato vocal corresponde aos órgãos de produção da fala situados acima das cordas vocais, envolvendo a faringe, a boca e o nariz.

O trato vocal corresponde a um tubo fechado com frequência fundamental de ressonância de valor aproximado a 500Hz. À medida que as ondas acústicas passam por esse tubo, o seu espectro é alterado pelas ressonâncias do mesmo.

O trato vocal funciona como um filtro acústico, cujas frequências são denominadas formantes (que correspondem a picos em um espectro). A forma do trato vocal determina esses formantes e é possível, então, estimá-la através da forma espectral do sinal de fala.Para isso, são usados modelos matemáticos para extração de parâmetros do sinal, como será apresentado no próximo item desta seção. 

Além disso,  o mecanismo humano de produção da fala, envolve uma fonte de excitação, que também contém características dependentes de locutor.  Essa excitação é gerada pela entrada de ar nos pulmões. Este ar é, então, carregado para a traquéia através das cordas vocais. Existem vários tipos de excitações. Dentre elas, a fonação é o tipo de excitação que ocorre quando o fluxo de ar é modulado pelas cordas vocais, fazendo-as vibrar.

Existem ainda três possíveis estados de representação da fala. Silêncio ocorre quando nenhuma fala é produzida, fala não-vozeada ocorre quando não há vibração das cordas vocais e a forma de onda resultante é não-periódica e fala vozeada ocorre quando há vibração das cordas vocais e a forma de onda resultante é periódica (fala vozeada corresponde à fala produzida durante o processo de fonação).

A frequência de oscilação das cordas vocais durante o processo de fonação é chamada de frequência fundamental e também é usada para distinção entre locutores, uma vez que depende de características físicas do trato vocal, como comprimento, tensão e massa.

Além desses, outros aspectos da produção da fala que podem ser úteis para o fim especificado envolvem velocidade da fala, efeitos prosódicos e dialetos, o que corresponde às características adquiridas mencionadas anteriormente. Essas características podem ser obtidas espectralmente através de shifts sistemáticos nas frequências formantes.

 

 

 

Top