Biometria por impressão vocal

O HMM funciona comparando elocuções com palavras, com sub-unidades de palavras (fonemas, por exemplo) ou com unidades maiores (frases inteiras, por exemplo). Ele é uma máquina de estados, na qual cada estado contém a informação que aquele HMM traz. Também é composto por matrizes de transição, que contêm a probabilidade de cada passagem de um determinado estado para um outro estado. Essa probabilidade é usualmente modelada segundo a distribuição normal. A cada estado emissor, um vetor acústico é emitido.

Cada estado pode ser entendido como uma das unidades supracitadas, como palavras, fonemas etc. Um HMM com três estados pode ser visto na Figura 4.

Figura 4 - Extraída de [6]

Ou seja, o HMM modela a seqüência temporal de cada elocução através da emissão de vetores acústicos. No entanto, não é possível conhecer inicialmente qual seqüência de estados será descrita. Para resolver esse problema, considera-se todas as seqüências de estados, calculando a probabilidade de ocorrência de cada uma delas, pela fórmula:

Extraída de [6]

Na qual X é o conjunto de vetores acústicos, l é o modelo em questão, S são os estados, p_s0 é a probabilidade do estado s₀ ser o inicial, a_s(t-1)s(t) é a probabilidade de, partindo de um estado no tempo t-1 se chegar a um estado no tempo t, e f(x_t|s_t) é a probabilidade condicionada de se emitir um vetor x_t dado que se está no estado s_t. Com essa fórmula é possível calcular o estado mais provável de ocorrer a cada instante de tempo. Por fim, sendo um HMM ou GMM, o sistema verifica se irá aceitar ou não o acesso, através da comparação com o modelo da base de dados.