Reconhecimento de palavras isoladas atraves das redes mlp e som, utilizando mfcc e wavelet em ambientes ruidosos

Disponível somente no TrabalhosFeitos
  • Páginas : 12 (2910 palavras )
  • Download(s) : 0
  • Publicado : 5 de junho de 2012
Ler documento completo
Amostra do texto
1

Reconhecimento de palavras isoladas através das redes MLP e SOM, utilizando MFCC e Wavelet em ambientes ruidosos.
Gilliard Alan de Melo Lopes, Hesdras Oliveira Viana.
 Abstract – The speech recognition is based on the extraction of features for such aspects as noise and size coefficients should be analyzed to characterize the voice. The present articles compare the techniques between MFCCand Wavelet classified with neural network MLP and SOM in noise environment. Keywords – MFCC, Wavelet, MLP, SOM, Daubechies, Biortogonal, Descritores, Classificadores.

II. DESCRITORES A escolha da melhor característica da voz (atributo) é importante no desenvolvimento de um reconhecedor de voz. O principal objetivo dessas técnicas é a eliminação de informação irrelevante com respeito a análisefonética dos dados e a enfatização dos aspectos do sinal da fala que contribuem significativamente para a detecção das diferenças fonéticas. A. MFCC Os coeficientes Mel-cepestrais surgiram devido aos estudos na área de psicoacústica (ciência que estuda a percepção auditiva humana), que mostraram que a percepção humana das freqüências de tons puros ou de sinais de voz não segue uma escala linear.Isto estimulou a idéia de serem definidas freqüências subjetivas de tons puros, da seguinte forma: para cada tom com freqüência f, medida em Hz, define-se um tom subjetivo medido em uma escala que se chama escala mel. O mel, então, é uma unidade de medida da frequência percebida de um tom [7]. Com isso, definiu-se frequência de 1 kHz com potência 40 dB acima do limiar mínimo de audição do ouvidohumano como 1000 mels. Graças a ponderação da escala de frequência para a escala mel, pode-se identificar a banda crítica, que são sons não individualmente identificados, dentro de certas bandas, pelo ouvido humano. A equação (1) faz a conversão de Hz para Mel e a equação (2) de Mel para Hz respectivamente. (1) – (2)

I.

INTRODUÇÃO

reconhecimento da fala é o processo de codificação do sinal da vozque serve como entrada para o computador identificar as palavras ditas e então processá-las. Esse processo é divido em: codificação da fala, síntese da fala e reconhecimento automático da fala [1]. A codificação da fala é feita através de técnicas que buscam representar de forma compacta o sinal da voz. Além disso, deve-se perceber não só a integibilidade do que é ouvido, mas também as outrasinformações como a entonação e a emoção do interlocutor. A síntese da fala constitui em produzir sons parecidos com a voz humana a partir de um texto escrito, verificando aspectos como: naturalidade, releva até que ponto o sintetizador soa como a voz humana, e integibilidade, avalia a facilidade do entendimento da saída da fala. O reconhecimento automático da fala (RAF) refere-se ao aspecto de como amáquina vai reconhecer a fala humana produzindo resultados esperados [2]. Essas tecnologias ainda estão muito limitadas, sobretudo, devido a dificuldade da classificação de palavras expostas a ruído [3]. Alguns autores, como: J. Valiati [4], E. Morais [5] e J. Fechine [6] propuseram técnicas de classificação de palavras com redes neurais, com objetivo de aumentar a taxa de acerto no reconhecimento depalavras. Técnicas como: Multi-Layer Perceptron (MLP), Self-Organizing Maps (SOM) e Radial Bases Function (RBF); mostraram eficiência na classificação de palavras pronunciadas em determinado ambiente, porém, pouco se conhece sobre a sua eficiência em ambientes ruidosos.

O

O cálculo do MFCC é feito utilizando um banco de filtros espaçados na escala Mel e o cálculo do logaritmo da energia nasaída de cada filtro seguido de uma transformada discreta do cosseno. A equação (3) ilustra como o MFCC é calculado. (3) Onde: 1≤n≤N K – índice do filtro X(k) – é a energia na saída do k-ésimo filtro.

2 M – é o número de filtro. N – é o número de coeficientes. A figura 1 mostra o processo de obtenção dos coeficientes MFCC adotado nos experimentos. Entretanto, é importante frisar que o número...
tracking img