Reconhecimento de fala

Disponível somente no TrabalhosFeitos
  • Páginas : 6 (1425 palavras )
  • Download(s) : 0
  • Publicado : 29 de setembro de 2012
Ler documento completo
Amostra do texto
Universidade Federal do Ceará Centro de Tecnologia Departamento De Engenharia De Teleinformática

Inteligência Computacional Aplicada

Projeto final – Reconhecimento de fala (números)

Felipe Mota Barreto – 0308046 Natan dos Santos Camargos – 0308039

FORTALEZA 2012

1. Sumário
Objetivos.................................................................................................................. 3
Introdução ............................................................................................................... 3
Bloco de recorte ....................................................................................................... 5
Bloco de extração de características ......................................................................... 6
Bloco declassificação ............................................................................................... 9
Resultados para um conjunto de testes definido .................................................... 10
Conclusão ............................................................................................................... 13
Bibliografia............................................................................................................. 14

2

1. Objetivos
O objetivo deste trabalho foi realizar o reconhecimento de fala para um vocabulário pequeno, formado apenas pelos números de zero a nove falados por um locutor, utilizando redes neurais.

2. Introdução
O sistema de reconhecimento de fala pode ser dividido em três etapas: recorte ou determinação deextremos, extração de características e reconhecimento, como ilustrado na figura 1. A funcionalidade de cada bloco será descrita.

Figura 1: Diagrama de blocos do sistema de reconhecimento de fala.

A função do bloco de recorte ou de determinação de extremos é determinar o que é fala e o que é silêncio/ruído no áudio analisado para repassar aos blocos seguintes apenas informação útil, aumentando aperformance do sistema. A figura a seguir mostra os extremos encontrados usando o algoritmo de detecção de extremos de Rabiner e Sanbur para a elocução do número zero.

3

Figura 2: Extremos da elocução do número zero

O bloco de extração de características atua sobre sinal de fala a fim de representá-lo de maneira mais compacta. Utilizar o sinal de fala, que é muito ruidoso, diretamente nobloco de classificação diminui a eficiência na classificação, além de aumentar custo computacional, visto que o sinal de fala pode ter milhares de amostras. Utilizamos a codificação linear preditiva para realizar a extração de características. Os coeficientes resultantes da codificação representam de forma compacta o sinal de fala. A função do bloco de classificação é classificar o vetor decaracterísticas formado pelos coeficientes da codificação linear preditiva. Uma rede neural MLP foi utilizada nesse bloco, tornando necessário dividir as falas dos números em conjunto de treinamento e conjunto de teste. O reconhecimento de fala independente de locutor usando redes neurais exige que o conjunto de treinamento tenha elocuções de um grande número de locutores, preferivelmente de diversasidades, sotaques e gênero para que o sistema seja capaz de capturar variações entre locutores e então tornar-se mais abrangente. Preferimos realizar o reconhecimento de fala dependente de locutor, assim os conjuntos de treinamento e teste têm elocuções de apenas um locutor.

4

3. Bloco de recorte ou de determinação de extremos
O algoritmo de detecção de extremos proposto por Rabner e Sanburfoi utilizado. Esse algoritmo se baseia na diferença de energia e de frequência entre fala e silencio/ruído. A energia por janela de um sinal de voz é maior no instante dos fonemas pronunciados. Assim, a energia é utilizada como primeira estimativa para início e fim da fala. Em seguida, a taxa de cruzamento por zero é usada para estender os limiares da palavra, no caso de fonemas com baixas...
tracking img