Disserta o Tiago Luis Bonamigo
22365 palavras
90 páginas
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SULFACULDADE DE INFORMÁTICA
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
Extração de informação baseada em padrões textuais
TIAGO LUIS BONAMIGO
Dissertação de mestrado apresentada à Faculdade de Informática como parte dos requisitos para obtenção do título de Mestre em Ciência da Computação. Área de concentração: Ciência da Computação.
Orientadora: Renata Vieira
Porto Alegre
2013
FICHA CATALOGRÁFICA EMITIDA PELA BIBLIOTECA
SUBSTITUIR
TERMO DE APRESENTAÇÃO DA DISSERTAÇÃO
EMITIDA E ASSINADA PELA FACULDADE
SUBSTITUIR
“A gentileza é a corrente de ouro que mantém unida a sociedade.”
Goethe
AGRADECIMENTOS
À minha esposa Renata e minha filha Stella, pelo carinho, compreensão, incentivo e, acima de tudo, inspiração. À minha mãe Dailva e meus irmãos Carlos e Letícia pelos anos de amizade e carinho.
À minha orientadora Renata Vieira, pela sabedoria e paciência.
À professora Vera Lúcia Strube de Lima, pela sabedoria e apontamentos valiosíssimos.
Aos colegas do laboratório PLN pelas orientações e apoio.
À HP e Dell pelo apoio financeiro durante o mestrado.
À Plugar por ceder o tempo para os meus estudos.
Extração de informação baseada em padrões textuais
RESUMO
Ao estudarmos sistemas de extração de informação, encontramos informação abundante abordando textos em língua inglesa, e essa informação se torna significantemente menor ao procurarmos tais abordagens para a língua portuguesa. Esse cenário se torna ainda mais díspar quando buscamos o processamento de um grande volume de informações, pois muitos dos métodos para extração de informação em língua portuguesa envolvem o uso de sistemas computacionalmente onerosos, como constituency parsers, o que faz com que sua velocidade impossibilite o processamento de um grande volume de documentos.
O que buscamos com este trabalho é a apresentação de um modelo de extração de informação sobre um grande conjunto de informações – no caso, a World Wide Web – que