Datamining

Disponível somente no TrabalhosFeitos
  • Páginas : 36 (8831 palavras )
  • Download(s) : 0
  • Publicado : 27 de janeiro de 2013
Ler documento completo
Amostra do texto
WORKING PAPER SERIES

CEEAplA WP No. 10/2009

Extrair Conhecimento de Bases de Dados: O caso dos Provérbios
Armando B. Mendes Günther Funk Gabriela Funk

August 2009

Universidade dos Açores Universidade da Madeira

Extrair Conhecimento de Bases de Dados: O caso dos Provérbios

Armando B. Mendes
Universidade dos Açores (DM) e CEEAplA

Günther Funk
Universidade dos Açores (DM) eIELT

Gabriela Funk
Universidade dos Açores (DLLM) e IELT

Working Paper n.º 10/2009 Agosto de 2009

CEEAplA Working Paper n.º 10/2009 Agosto de 2009

RESUMO/ABSTRACT
Extrair Conhecimento de Bases de Dados: O caso dos Provérbios

For data management activities in a project for proverbial sentences identification, a data base has being assembled during several years. This data basecollects, in the moment of this study, information about 25.000 idiomatic sentences, including more than one thousand valid answers for proverbial sentences recognition surveys. In this article a project is described with the purpose to extract knowledge from this data base, in order to better characterize the individuals participating in the surveys about their level of proverbial recognition andthe influence of the locations they have been living. In order to reach the study objectives we use data mining methodologies including: data preparation and preprocessing, data cleansing, and data reduction techniques. This data preparation stage is carefully described because we believe this is sometimes forgotten in statistical data mining studies and is a fundamental step to attain any datamining study objective. For data analysis, after a denormalized file is produced, we use linear regression models and regression trees with two different algorithms. The descriptive results are compared with paremiology domain knowledge, with some unexpected conclusions. Keywords: knowledge generation; data mining; proverbs; data preparation and pre-processing; regression trees.

Armando B. MendesDepartamento de Matemática Universidade dos Açores Rua da Mãe de Deus, 58 9501-801 Ponta Delgada Günther Funk Departamento de Matemática Universidade dos Açores Rua da Mãe de Deus, 58 9501-801 Ponta Delgada

Gabriela Funk Departamento de Línguas e Literaturas Modernas Universidade dos Açores Rua da Mãe de Deus, 58 9501-801 Ponta Delgada

1

Extrair Conhecimento de Bases de Dados: O caso dosProvérbios
Armando B. Mendes Universidade dos Açores e CEEAplA

Günther Matthias A. Funk Universidade dos Açores e IELT

Maria Gabriela C.B. Funk Universidade dos Açores e IELT

2

Mendes, Funk e Funk

Resumo: Para apoiar actividades de gestão de dados de um projecto para identificação de provérbios, tem vindo a ser construída uma base de dados ao longo de vários anos. No momento dapresente análise, esta base de dados integrava informação sobre 25.000 expressões idiomáticas, incluindo mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Neste artigo, descreve-se um projecto em curso com o objectivo de extrair conhecimento desta base de dados, de modo a conhecer melhor os inquiridos, o seu grau de reconhecimento de provérbios e a relação com oslocais onde têm vivido. De modo a alcançar os objectivos delineados, propõe-se a utilização de metodologias de prospecção de dados (data mining), com passos como: preparação e pré-processamento, limpeza (data cleansing) e técnicas de redução de dados. A fase de preparação é cuidadosamente trabalhada, uma vez que nem sempre é descrita em estudos de prospecção de dados, apesar de constituir um passofundamental na análise de dados provenientes de bases de dados. Para a descoberta de conhecimento, após a produção de uma tabela de dados desnormalizada, utilizam-se modelos de regressão linear múltipla e árvores de regressão segundo dois algoritmos distintos. Os resultados são comparados com o conhecimento de domínio paremiológico, com algumas conclusões inesperadas. Palavras – chave: geração...
tracking img