Text mining com weka

Disponível somente no TrabalhosFeitos
  • Páginas : 7 (1676 palavras )
  • Download(s) : 0
  • Publicado : 26 de junho de 2011
Ler documento completo
Amostra do texto
Uma aplicação de Mineração de texto para a classificação de informações em um sistema e-learning
Mariana de Azevedo Santos¹, Clayton Ferreira Santos¹
¹Departamento de Ciência da Computação – Universidade Federal de Lavras (DCC/UFLA) Lavras – MG – Brasil – CEP 37200-000 {mariana@bsi.ufla.br},{claytonfs@hotmail.com}

Introdução Os sistemas e-learning tem se tornado uma solução viável para ainstrução e aquisição do conhecimento (ROSENBERG, 2001). Muito além da simples função de prover diversas ferramentas que auxiliam no aprendizado do aluno, esses sistemas acumulam muitas informações úteis para a realização de vários tipos de estudos na área educacional (ROMERO, VENTURA & GARCIA, 2008). Uma vez que se consegue gerar uma grande quantidade de dados oriundos destes sistemas, gerenciar eanalisar essas informações torna-se uma tarefa não trivial. No ponto de vista computacional, as informações podem ser facilmente processadas utilizando Mineração de Dados (Data Mining). Mineração de Dados é um processo em que se executam várias análises estatísticas e de inteligência artificial em base de dados estruturados e de dados numéricos (CHEN, 2001). Uma das áreas recorrentes na Mineraçãode Dados para o tratamento de informações textuais é a Mineração de Texto (Text Mining). A área de Mineração de Texto (Text Mining) tem por objetivo a execução de funções de pesquisa, análise lingüística, e categorizações de palavras. Este trabalho tem como objetivo a análise textual em uma sala de um ambiente de aprendizado virtual o Moodle. Através de algoritmos de Mineração de Texto (TextMining), foi possível a extração e classificação de informações que são relevantes e não relevantes ao contexto de aprendizado do aluno na disciplina. Mineração de Texto (Text Mining) A Mineração de Texto é o estudo e a prática de extrair informação de textos usando os princípios da lingüística computacional (SULLIVAN, 2001). Segundo Yangarber e Grishman apud Zavaglia et al. (2005), extração deinformação é o processo de identificação automática de tipos específicos de entidades, contidas em textos e armazenamento das informações extraídas de uma forma estruturada. Para Riloff apud Zambenedetti (2002), o objetivo dos sistemas de extração de informação é extrair informações relevantes de textos de língua natural.

No tocante à área de pesquisa, a Mineração de texto está posicionada na interseçãoda recuperação da informação, mineração de dados, processamento de linguagem natural, e de aprendizado de máquina (MITTERMAYER & KNOLMAYER, 2006). A Mineração de Texto pode ser vista como composta de seis fases (TAN, 1999; CASTELLANO ET AL., 2007):  Refinamento de texto: fase em que se transforma o texto com dados brutos em informações estruturadas.  Criação da forma intermediária: é produto dafase de Refinamento de Texto que é armazenado em banco de dados, arquivos XML, ou qualquer forma estruturada.  Clusterização de documentos: é a designação de entidades multivariadas em categorias (classes, grupos) não definidas previamente. O critério é reuni-las em uma entidade semelhante.  Classificação de documentos: classificação é um processo no qual as correlações significativas entre osfreqüentes conjuntos de dados são encontrados. Neste caso, a classificação é realizada nas entidades atribuídas a uma ou mais classes ou categorias na fase de Clusterização de documentos.  Extração de padrões: identificação de padrões após a análise das associações e das tendências. A descoberta das associações é o processo no qual o sentido das correlações entre os dados são encontrados. Apresentação de resultados: visualização os resultados encontrados a partir das técnicas utilizadas.

Figura 1 – Ciclo de vida da Mineração de Texto (Adaptado de CASTELLANO ET AL.,
2007)

Como a forma mais natural de armazenar a informação é um texto, segundo pesquisas, a Mineração de texto é tem se mostrado um grande potencial comercial, uma vez que 80% das informações de uma empresa estão...
tracking img