Text mining

Disponível somente no TrabalhosFeitos
  • Páginas : 5 (1191 palavras )
  • Download(s) : 0
  • Publicado : 20 de março de 2013
Ler documento completo
Amostra do texto
Mineração de Texto (Text Mining)

Com o avanço da tecnologia, todos os dias grandes massas de dados são geradas a todo o momento, fazendo da internet a maior base de dados do mundo. A proliferação de documentos disponíveis em sites, intranets e servidores aumenta de forma esmagadora. Segundo Aranha (2011), atualmente cerca 80% destas informações estão em modo texto, e a necessidade de utilizaresses dados textuais de forma produtiva deu inicio, então, a uma nova linha de pesquisa: a mineração de textos.
Mineração de Texto, Mineração de Dados Textuais ou Text Mining, segundo Lucas (2007),”É uma forma de examinar uma coleção de documentos e descobrir informação não contida em nenhum dos documentos.” Já, para Hearst (1999), “Text Mining é a análise exploratória de dados, uma nova formade auxílio para pesquisadores buscarem novas e relevantes informações em grandes bases textuais”. Sanger e Feldman (2006, p. 1) descrevem o Text Mining como “processo de conhecimento intensivo nos quais um usuário interage com uma coleção de documentos ao longo do tempo usando um conjunto de ferramentas de análise”. Para Macedo et al.(2011, p. 34) “A mineração de texto (MT) é um conjunto detécnicas e metodologias da ciência da computação que tem por objetivo extrair informações importantes provenientes de documentos não estruturados.” Para Sullivan (2000) Text Mining é o “estudo e a prática de extrair informação de textos usando os princípios da linguística computacional”.
Observa-se, a partir das definições dadas pelos autores citados, que o principal objetivo do Text Mining é extrairinformações relevantes, diante de um conjunto de documentos textuais, técnica que se assemelha ao Data Mining ou mineração de dados, que trabalha com extração de padrões de dados estruturados, ao contrário da mineração de texto que aplica suas técnicas em um conjunto de dados não estruturados, em modo texto. E, por se tratar de dados não estruturados, a mineração de texto apresenta um processo detratamento de dados antes da aplicação dos algoritmos de extração de conhecimento.
A Figura 1 apresenta o esquema proposto por Aranha (2007), onde o processo de mineração de texto aparece em cinco etapas.

[pic]
Figura 1 – Processos da Mineração de texto. Proposto por Aranha (2007)
Fonte: ARANHA (2007).

A coleta é a primeira faze do processo do Text Mining. Nesta etapa são selecionados ecapturados os textos que irão compor a base de textos, também conhecido como corpus.
Logo após a coleta, tem-se a etapa de pré-processamento, na qual são aplicados vários algoritmos que darão uma forma mais estruturada à base de dados textuais.
O processo de indexação é responsável pela organização dos dados, são criados índices que serão usados para a otimização do banco, para que o processode recuperação de dados seja mais rápido.
Após as etapas anteriores estarem concluídas, são aplicados os algoritmos na etapa de mineração, processo em que se ocorre a extração do conhecimento das bases de dados textuais.
Enfim, na etapa de análise, os conhecimentos obtidos são analisados e interpretados pelo profissional responsável pela área em que a mineração foi direcionada.2 DESCOBERTA DE CONHECIMETO NA BASE DE DADOS

O sucesso de um movimento estratégicos de uma empresa depende do valor das jinformações disponíveis ao gestor, e para uma empresa que deseja alcançar alta competitividade nos negócios à qualidade e uma melhor interpretação das informações passa a ser vitais. Visando essa competitividade surge um novo método para auxiliar a busca deconhecimento o KDD.
O processo de descoberta de conhecimento de bases de dados, KDD (Knowledge-Discovery in Databases) ou DCBD, é a metodologia global para se descobrir informações úteis em bases de dados, Surgiu no final da década de 1980, resultado da expansão das bases de dados computacionais da época. (Bogorny, Vania)
Para FAYYAD et al. (1996) o processo de KDD é composto por um conjunto de...
tracking img