Data mining

Disponível somente no TrabalhosFeitos
  • Páginas : 6 (1428 palavras )
  • Download(s) : 0
  • Publicado : 26 de setembro de 2012
Ler documento completo
Amostra do texto
Introdução à mineração de dados

Por Fabio Vessoni

fabio@mv2.com.br

MV2 Sistemas de Informação



O termo data mining pode causar um certo desconforto, dado a ampla gama de sentidos em que o mesmo pode ser usado. Uma empresa de varejo interessada em oferecer a melhor oferta para seus consumidores regulares. A receita federal pesquisando transações fraudulentas em remessas de moedaestrangeira. A análise de crédito de um banco de varejo, decidindo quais clientes devem receber a próxima mala direta de um novo financiamento. A classificação de clientes de uma operadora de telefonia, sugerindo qual plano se adequa melhor a cada um deles. Estes são apenas alguns exemplos, dentre muitos, do que pode ser considerado data mining.

Com tantas atividades distintas, classificadas sob omesmo teto, existe uma grande margem para confusão. Como classificar um tópico tão abrangente?

Segundo Michael Berry (http://www.data-miners.com), uma alternativa para a classificação dos sistemas de data mining é separá-los em três dimensões:

• Natureza da tarefa
• Objetivo a ser buscado
• Grau de estruturação dos dados

Classificando os sistemas em cada uma das três dimensõespodemos agrupar sistemas parecidos, e aplicar algorítmos e procedimentos similares.

Explorando um pouco mais estas três dimensões:

Natureza da tarefa: podem ser divididas em quatro: classificação; predição; segmentação e descrição.

Uma tarefa de classificação consiste em associar um item a uma classe, de várias opções pré-definidas. A tarefa do analista passa a ser selecionar qual classemelhor representa um registro, por exemplo, ao se deparar com uma base de dados de veículos, em que cada registro contém os atributos de cor, peso, combustível, número de portas, cilindrada e número de marchas, classificar cada veículo em esporte, utilitário, ou passeio.

Predição pode ser definida como a tarefa de preencher um valor em um registro baseado em outros atributos. Como exemplo de modelode predição, podemos construir um modelo para estimar a probabilidade de um cliente deixar de usar nossos serviços baseado em seu perfil de uso.

Segmentação pode ser comparada a uma tarefa de classificação sem classes pré-definidas. O objetivo de uma tarefa de segmentação consiste em agrupar registros semelhantes e separar registros diferentes. Ao se trabalhar com grandes bases de dados, émuito comum que padrões concorrentes se cancelem ao se observar tudo de uma só vez. Quebrar esta enorme base de dados em várias sub-bases pode dar ao analista a condição de ver estas diferenças e identificar novas oportunidades.

Data mining também pode ser utilizado para descrição dos dados. Técnicas de visualização podem trazer ao analista percepções diferentes das apresentadas em tabelas, ourelatórios.



Objetivo a ser buscado: existem dois tipos de objetivo, a produção de um modelo ou a produção de informação. Nas tarefas de predição, normalmente estaremos buscando um modelo que possa ser aplicado em dados não vistos anteriormente e que um “score” possa ser gerado. Em tarefas descritivas, buscamos informação que possa dar uma nova perspectiva ao se analisar os dados.



Graude estruturação dos dados: dados estruturados são normalmente os arquivos de banco de dados, as tabelas, ou seja, estruturas fixas com conteúdo uniforme. Dados desestruturados são arquivos do tipo texto ou imagem, e podem ser usados em projetos que tem como objetivo a identificação de padrões ou formas.


Voltando ao nosso problema em caracterizar data mining, chegamos à seguinte definição:

Éo processo de exploração e análise de grandes quantidades de dados, com o objetivo de descobrir padrões ou regras que permitam uma melhor compreensão da informação contida nos mesmos.


As ferramentas de data mining podem prever futuras tendências e comportamentos, permitindo às empresas um novo processo de tomada de decisão, baseado principalmente no conhecimento acumulado e, frequentemente...
tracking img