Datamining

Disponível somente no TrabalhosFeitos
  • Páginas : 13 (3184 palavras )
  • Download(s) : 0
  • Publicado : 15 de novembro de 2012
Ler documento completo
Amostra do texto
Data Mining com a Ferramenta Weka
Eduardo Corrêa Gonçalves Escola Nacional de Ciências Estatísticas (IBGE/ENCE) Rua André Cavalcanti, 106, Centro – 20.231-050 – Rio de Janeiro – RJ eduardo.correa@ibge.gov.br

1

Tópicos da Apresentação
PARTE 1: Introdução à Mineração de Dados
Data Mining, Fraldas e Cervejas Tarefas e Técnicas de Mineração de Dados Contexto atual da Mineração de DadosPARTE 2: Weka – uma Ferramenta Livre para Data Mining
Apresentação da Ferramenta Bases de Dados ARFF Weka em Ação: Minerando um Classificador

2

Parte I. Introdução à Mineração de Dados

• Mineração de dados: empregada em pesquisas científicas desde o início dos anos 90. • Muitas empresas estão se beneficiando da tecnologia com o propósito de alcançar um melhor posicionamento no mercado. •Mas … o que é mineração de dados? Quais são as suas aplicações práticas? • Estas questões são discutidas a seguir!

* HQ originalmente publicada em 03/01/2000. Disponível no site http://www.dilbert.com/.

3

O que é Mineração de Dados?
• Definição simples para mineração de dados (data mining):


Processo realizado através de estratégias automatizadas que tem por objetivo a descobertade conhecimento valioso em grandes bases de dados.



Esquema conceitual: um “pequeno diamante de informação” é extraído a partir de uma verdadeira “montanha de dados”!

4

Algoritmos: a Essência da Mineração de Dados
• A mineração de dados baseia-se na utilização de algoritmos capazes de
vasculhar grandes bases de dados de modo eficiente e revelar padrões interessantes, escondidosdentro da “montanha de dados”.

• Estudar data mining significa “mergulhar fundo” nos algoritmos! • Trabalhar com data mining consiste em trabalhar com algoritmos! • Utilizar uma ferramenta de data mining significa conhecer e saber
manipular os algoritmos que ela disponibiliza!

5

Propriedades Básicas de um “Diamante de Informação”
• O conhecimento descoberto através de processos demineração de dados é considerado interessante quando apresenta certas propriedades:

Validade

Inesperabilidade

Interpretabilidade

Novidade

Utilidade
• Estas propriedades serão explicadas no exemplo a seguir.

6

Fraldas e Cerveja (1/3)

• Exemplo real (será?) e muito conhecido. • De acordo com [BL97], a mineração do banco de dados de uma grande loja de departamentos dos EUA, revelouque grande parte dos consumidores que fazem compras nas noites de quinta-feira, costuma adquirir os dois produtos: fraldas e cerveja. • Exemplo antigo, mas ainda vale a pena discuti-lo. • Quando foi minerada, a regra apresentou todas as propriedades capazes de caracterizá-la como interessante para os analistas da loja de departamentos. • Não por acaso, o exemplo é citado em muitos cursos e livrosde mineração de dados.

7

Fraldas e Cerveja (2/3)
• Por que a regra foi considerada tão interessante?



Representava uma informação nova. • Não era conhecida pelos analistas da empresa.



Foi uma associação inesperada. • Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a produtos como salgados, carne para churrasco e outras bebidas alcoólicas, masnunca a produtos de higiene infantil.

• A regra foi considerada válida. • Ela possuía expressividade estatística. Uma porcentagem considerável das compras realizadas nas noites de quinta-feira continha ambos os produtos.

8

Fraldas e Cerveja (3/3)
• Por que a regra foi considerada tão interessante? (Continuação...)

• A regra é interpretável. • Pôde ser entendida e explicada pelosanalistas. Sugere que nas noites de quinta-feira, os casais jovens se preparam para o fim-de-semana estocando fraldas para os bebês e cerveja para o papai. • De maneira estereotipada, podemos até imaginar o jovem “papai norteamericano” como alguém que não pode mais ir ao bar e nem aos jogos de baseball ou futebol americano. Então ele fica em casa, assistindo aos jogos pela TV enquanto bebe as suas...
tracking img