DataClustering

942 palavras 4 páginas
Agrupamento de Dados: uma
Revisão
Data Clustering

Márcia de Oliveira Alves
José de Castro Neto
Maio 2006
Universidade Federal de Campina Grande
Mestrado em Informatica

Nivelamento

• O que é Agrupamento de Dados?
• Qual a utilidade?

Roteiro

• Contextualização;
• Processo de Agrupamento;
• Agrupamento de Dados;
• Uma Aplicacão: Mineração de Dados;
• Considerações Finais.
• Bibliografia

Contextualizaç ão Motivação
• É crescente a migração dos dados para a mídia digital;
• Na informação reside o conhecimento;
• O volume de informação é cada vez maior; Análise Automática dos Dados

Contextualizaç ão Análise Automática de Dados
• Previsão de Dados
– Fluxo de Caixa Previsto

• Classificação de Dados
– Relatório gerado segundo consulta

• Análise de Agrupamentos
– Data Mining – Mineração de Dados

Processo de
Agrupamento

Objetivo

Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos

Processo de
Agrupamento

Etapas
• Seleção e tratamento dos dados;
• Agrupamento de dados;
• Análise dos resultados;

Processo de
Agrupamento

Seleção e Tratamento de Dados
• Eliminação de dados duplicados ou corrompidos; • Tratamento de outliers;
• Valores faltantes ou inválidos;
• Transformação dos dados;
– Tratamento de Atributos:

• Adequar os diferentes tipos de atributos para o processo de agrupamento.

– Normalização:

• Tratar dados com atributos de diferentes dimensões, quando se pretende que eles tenham a mesma influência no processo.

Processo de
Agrupamento

Agrupamento de Dados
• Métodos:
– Hierárquicos;
– Segmentação;

• Medidas de proximidade
– Dissimilaridade
– Similaridade

Processo de
Agrupamento

Agrupamento de Dados
• Métricas comuns em medidas de proximidade Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan

Processo de
Agrupamento

Análise dos resultados
• Gráfico da Silhueta

Figura 3: Gráfico da Silhueta

Processo de
Agrupamento

Análise dos resultados
• Valores da
Silhueta
Valor

Descrição

0,71 –

Relacionados