Estati

Disponível somente no TrabalhosFeitos
  • Páginas : 15 (3737 palavras )
  • Download(s) : 0
  • Publicado : 8 de abril de 2013
Ler documento completo
Amostra do texto
An´lise de Clusters
a
Estat´
ıstica
UDF

Mar¸o / 2012
c

Estat´
ıstica (UDF)

Clusters

Mar¸o / 2012
c

1 / 26

Introdu¸˜o
ca

A An´lise de Clusters, tamb´m conhecida como An´lise de Agrupamentos,
a
e
a
´ o nome dado a um conjunto de t´cnicas utilizadas na identifica¸˜o de
e
e
ca
padr˜es de comportamento em bancos de dados atrav´s da forma¸˜o de
o
e
ca
grupos homogˆneos de casos.
e
Exemplo: Umempresa deseja conhecer o perfil de seus consumidores.
Para tanto, elabora uma pesquisa na qual ´ feito o levantamento de dados
e
de uma grande amostra. A an´lise dos dados gera algumas d´vidas: os
a
u
consumidores tˆm um perfil homogˆneo em rela¸˜o `s caracter´
e
e
ca a
ısticas
levantadas? Se o perfil n˜o for homogˆneo, ´ poss´ identificar grupos
a
e
e
ıvel
homogˆneos? Quantos grupos existem?
eEstat´
ıstica (UDF)

Clusters

Mar¸o / 2012
c

2 / 26

Medidas de Similaridade e Dissimilaridade
Uma quest˜o importante refere-se ao crit´rio a ser utilizado para se decidir
a
e
at´ que ponto dois elementos do conjunto de dados podem ser
e
considerados como semelhantes ou n˜o.
a
Para cada elemento amostral, tˆm-se informa¸˜es de p vari´veis
e
co
a
armazenadas em um vetor e a compara¸˜o de diferenteselementos
ca
amostrais ´ feita atrav´s de medidas matem´ticas.
e
e
a
H´ dois tipos de medidas: medidas de similaridade (quanto maior o valor,
a
maior a semelhan¸a entre os objetos; apropriadas para vari´veis
c
a
qualitativas) e medidas de dissimilaridade (quanto maior o valor, mais
diferentes s˜o os objetos; apropriadas para vari´veis quantitativas).
a
a

Estat´
ıstica (UDF)

Clusters

Mar¸o / 2012c

3 / 26

Medidas de Dissimilaridade
As distˆncias s˜o as medidas de dissimilaridade mais utilizadas no estudo
a
a
de bancos de dados com vari´veis quantitativas.
a
A Distˆncia Euclidiana entre dois elementos X i = (X1i , . . . , Xpi )′ e
a
X j = (X1j , . . . , Xpj )′ ´ definida por:
e
1/2

p


dij = d (X i , X j ) = (X i − X j ) (X i − X j )

1/2

2

=

(Xki − Xkj )
k =1

A Distˆncia deMahalanobis ´ definida por:
a
e
dij = d (X i , X j ) = (X i − X j )′ S−1 (X i − X j )

1/2

,

onde S ´ a matriz de covariˆncia amostral.
e
a
Estat´
ıstica (UDF)

Clusters

Mar¸o / 2012
c

4 / 26

Medidas de Dissimilaridade
A Distˆncia de Minkowsky ´ definida por:
a
e
1/λ

p
λ

dij = d (X i , X j ) =

|Xki − Xkj |
k =1

Para λ = 1 esta distˆncia ´ conhecida como Manhattan. Para λ = 2
a
e
tem-se a distˆnciaEuclidiana.
a
As distˆncias dij entre os elementos amostrais s˜o armazenadas em uma
a
a
matriz D de dimens˜o n × n , chamada de matriz de distˆncias. Por
a
a
exemplo, com n = 3 elementos amostrais, ter´
ıamos


0 d12 d13
D =  d21 0 d23  .
d31 d32 0
Estat´
ıstica (UDF)

Clusters

Mar¸o / 2012
c

5 / 26

Medidas de Dissimilaridade

Exemplo: Os dados da tabela abaixo representam a renda mensal(em
quantidade de sal´rios m´
a
ınimos) e a idade de seis indiv´
ıduos de uma
localidade (arquivo renda-idade). Matriz de distˆncias baseada na
a
distˆncia Euclidiana:
a
Indiv´
ıduo
Renda
Idade





D=



Estat´
ıstica (UDF)

1
9,6
28

0
3, 2
15, 7
13, 2
6, 4
13, 4

2
8,4
31

0
12, 5
12, 0
7, 5
10, 2

3
2,4
42

4
18,2
38

5
3,9
25

6
6,4
41


0
16, 3
17, 1
4, 1

Clusters

0
19, 3
12, 2

016, 2

0








Mar¸o / 2012
c

6 / 26

Medidas de Similaridade
´
E frequente o uso de vari´veis qualitativas na procura de elementos
a
semelhantes, da´ a necessidade de coeficientes que definam o grau de
ı
similaridade entre os elementos segundo vari´veis desse tipo. Por facilidade
a
de apresenta¸˜o, iniciaremos a apresenta¸˜o pelo caso onde os crit´rios
ca
ca
e
envolvidos s˜o todos do tipobin´rio (sim ou n˜o). Depois faremos a
a
a
a
extens˜o para vari´veis com m´ltiplos atributos.
a
a
u
Exemplo: Resultados sobre presen¸a (1) ou n˜o (0) de 10 servi¸os
c
a
c
(creche, bancos, escolas, etc.) em duas cidades A e B s˜o apresentados na
a
tabela abaixo (arquivo servicos):
Vari´vel
a
Cidade A
Cidade B

Estat´
ıstica (UDF)

X1
1
1

X2
1
0

X3
0
0

X4
1
1

X5
0
0

Clusters

X6
1
1

X7
1...
tracking img