Spam

Disponível somente no TrabalhosFeitos
  • Páginas : 5 (1221 palavras )
  • Download(s) : 0
  • Publicado : 13 de março de 2012
Ler documento completo
Amostra do texto
Classificação de Conteúdos

LEIC - Projecto Final de Curso

António Serra, 2005

Agenda
l  O

Problema e Objectivos l  Classificador de textos
–  Classificador de SPAM

l  Integração

com cliente de E-Mail l  Resultados obtidos l  Conclusões l  Trabalho futuro
2

O Problema e Objectivos
l 

Classificação automática de textos quanto a:
–  –  –  – 

Língua AutorAssunto E-Mail SPAM, Unsolicited Commercial Email

l 

O SPAM é um caso particular da classificação de assunto Integração do classificador de SPAM com cliente de E-Mail (MSOutlook)
3

l 

Introdução
l  As

soluções típicas de classificação de textos usam métodos
–  Estatísticos (contagem de palavras, n-grama) –  Probabilísticos (cadeia de Markov) –  Neuronais (Redes MLP-MultiLayerPerceptron) –  Bayesianos (Redes Bayesianas)

l  Exigem

a definição de modelos a priori

–  Estabelecimento de valores iniciais para os

parâmetros –  Ajuste dos valores dos parâmetros

4

Abordagem à Classificação
A característica de classificação é a dimensão da representação com compressão l  Estima-se a divergência de Kullback-Leibler entre textos l  Utilização do método decompressão baseado no algoritmo da janela deslizante de Lempel e Ziv (LZ77) l  Compressão do texto a classificar usando diferentes dicionários l  Não exige a definição de modelos a priori
l 
5

Divergência de Kullback-Leibler
l 

DKL(p||q)=∑ p(x)log
x

p(x) q(x)

l  Medida

de semelhança utilizada l  Tem as seguintes propriedades:
–  É sempre positiva ou nula –  É nula ssep(x)=q(x)
LA

DKL LB
6

Algoritmo Lempel e Ziv 1977
l  Proposto

em 1977 l  Método da sliding window
Look-Ahead Buffer

Dicionário
data processing, the encountered strings of

LAB
data display various

“data d”↔ (44, 5, ‘d’)
rocessing, the encountered strings of data d isplay various structu

7

Aplicação à Classificação
l  l 

Ai são textos conhecidos (asreferências)

–  Determina-se o comprimento da descrição de Ai , L(Ai)

B é o texto a classificar l  Compressão LZ77 de Ai+B l  Classificação: arg min {L(Ai+B)-L(Ai)}
i

Dicionário 1 2 3 Ai Ai

Ai

LAB

B B
8

Resultados da Classificação por Língua (1)
l  Condições de teste –  Biblioteca de compressão ZLib –  Dicionário com 32 kB de dimensão –  Dimensão dos textos limitada a 32 kB l 13 línguas diferentes (referências) –  Alemão, Checo, Croata, Dinamarquês, Espanhol,

Estónio, Francês, Inglês, Italiano, Latim, Polaco, Português e Russo

l  4

textos desconhecidos de cada língua l  100% dos textos correctamente classificados
9

Resultados da Classificação por Língua (2)
6 Português Português 5

4

Ocorrências Ocorrências

3

2

1

0 1.1

1.15

1.2L(Ai+B)-L(Ai)

1.25 L (Ai+B) - L(A i)

1.3

1.35

1.4 x 10
4

10

Resultados da Classificação por Autor
l  Autores

portugueses (5 textos de cada)
–  Camões, Eça e

Matriz de Confusão Eça Eça Camões Pe 0,800 0,000 0,200 Matriz de Confusão Twain Verne Shakespeare Twain Verne 0,300 0,700 0,000 1,000 0,000 0,000 1,000
11

Camões Saramago 0,000 0,800 0,000 0,200 0,200 0,800Saramago 0,200

Saramago
l  Textos

em Inglês (10 textos de cada)
–  Shakespeare, Twain e

Verne

Shakespeare 0,000 0,000 Pe 0,233

Resultados da Classificação por Assunto
l Textos de notícias da agência Reuters (254 textos) –  Pré-classificados em 4 categorias –  Dimensão típica de 3 Kb –  Alguns são multi-categoria l Utilização de pré-carga do dicionário
Sem pré-carga deDicionário Matriz de Confusão Crude Earn Crude Earn Grain Interest Pe Grain Interest 0,008 0,015 0,008 0,718 Crude Earn Grain Interest Pe 0,893 0,053 0,046 0,053 0,924 0,008 0,092 0,015 0,885 0,145 0,046 0,092 0,145 Com pré-carga de Dicionário Matriz de Confusão Crude Earn Grain Interest 0,008 0,015 0,000 0,733
12

0,924 0,046 0,023 0,053 0,924 0,008 0,092 0,015 0,893 0,176 0,008 0,084 0,132...
tracking img