Spam

1221 palavras 5 páginas
Classificação de Conteúdos

LEIC - Projecto Final de Curso

António Serra, 2005

Agenda l O

Problema e Objectivos l Classificador de textos
– Classificador de SPAM

l Integração

com cliente de E-Mail l Resultados obtidos l Conclusões l Trabalho futuro
2

O Problema e Objectivos l Classificação automática de textos quanto a:
– – – –

Língua Autor Assunto E-Mail SPAM, Unsolicited Commercial Email

l

O SPAM é um caso particular da classificação de assunto Integração do classificador de SPAM com cliente de E-Mail (MSOutlook)
3

l

Introdução l As

soluções típicas de classificação de textos usam métodos
– Estatísticos (contagem de palavras, n-grama) – Probabilísticos (cadeia de Markov) – Neuronais (Redes MLP-MultiLayer Perceptron) – Bayesianos (Redes Bayesianas)

l Exigem

a definição de modelos a priori

– Estabelecimento de valores iniciais para os

parâmetros – Ajuste dos valores dos parâmetros

4

Abordagem à Classificação
A característica de classificação é a dimensão da representação com compressão l Estima-se a divergência de Kullback-Leibler entre textos l Utilização do método de compressão baseado no algoritmo da janela deslizante de Lempel e Ziv (LZ77) l Compressão do texto a classificar usando diferentes dicionários l Não exige a definição de modelos a priori l 5

Divergência de Kullback-Leibler l DKL(p||q)=∑ p(x)log x p(x) q(x)

l Medida

de semelhança utilizada l Tem as seguintes propriedades:
– É sempre positiva ou nula – É nula sse p(x)=q(x)
LA

DKL LB
6

Algoritmo Lempel e Ziv 1977 l Proposto

em 1977 l Método da sliding window
Look-Ahead Buffer

Dicionário data processing, the encountered strings of

LAB data display various

“data d”↔ (44, 5, ‘d’) rocessing, the encountered strings of data d isplay various structu

7

Aplicação à Classificação l l

Ai são textos conhecidos (as referências)

Relacionados

  • spam
    1825 palavras | 8 páginas
  • Spam
    456 palavras | 2 páginas
  • Spam
    1590 palavras | 7 páginas
  • Vírus Spam
    365 palavras | 2 páginas
  • A inconstitucionalidade do spam
    5696 palavras | 23 páginas
  • Spam fudidissimo
    637 palavras | 3 páginas
  • Proteção contra spam
    779 palavras | 4 páginas
  • O spam e as pragas digitais
    2577 palavras | 11 páginas
  • Spam e redes sociais
    6189 palavras | 25 páginas
  • Spam e cavalo de tróia
    1863 palavras | 8 páginas