Agrupamento De Dados Utilizando Mahout E MapReduce

657 palavras 3 páginas
AGRUPAMENTO DE DADOS COM
MAHOUT E MAPREDUCE
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO EM ENG. ELÉTRICA E
C O M P UTAÇ ÃO
D I S C I P L I N A : T Ó P I C O S E M B I G D ATA
P R O F. : D R . L E A N D R O A U G U S T O
ALUNOS: ANTÔNIO EDUARDO
DANILO CUNHA

SUMÁRIO





Introdução
Conceitos
Aplicação
Conclusão

Universidade Presbiteriana Mackenzie
PPGEEC

Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )

MOTIVAÇÃO
• Problema comum em Aprendizagem de Máquina
• Alta aplicabilidade
• Sistemas de Recomendação, Processamento de
Imagem, Análise de Sequência Genética, Análise de Textos
• Competições: Netflix e Kaggle

Universidade Presbiteriana Mackenzie
PPGEEC

Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )

APACHE MAHOUT
• É uma biblioteca de algoritmos de aprendizagem de máquina
• É um projeto da Apache Software Foundation
• Software Livre (Licença Apache)
• Escalável para manipular grandes volumes de dados Universidade Presbiteriana Mackenzie
PPGEEC

Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )

ONDE USAR O MAHOUT?








Matrizes e vetores
Estruturas esparsas e densas
Agrupamento
Cobertura
K-Means
Análise de densidade de funções
Filtragem colaborativa

QUEM UTILIZA O MAHOUT?
• Adobe Media Player usa o Mahout para gerar recomendações de vídeos para seus usuários
• Amazon’s Personalization Platform
• AOL recomendações de compras
• Foursquare sistema de recomendações de lugares • Mendeley sistema de recomendações de artigos científicos • Twitter modelagem de “interesses” de usuários

Universidade Presbiteriana Mackenzie
PPGEEC

Antônio Eduardo (aersouza@gmail.com)
Danilo (danilocunha85@gmail.com )

POR QUÊ UTILIZAR AGRUPAMENTO?
• Estrutura dos dados
• geração hipóteses, detecção de anomalias e outras características

• Classificação
• identificação do grau de similaridade do dados

• Compressão
• organização e sumarização dos dados por meio de grupos

Relacionados

  • mapreduce
    20916 palavras | 84 páginas
  • NoSQL
    14172 palavras | 57 páginas
  • banco de dados
    24947 palavras | 100 páginas
  • Pós Graduado
    4792 palavras | 20 páginas