Mineração de textos

Disponível somente no TrabalhosFeitos
  • Páginas : 15 (3571 palavras )
  • Download(s) : 0
  • Publicado : 2 de abril de 2013
Ler documento completo
Amostra do texto
RESI-Revista Elerônica de Sistemas de Informação, Nº2, 2006

1

A Tecnologia de Mineração de Textos
(Artigo tutorial)
Christian Aranha, Emmanuel Passos Lab.ICA Elétrica PUC-Rio

Resumo
Mineração de textos, também conhecido como mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais, em geral, se refere ao processo de extração de informações de interesse epadrões não-triviais ou descoberta de conhecimento em documentos de texto não-estruturados. Pode ser visto como uma extensão da mineração de dados ou da descoberta de conhecimento em bases de dados estruturadas. Como muitas informações (mais de 80%) estão armazenadas em formato texto, acredita-se que as técnicas de mineração de textos possuam um grande valor comercial. O objetivo deste tutorial éapresentar algumas técnicas de mineração de textos, bem como casos de uso e resultados obtidos Palavras chave: Mineração de textos, Sistemas de Informação Inteligentes, Mineração de dados

Abstract
Text mining, also known as text data mining or knowledge-discovery in text (KDT), refers generally, to the process of extracting interesting and non-trivial information and knowledge from unstructuredtext. It can be seen as an extension of data mining or knowledge discovery in structured databases. As most information (over 80%) is stored as text, text mining is believed to have a high commercial potential value. The objective of this tutorial is present some techniques of text mining, as well as study cases and their results. Key-words: Text mining, Data minig, Intelligent information sysems1. Introdução
Mineração de textos, também chamado de mineração de dados textuais ou descoberta de conhecimento de bases de dados textuais é um campo novo e multidisciplinar que inclui conhecimentos de áreas como Informática, Estatística, Linguística e Ciência Cognitiva. Mineração de textos consiste em extrair regularidades, padrões ou tendências de grandes volumes de textos em linguagemnatural, normalmente, para objetivos específicos. Inspirado pelo data mining ou mineração de dados, que procura descobrir padrões emergentes de banco de dados estruturados, a mineração de textos pretende extrair conhecimentos úteis de dados não estruturados ou semi-estruturados. A informática é composta pelo conjunto das Ciências da Informação, que inclui a teoria da informação, o processo de cálculo, aanálise numérica, os métodos teóricos da representação dos conhecimentos e modelagem dos problemas. A estatística é uma ciência que utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo obter, organizar e analisar dados, determinar as correlações que

apresentem, tirando delas suas consequências para descrição e explicação do que passou e previsãoe organização do futuro. Da informática e da estatística surgiram os famosos mecanismos eficientes de busca de informação como Google e Yahoo! A lingüística é o estudo científico da linguagem humana. Os lingüistas dividem o estudo da linguagem em áreas que são estudadas mais ou menos de forma independente. As divisões mais comuns são: fonética, fonologia, morfologia, sintaxe, pragmática, dentreoutras. A preocupação em adequar os modelos à realidade da computação consolidou a Linguística Computacional. A ciência cognitiva é normalmente definida como o estudo científico da mente ou da inteligência. Quase toda a introdução à ciência cognitiva frisa a sua alta inter-disciplinaridade; é normalmente caracterizada como tomando parte ou colaborando com as disciplinas de psicologia (especialmenteatravés da psicologia cognitiva, linguística, neurociência, inteligência artificial (em particular no ramo de redes neurais) e filosofia (especialmente a filosofia da mente e a filosofia da matemática mas com aplicações na filosofia da ciência).

RESI-Revista Elerônica de Sistemas de Informação, Nº2, 2006

2

Com base no conhecimento extraído dessas ciências, a mineração de textos define...
tracking img