Abordagens para desambiguação de nomes
Emilia A. de Souza
Dept. of Computer Science
Federal University of Ouro Preto emilia.alvess@gmail.com Anderson A. Ferreira
Dept. of Computer Science
Federal University of Ouro Preto ferreira@iceb.ufop.br ABSTRACT
This paper provides a method that combine classifiers and utilize user feedback for to solve the ambiguous author names problem. A clustering method is used to group references and to form pure groups that will compose the training examples. In the next step the classifiers are combined to produce a good classifier which will learn a similarity function for assigning authors to correct groups. We use the algorithms of classification Support Vect Machines (SVM), K-Nearest Neighbor (KNN) and Random Forest. There are also the phase in which user attempt to identify the author of the references in an iterative way.
Categories and Subject Descriptors
H.3.3 [Information Search and Retrieval]: Information Retrieval; I.5.2 [Pattern Recognition]: Classifier design and evaluation
General Terms
Algorithms, Experimentation
Keywords
Name Disambiguation, Relevance Feedback, Classifiers essembles
1. INTRODUCTION
O grande desafio na área de recuperação de informação é a ambiguidade da linguagem humana que ocorre quando um conjunto de palavras têm mais de um sentido. Existem muitos domínios envolvendo o problema da ambiguidade. O âmbito da ambiguidade de nomes abrange problemas específicos, nesse contexto surge a ambiguidade de nomes de autores.
As bibliotecas digitais escolares (DLs) tais como DBLP, CiteSeer, MEDLINE e BDBComp fornecem o acesso às publicações científicas além de oferecer outros serviços que envolvem o gerenciamento do conteúdo de coleções digitais, recuperação e organização da informação, interface com o usuário e preservação da qualidade dos metadados.
O uso dessas bases de dados tem como objetivo, por