Processo de qualidade de dados compartilhados
Título: Processo de Qualidade de Dados Compartilhados
INTRODUÇÃO
A partir de uma perspectiva de pesquisa, a qualidade dos dados tem sido abordada em diferentes áreas, incluindo as áreas de estatísticas, de gestão e ciência da computação. Estatísticos foram os primeiros a investigar alguns dos problemas relacionados à qualidade dos dados, ao propor uma teoria matemática para considerar duplicatas em conjuntos de dados estatísticos, no final dos anos 1960. Eles foram seguidos por pesquisadores em gestão, que no início da década de 1980 centraram-se sobre a forma de controle de dados dos sistemas de produção a fim de detectar e eliminar os problemas de qualidade de dados. Somente no início da década de 1990 cientistas de computação começaram a estudar o problema da definição, medição e melhoria da qualidade de dados eletrônicos armazenados em bases de dados, data warehouse e sistemas legados. [1]
Os dados representam objetos do mundo real, em um formato que pode ser armazenado, recuperado e elaborados por procedimentos de software, e comunicado através de uma rede. O processo de representar o mundo real por meio de dados pode ser aplicado a um grande número de fenômenos, tais como medições, eventos, características das pessoas, os ambientes, sons e cheiros. Os dados são extremamente versátil na representação.
Uma vez que os pesquisadores da área da qualidade dos dados tem que lidar com um amplo espectro de representações de dados possíveis, eles têm proposto diversas classificações para os dados. Primeiro, os autores distinguem implícita ou explicitamente, três tipos de dados: estruturados, semi-estruturados e não estruturados.
A informação tem se tornado um dos mais importantes ativos de uma empresa. Sem informações de qualidade, não se consegue atender clientes de forma correta, tomar decisões adequadas ou obter vantagens de novas tecnologias. O mundo requer informações globais e, cada vez