ETL, Extract Transform Load
O processo de ETL (Extract, Transform and Load) é um processo que exige esforço e a maior parte do tempo de construção de um Data warehouse, este processo vai extrair dados de fontes de dados heterogêneas e tem que alimentar o Data Warehouse de forma homogênea e concisa, pois vai servir de base para gerar relatórios e gráficos de apoio à decisão para a gerencia da corporação e não pode trazer resultados errôneos, você pode utilizar as ferramentas de ETL para fazer todo tipo de trabalho de importação, exportação, transformação de dados para outros ambientes de banco de dados ou para outras necessidades a serem endereçadas.
Esse processo deve definir claramente quais informações são relevantes e que farão parte dos dados que vão alimentar o Data Warehouse, que deverá ter a estrutura desenhada com relação aos dados que serão extraídos dos vários sistemas e as informações que devem ser geradas a partir deste repositório. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files, mas podem existir outros tipos de fontes também. Um sistema ETL precisa ser capaz de se comunicar com bases de dados e ler diversos formatos de arquivos utilizados por toda a organização.
Depois de selecionados os dados que serão carregados no Data Warehouse, vem a parte de tratamento ou transformação e limpeza dos dados, que consiste em padronizar os dados com relação ao tamanho e tipo, substituição de caracteres estranhos, correção de erros de digitação, comparação fonética para evitar duplicidade de informações, por exemplo o mesmo nome escrito de formas diferentes, com ou sem acentuação etc., substituição de dados não preenchidos por “Não Informado” por exemplo, padronização de unidades de medida, pois em determinado sistema pode ter a unidade informada em metros em outro sistema ter a unidade informada em polegadas, posso