Teste ETL - Introdução

Os dados em um sistema de Data Warehouse são carregados com uma ferramenta ETL (Extract, Transform, Load). Como o nome sugere, ele executa as três operações a seguir -

  • Extrai os dados do seu sistema transacional, que pode ser Oracle, Microsoft ou qualquer outro banco de dados relacional,

  • Transforma os dados executando operações de limpeza de dados e, em seguida,

  • Carrega os dados no data warehouse OLAP.

Você também pode extrair dados de arquivos simples, como planilhas e arquivos CSV, usando uma ferramenta ETL e carregá-los em um data warehouse OLAP para análise de dados e relatórios. Vamos dar um exemplo para entendê-lo melhor.

Exemplo

Vamos supor que haja uma empresa de manufatura com vários departamentos, como vendas, RH, Gestão de Materiais, EWM, etc. Todos esses departamentos têm bancos de dados separados que usam para manter as informações sobre seu trabalho e cada banco de dados tem uma tecnologia, paisagem, tabela diferente nomes, colunas, etc. Agora, se a empresa deseja analisar dados históricos e gerar relatórios, todos os dados dessas fontes de dados devem ser extraídos e carregados em um Data Warehouse para salvá-lo para trabalho analítico.

Uma ferramenta ETL extrai os dados de todas essas fontes de dados heterogêneas, transforma os dados (como aplicar cálculos, juntar campos, chaves, remover campos de dados incorretos, etc.) e carregá-los em um Data Warehouse. Posteriormente, você pode usar várias ferramentas de Business Intelligence (BI) para gerar relatórios, painéis e visualizações significativos usando esses dados.

Diferença entre ferramentas ETL e BI

Uma ferramenta ETL é usada para extrair dados de diferentes fontes de dados, transformar os dados e carregá-los em um sistema DW; no entanto, uma ferramenta de BI é usada para gerar relatórios interativos e ad-hoc para usuários finais, painel para gerenciamento sênior, visualizações de dados para reuniões mensais, trimestrais e anuais do conselho.

As ferramentas ETL mais comuns incluem - SAP BO Data Services (BODS), Informatica - Power Center, Microsoft - SSIS, Oracle Data Integrator ODI, Talend Open Studio, Clover ETL Open source, etc.

Algumas ferramentas populares de BI incluem - SAP Business Objects, SAP Lumira, IBM Cognos, JasperSoft, Microsoft BI Platform, Tableau, Oracle Business Intelligence Enterprise Edition, etc.

Processo ETL

Vamos agora discutir com um pouco mais de detalhes as principais etapas envolvidas em um procedimento ETL -

Extraindo os dados

Envolve extrair os dados de diferentes fontes de dados heterogêneas. A extração de dados de um sistema transacional varia de acordo com o requisito e a ferramenta ETL em uso. Normalmente, é feito executando trabalhos agendados fora do horário comercial, como a execução de trabalhos à noite ou no fim de semana.

Transformando os Dados

Envolve transformar os dados em um formato adequado que pode ser facilmente carregado em um sistema DW. A transformação de dados envolve a aplicação de cálculos, associações e definição de chaves primárias e externas nos dados. Por exemplo, se você deseja% da receita total que não está no banco de dados, você aplicará a fórmula% na transformação e carregará os dados. Da mesma forma, se você tiver o nome e o sobrenome de usuários em colunas diferentes, poderá aplicar uma operação de concatenação antes de carregar os dados. Alguns dados não requerem nenhuma transformação; tais dados são conhecidos comodirect move ou pass through data.

A transformação de dados também envolve correção e limpeza de dados, remoção de dados incorretos, formação de dados incompleta e correção de erros de dados. Também inclui integridade de dados e formatação de dados incompatíveis antes de carregá-los em um sistema DW.

Carregando os dados em um sistema DW

Envolve o carregamento dos dados em um sistema DW para relatórios analíticos e informações. O sistema de destino pode ser um arquivo simples delimitado ou um armazém de dados.

Função de ferramenta ETL

Um data warehouse baseado em ferramenta ETL típico usa área de teste, integração de dados e camadas de acesso para executar suas funções. Normalmente é uma arquitetura de 3 camadas.

  • Staging Layer - A camada de teste ou banco de dados de teste é usado para armazenar os dados extraídos de diferentes sistemas de dados de origem.

  • Data Integration Layer - A camada de integração transforma os dados da camada de teste e move os dados para um banco de dados, onde os dados são organizados em grupos hierárquicos, muitas vezes chamados dimensions, e em facts e aggregate facts. A combinação de tabelas de fatos e dimensões em um sistema DW é chamada deschema.

  • Access Layer - A camada de acesso é usada pelos usuários finais para recuperar os dados para relatórios analíticos e informações.

A ilustração a seguir mostra como as três camadas interagem umas com as outras.