Teste de ETL - integridade de dados

A verificação da integridade dos dados é feita para verificar se os dados no sistema de destino estão de acordo com a expectativa após o carregamento.

Os testes comuns que podem ser realizados para isso são os seguintes -

  • Verificando funções agregadas (soma, máximo, mínimo, contagem),

  • Verificar e validar as contagens e os dados reais entre a origem e o destino para colunas sem transformações ou com transformações simples.

Validação de contagem

Compare a contagem do número de registros nas tabelas de origem e de destino. Isso pode ser feito escrevendo as seguintes perguntas -

SELECT count (1) FROM employee; 
SELECT count (1) FROM emp_dim;

Validação de Perfil de Dados

Envolve a verificação das funções agregadas, como contagem, soma e máximo nas tabelas de origem e destino (fato ou dimensão).

Validação de Perfil de Dados de Coluna

Envolve comparar os valores distintos e a contagem de linhas para cada valor distinto.

SELECT city, count(*) FROM employee GROUP BY city; 
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;

Validação de dados duplicados

Envolve a validação da chave primária e da chave exclusiva em uma coluna ou em combinação de colunas que devem ser exclusivas de acordo com os requisitos de negócios. Você pode usar a seguinte consulta para realizar a validação de dados duplicados -

SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;