SAP HANA - SQL Data Profiling

A tarefa SQL Data Profiling é usada para entender e analisar dados de várias fontes de dados. É usado para remover dados incorretos e incompletos e evitar problemas de qualidade de dados antes de serem carregados no data warehouse.

Aqui estão os benefícios das tarefas de Criação de Perfil de Dados SQL -

  • Ajuda a analisar os dados de origem com mais eficácia.

  • Ajuda a compreender melhor os dados de origem.

  • Ele remove dados incorretos e incompletos e melhora a qualidade dos dados antes que sejam carregados no data warehouse.

  • É usado com tarefas de Extração, Transformação e Carregamento.

A tarefa de Criação de Perfil de Dados verifica perfis que ajudam a entender uma fonte de dados e identificar problemas nos dados que precisam ser corrigidos.

Você pode usar a tarefa de Criação de Perfil de Dados dentro de um pacote do Integration Services para criar perfis de dados armazenados no SQL Server e identificar problemas potenciais com a qualidade dos dados.

Note - Data Profiling Task funciona apenas com fontes de dados SQL Server e não oferece suporte a nenhuma outra fonte de dados baseada em arquivo ou de terceiros.

Requisito de acesso

Para executar um pacote que contém a tarefa de Criação de Perfil de Dados, a conta do usuário deve ter permissões de leitura / gravação com permissões CREATE TABLE no banco de dados tempdb.

Visualizador do Data Profiler

O Data Profile Viewer é usado para revisar a saída do criador de perfil. O Data Profile Viewer também oferece suporte ao recurso de pesquisa detalhada para ajudá-lo a entender os problemas de qualidade de dados que são identificados na saída do perfil. Esse recurso de detalhamento envia consultas ao vivo para a fonte de dados original.

Configuração e revisão da tarefa de criação de perfil de dados

Configurando a Tarefa de Criação de Perfil de Dados

Envolve a execução de um pacote que contém a tarefa de Criação de Perfil de Dados para calcular os perfis. A tarefa salva a saída no formato XML em um arquivo ou variável de pacote.

Revisão dos perfis

Para visualizar os perfis de dados, envie a saída para um arquivo e use o Visualizador de Perfil de Dados. Este visualizador é um utilitário autônomo que exibe a saída do perfil em formato de resumo e detalhe com recurso opcional de pesquisa detalhada.

Perfil de dados - opções de configuração

A tarefa de Criação de Perfil de Dados tem essas opções de configuração convenientes -

Colunas curinga

Ao configurar uma solicitação de perfil, a tarefa aceita o caractere curinga '*' no lugar do nome da coluna. Isso simplifica a configuração e torna mais fácil descobrir as características de dados desconhecidos. Quando a tarefa é executada, ela cria perfis de cada coluna que possui um tipo de dados apropriado.

Perfil Rápido

Você pode selecionar Perfil Rápido para configurar a tarefa rapidamente. Um Perfil Rápido cria o perfil de uma tabela ou exibição usando todos os perfis e configurações padrão.

A tarefa de criação de perfil de dados pode calcular oito perfis de dados diferentes. Cinco desses perfis podem verificar colunas individuais e as três restantes analisar - colunas múltiplas ou relacionamentos entre colunas.

Perfil de dados - saídas de tarefas

A tarefa de Criação de Perfil de Dados gera os perfis selecionados em formato XML que é estruturado como o esquema DataProfile.xsd.

Você pode salvar uma cópia local do esquema e visualizar a cópia local do esquema no Microsoft Visual Studio ou em outro editor de esquema, em um editor XML ou em um editor de texto como o Bloco de Notas.