Data Warehousing - Data Marting

Por que precisamos de um data mart?

Listados abaixo estão os motivos para criar um data mart -

  • Para particionar dados a fim de impor access control strategies.

  • Para acelerar as consultas, reduzindo o volume de dados a serem verificados.

  • Para segmentar dados em diferentes plataformas de hardware.

  • Para estruturar os dados em um formato adequado para uma ferramenta de acesso do usuário.

Note- Não faça data mart por qualquer outro motivo, pois o custo de operação do data marting pode ser muito alto. Antes de data marting, certifique-se de que a estratégia de data marting é apropriada para sua solução particular.

Data Marting de baixo custo

Siga as etapas abaixo para tornar o marketing de dados econômico -

  • Identifique as Divisões Funcionais
  • Identificar os requisitos da ferramenta de acesso do usuário
  • Identificar problemas de controle de acesso

Identifique as Divisões Funcionais

Nesta etapa, determinamos se a organização possui divisões funcionais naturais. Procuramos divisões departamentais e determinamos se a maneira como os departamentos usam as informações tende a ser isolada do resto da organização. Vamos dar um exemplo.

Considere uma organização de varejo, onde cada comerciante é responsável por maximizar as vendas de um grupo de produtos. Para isso, a seguir estão as informações valiosas -

  • transação de vendas em uma base diária
  • previsão de vendas semanalmente
  • posição de estoque em uma base diária
  • movimentos de estoque em uma base diária

Como o comerciante não está interessado nos produtos com os quais não está lidando, o data marting é um subconjunto dos dados que tratam do grupo de produtos de interesse. O diagrama a seguir mostra o data marting para diferentes usuários.

Abaixo estão as questões a serem levadas em consideração ao determinar a divisão funcional

  • A estrutura do departamento pode mudar.

  • Os produtos podem mudar de um departamento para outro.

  • O comerciante pode consultar a tendência de vendas de outros produtos para analisar o que está acontecendo com as vendas.

Note - Precisamos determinar os benefícios comerciais e a viabilidade técnica do uso de um data mart.

Identificar os requisitos da ferramenta de acesso do usuário

Precisamos de data marts para apoiar user access toolsque requerem estruturas de dados internas. Os dados nessas estruturas estão fora do controle do data warehouse, mas precisam ser preenchidos e atualizados regularmente.

Existem algumas ferramentas que são populadas diretamente do sistema de origem, mas outras não. Portanto, requisitos adicionais fora do escopo da ferramenta devem ser identificados no futuro.

Note - Para garantir a consistência dos dados em todas as ferramentas de acesso, os dados não devem ser preenchidos diretamente do data warehouse, em vez disso, cada ferramenta deve ter seu próprio data mart.

Identificar problemas de controle de acesso

Deve haver regras de privacidade para garantir que os dados sejam acessados ​​apenas por usuários autorizados. Por exemplo, um data warehouse para uma instituição bancária de varejo garante que todas as contas pertençam à mesma entidade legal. As leis de privacidade podem forçá-lo a impedir totalmente o acesso a informações que não sejam de propriedade do banco específico.

Os data marts nos permitem construir uma parede completa separando fisicamente os segmentos de dados dentro do data warehouse. Para evitar possíveis problemas de privacidade, os dados detalhados podem ser removidos do data warehouse. Podemos criar data mart para cada entidade legal e carregá-lo via data warehouse, com dados detalhados da conta.

Projetando Data Marts

Os data marts devem ser projetados como uma versão menor do esquema starflake dentro do data warehouse e devem corresponder ao design do banco de dados do data warehouse. Ajuda a manter o controle sobre as instâncias do banco de dados.

Os resumos são dados marted da mesma maneira que seriam projetados no data warehouse. As tabelas de resumo ajudam a utilizar todos os dados de dimensão no esquema starflake.

Custo de Data Marting

As medidas de custo para data marting são as seguintes -

  • Custo de Hardware e Software
  • Acesso à rede
  • Restrições da janela de tempo

Custo de Hardware e Software

Embora os data marts sejam criados no mesmo hardware, eles requerem algum hardware e software adicionais. Para lidar com as consultas do usuário, ele requer capacidade de processamento adicional e armazenamento em disco. Se dados detalhados e o data mart existirem no data warehouse, então enfrentaríamos custos adicionais para armazenar e gerenciar dados replicados.

Note - Data marting é mais caro do que agregações, portanto deve ser usado como uma estratégia adicional e não como uma estratégia alternativa.

Acesso à rede

Um data mart pode estar em um local diferente do data warehouse, então devemos garantir que a LAN ou WAN tenha a capacidade de lidar com os volumes de dados que estão sendo transferidos dentro do data mart load process.

Restrições da janela de tempo

A extensão em que um processo de carregamento de data mart consumirá a janela de tempo disponível depende da complexidade das transformações e dos volumes de dados que estão sendo enviados. A determinação de quantos data marts são possíveis depende -

  • Capacidade da rede.
  • Janela de tempo disponível
  • Volume de dados sendo transferidos
  • Mecanismos usados ​​para inserir dados em um data mart