Armazenamento de dados - processos do sistema

Temos um número fixo de operações a serem aplicadas nas bases de dados operacionais e temos técnicas bem definidas como use normalized data, keep table small, etc. Essas técnicas são adequadas para fornecer uma solução. Mas no caso de sistemas de apoio à decisão, não sabemos qual consulta e operação precisa ser executada no futuro. Portanto, as técnicas aplicadas em bancos de dados operacionais não são adequadas para data warehouses.

Neste capítulo, discutiremos como construir soluções de armazenamento de dados nas principais tecnologias de sistema aberto, como Unix e bancos de dados relacionais.

Fluxo de processo no data warehouse

Existem quatro processos principais que contribuem para um data warehouse -

  • Extraia e carregue os dados.
  • Limpando e transformando os dados.
  • Faça backup e arquive os dados.
  • Gerenciando consultas e direcionando-as às fontes de dados apropriadas.

Processo de extração e carregamento

A extração de dados obtém dados dos sistemas de origem. O carregamento de dados pega os dados extraídos e os carrega no data warehouse.

Note - Antes de carregar os dados no data warehouse, as informações extraídas das fontes externas devem ser reconstruídas.

Controlando o Processo

O controle do processo envolve a determinação de quando iniciar a extração de dados e a verificação de consistência dos dados. O processo de controle garante que as ferramentas, os módulos de lógica e os programas sejam executados na seqüência correta e no tempo correto.

Quando iniciar a extração

Os dados precisam estar em um estado consistente quando são extraídos, ou seja, o data warehouse deve representar uma versão única e consistente das informações para o usuário.

Por exemplo, em um data warehouse de perfil de cliente no setor de telecomunicações, é ilógico mesclar a lista de clientes às 20h de quarta-feira de um banco de dados de clientes com os eventos de assinatura do cliente até as 20h de terça-feira. Isso significa que estamos encontrando os clientes para os quais não há assinaturas associadas.

Carregando os dados

Depois de extrair os dados, eles são carregados em um armazenamento de dados temporário, onde são limpos e consistentes.

Note - As verificações de consistência são executadas apenas quando todas as fontes de dados foram carregadas no armazenamento de dados temporário.

Processo de limpeza e transformação

Depois que os dados são extraídos e carregados no armazenamento de dados temporário, é hora de realizar a limpeza e a transformação. Aqui está a lista de etapas envolvidas na limpeza e transformação -

  • Limpe e transforme os dados carregados em uma estrutura
  • Particionar os dados
  • Aggregation

Limpe e transforme os dados carregados em uma estrutura

Limpar e transformar os dados carregados ajuda a acelerar as consultas. Isso pode ser feito tornando os dados consistentes -

  • dentro de si.
  • com outros dados na mesma fonte de dados.
  • com os dados em outros sistemas de origem.
  • com os dados existentes presentes no warehouse.

A transformação envolve a conversão dos dados de origem em uma estrutura. Estruturar os dados aumenta o desempenho da consulta e diminui o custo operacional. Os dados contidos em um data warehouse devem ser transformados para suportar os requisitos de desempenho e controlar os custos operacionais contínuos.

Particionar os dados

Isso otimizará o desempenho do hardware e simplificará o gerenciamento do data warehouse. Aqui, particionamos cada tabela de fatos em várias partições separadas.

Agregação

A agregação é necessária para acelerar as consultas comuns. A agregação depende do fato de que as consultas mais comuns analisam um subconjunto ou uma agregação dos dados detalhados.

Faça backup e arquive os dados

Para recuperar os dados em caso de perda de dados, falha de software ou falha de hardware, é necessário manter backups regulares. O arquivamento envolve a remoção dos dados antigos do sistema em um formato que permite que sejam restaurados rapidamente sempre que necessário.

Por exemplo, em um data warehouse de análise de vendas no varejo, pode ser necessário manter os dados por 3 anos, com os dados dos últimos 6 meses sendo mantidos online. Nesse cenário, geralmente há um requisito para poder fazer comparações mês a mês para este ano e o ano passado. Neste caso, exigimos que alguns dados sejam restaurados do arquivo.

Processo de Gestão de Consulta

Este processo executa as seguintes funções -

  • gerencia as consultas.

  • ajuda a acelerar o tempo de execução das consultas.

  • direciona as consultas para suas fontes de dados mais eficazes.

  • garante que todas as fontes do sistema sejam usadas da maneira mais eficaz.

  • monitora perfis de consulta reais.

As informações geradas neste processo são usadas pelo processo de gerenciamento de armazém para determinar quais agregações gerar. Esse processo geralmente não opera durante o carregamento regular de informações no data warehouse.