Armazenamento de dados - gerentes de processo

Os gerentes de processo são responsáveis ​​por manter o fluxo de dados dentro e fora do data warehouse. Existem três tipos diferentes de gerentes de processo -

  • Gerenciador de carga
  • Gerente de armazém
  • Gerenciador de consultas

Data Warehouse Load Manager

O gerenciador de carga executa as operações necessárias para extrair e carregar os dados no banco de dados. O tamanho e a complexidade de um gerenciador de carga variam entre soluções específicas de um data warehouse para outro.

Arquitetura do gerenciador de carga

O gerenciador de carga executa as seguintes funções -

  • Extraia dados do sistema de origem.

  • Carregar rapidamente os dados extraídos no armazenamento de dados temporário.

  • Execute transformações simples em uma estrutura semelhante àquela do data warehouse.

Extrair dados da fonte

Os dados são extraídos dos bancos de dados operacionais ou de provedores externos de informações. Gateways são os programas aplicativos usados ​​para extrair dados. É suportado por DBMS subjacente e permite que o programa cliente gere SQL para ser executado em um servidor. Open Database Connection (ODBC) e Java Database Connection (JDBC) são exemplos de gateway.

Carregamento rápido

  • Para minimizar a janela de carregamento total, os dados precisam ser carregados no warehouse o mais rápido possível.

  • As transformações afetam a velocidade do processamento de dados.

  • É mais eficaz carregar os dados em um banco de dados relacional antes de aplicar transformações e verificações.

  • A tecnologia de gateway não é adequada, pois são ineficientes quando grandes volumes de dados estão envolvidos.

Transformações Simples

Durante o carregamento, pode ser necessário realizar transformações simples. Depois de concluir transformações simples, podemos fazer verificações complexas. Suponha que estejamos carregando a transação de vendas EPOS, precisamos realizar as seguintes verificações -

  • Remova todas as colunas que não são necessárias no warehouse.
  • Converta todos os valores em tipos de dados necessários.

Gerente de armazém

O gerente do depósito é responsável pelo processo de gerenciamento do depósito. Ele consiste em um software de sistema de terceiros, programas C e scripts de shell. O tamanho e a complexidade de um gerente de warehouse variam entre soluções específicas.

Arquitetura do gerente de armazém

Um gerente de armazém inclui o seguinte -

  • O processo de controle
  • Procedimentos armazenados ou C com SQL
  • Ferramenta de backup / recuperação
  • Scripts SQL

Funções do gerente de armazém

Um gerente de armazém executa as seguintes funções -

  • Analisa os dados para realizar verificações de consistência e integridade referencial.

  • Cria índices, visões de negócios, visões de partição em relação aos dados de base.

  • Gera novas agregações e atualiza as agregações existentes.

  • Gera normalizações.

  • Transforma e mescla os dados de origem do armazenamento temporário no armazém de dados publicado.

  • Faz backup dos dados no data warehouse.

  • Arquiva os dados que chegaram ao fim de sua vida útil capturada.

Note - Um gerente de warehouse analisa perfis de consulta para determinar se o índice e as agregações são apropriados.

Gerente de Consulta

O gerenciador de consultas é responsável por direcionar as consultas para tabelas adequadas. Ao direcionar as consultas para tabelas apropriadas, ele acelera a solicitação de consulta e o processo de resposta. Além disso, o gerenciador de consultas é responsável por agendar a execução das consultas postadas pelo usuário.

Arquitetura do Query Manager

Um gerenciador de consultas inclui os seguintes componentes -

  • Redirecionamento de consulta via ferramenta C ou RDBMS
  • Procedimentos armazenados
  • Ferramenta de gerenciamento de consulta
  • Agendamento de consulta via ferramenta C ou RDBMS
  • Programação de consultas por meio de software de terceiros

Funções do Query Manager

  • Ele apresenta os dados ao usuário de uma forma que ele compreenda.

  • Ele agenda a execução das consultas postadas pelo usuário final.

  • Ele armazena perfis de consulta para permitir que o gerente do warehouse determine quais índices e agregações são apropriados.