Data Warehousing - Backup

Um data warehouse é um sistema complexo e contém um grande volume de dados. Portanto, é importante fazer backup de todos os dados para que fiquem disponíveis para recuperação no futuro, conforme a necessidade. Neste capítulo, discutiremos os problemas no projeto da estratégia de backup.

Terminologias de backup

Antes de prosseguir, você deve conhecer algumas das terminologias de backup discutidas a seguir.

  • Complete backup- Faz backup de todo o banco de dados ao mesmo tempo. Este backup inclui todos os arquivos de banco de dados, arquivos de controle e arquivos de diário.

  • Partial backup- Como o nome sugere, ele não cria um backup completo do banco de dados. O backup parcial é muito útil em grandes bancos de dados, pois permite uma estratégia em que várias partes do banco de dados são submetidas a backup em rodízio diariamente, para que o backup de todo o banco de dados seja feito efetivamente uma vez por semana.

  • Cold backup- O backup frio é feito enquanto o banco de dados está completamente encerrado. Em um ambiente de várias instâncias, todas as instâncias devem ser encerradas.

  • Hot backup- O backup dinâmico é feito quando o mecanismo de banco de dados está instalado e funcionando. Os requisitos de backup dinâmico variam de RDBMS para RDBMS.

  • Online backup - É bastante semelhante ao backup a quente.

Backup de Hardware

É importante decidir qual hardware usar para o backup. A velocidade de processamento do backup e da restauração depende do hardware usado, de como o hardware está conectado, da largura de banda da rede, do software de backup e da velocidade do sistema de E / S do servidor. Aqui, discutiremos algumas das opções de hardware disponíveis e seus prós e contras. Essas opções são as seguintes -

  • Tecnologia de Fita
  • Backups de disco

Tecnologia de Fita

A escolha da fita pode ser categorizada da seguinte forma -

  • Mídia de fita
  • Unidades de fita autônomas
  • Empilhadores de fita
  • Silos de fita

Tape Media

Existem várias variedades de mídia de fita. Alguns padrões de mídia de fita estão listados na tabela abaixo -

Mídia de fita Capacidade Taxas de I / O
DLT 40 GB 3 MB / s
3490e 1,6 GB 3 MB / s
8 mm 14 GB 1 MB / s

Outros fatores que precisam ser considerados são os seguintes -

  • Confiabilidade do meio de fita
  • Custo do meio de fita por unidade
  • Scalability
  • Custo de atualizações para sistema de fita
  • Custo do meio de fita por unidade
  • Vida útil do meio de fita

Standalone Tape Drives

As unidades de fita podem ser conectadas das seguintes maneiras -

  • Direto para o servidor
  • Como dispositivos disponíveis na rede
  • Remotamente para outra máquina

Pode haver problemas ao conectar as unidades de fita a um data warehouse.

  • Considere que o servidor é uma máquina MPP de 48 nós. Não sabemos o nó para conectar a unidade de fita e não sabemos como distribuí-los pelos nós do servidor para obter o desempenho ideal com o mínimo de interrupção do servidor e menor latência de E / S interna.

  • Conectar a unidade de fita como um dispositivo disponível na rede requer que a rede esteja à altura das altas taxas de transferência de dados. Certifique-se de que haja largura de banda suficiente disponível durante o tempo que você precisar.

  • Conectar as unidades de fita remotamente também requer alta largura de banda.

Empilhadores de fita

O método de carregar várias fitas em uma única unidade de fita é conhecido como empilhadores de fita. O empilhador desmonta a fita atual quando termina com ela e carrega a próxima fita, portanto, apenas uma fita está disponível por vez para ser acessada. O preço e os recursos podem variar, mas a capacidade comum é que eles podem realizar backups autônomos.

Silos de fita

Silos de fita fornecem grandes capacidades de armazenamento. Silos de fitas podem armazenar e gerenciar milhares de fitas. Eles podem integrar várias unidades de fita. Eles têm o software e o hardware para etiquetar e armazenar as fitas que armazenam. É muito comum que o silo seja conectado remotamente por uma rede ou link dedicado. Devemos garantir que a largura de banda da conexão esteja à altura do trabalho.

Backups de disco

Os métodos de backups de disco são -

  • Backups de disco para disco
  • Quebra de espelho

Esses métodos são usados ​​no sistema OLTP. Esses métodos minimizam o tempo de inatividade do banco de dados e maximizam a disponibilidade.

Disk-to-Disk Backups

Aqui, o backup é feito no disco e não na fita. Os backups de disco para disco são feitos pelos seguintes motivos -

  • Velocidade dos backups iniciais
  • Velocidade de restauração

Fazer backup dos dados de disco para disco é muito mais rápido do que para a fita. No entanto, é a etapa intermediária do backup. Mais tarde, o backup dos dados é feito na fita. A outra vantagem dos backups de disco para disco é que eles fornecem uma cópia online do backup mais recente.

Mirror Breaking

A ideia é ter discos espelhados para resiliência durante a jornada de trabalho. Quando o backup é necessário, um dos conjuntos de espelhos pode ser quebrado. Essa técnica é uma variante dos backups de disco para disco.

Note - O banco de dados pode precisar ser encerrado para garantir a consistência do backup.

Jukeboxes óticas

Jukeboxes óticas permitem que os dados sejam armazenados próximos à linha. Esta técnica permite que um grande número de discos óticos sejam gerenciados da mesma maneira que um empilhador ou um silo de fita. A desvantagem dessa técnica é que ela tem uma velocidade de gravação mais lenta do que os discos. Mas a mídia óptica oferece longa vida útil e confiabilidade, o que os torna uma boa escolha de meio para arquivamento.

Backups de software

Existem ferramentas de software disponíveis que ajudam no processo de backup. Essas ferramentas de software vêm como um pacote. Essas ferramentas não apenas fazem backup, mas podem gerenciar e controlar efetivamente as estratégias de backup. Existem muitos pacotes de software disponíveis no mercado. Alguns deles estão listados na tabela a seguir -

Nome do pacote Fornecedor
Networker Legato
ADSM IBM
Época Epoch Systems
Omniback II HP
Alexandria Sequent

Critérios para escolher pacotes de software

Os critérios para escolher o melhor pacote de software estão listados abaixo -

  • Quão escalonável é o produto conforme as unidades de fita são adicionadas?
  • O pacote tem a opção cliente-servidor ou deve ser executado no próprio servidor de banco de dados?
  • Funcionará em ambientes de cluster e MPP?
  • Que grau de paralelismo é necessário?
  • Quais plataformas são suportadas pelo pacote?
  • O pacote oferece acesso fácil a informações sobre o conteúdo da fita?
  • O banco de dados do pacote está ciente?
  • Que unidade de fita e mídia de fita são suportadas pelo pacote?