Indexes - O sistema OLTP tem apenas alguns índices, enquanto em um sistema OLAP há muitos índices para otimização de desempenho.

Joins - Em um sistema OLTP, um grande número de junções e dados são normalizados, no entanto, em um sistema OLAP há menos junções e desnormalizados.

Aggregation - Em um sistema OLTP, os dados não são agregados, enquanto em um banco de dados OLAP mais agregações são usadas.

Há uma área de teste que é necessária durante o carregamento do ETL. Existem várias razões pelas quais uma área de teste é necessária -

Como os sistemas de origem estão disponíveis apenas por um período específico de tempo para extrair dados e este tempo é menor que o tempo total de carregamento de dados, a área de preparação permite que você extraia os dados do sistema de origem e os mantenha na área de preparação antes que o intervalo de tempo termine.

A área de teste é necessária quando você deseja obter dados de várias fontes de dados juntas. Se você deseja unir dois ou mais sistemas. Exemplo- Você não poderá realizar uma consulta SQL juntando duas tabelas de dois bancos de dados fisicamente diferentes.

O intervalo de tempo de extrações de dados para sistemas diferentes varia de acordo com o fuso horário e horas operacionais.

Os dados extraídos dos sistemas de origem podem ser usados ​​em vários sistemas de armazenamento de dados, armazenamentos de dados de operação, etc.

Durante o ETL, você pode realizar transformações complexas que permitem realizar transformações complexas e exigir área extra para armazenar os dados.

SAP BO Data Services é uma ferramenta ETL usada para integração de dados, qualidade de dados, criação de perfis de dados e processamento de dados e permite que você integre e transforme dados confiáveis ​​em um sistema de data warehouse para relatórios analíticos.

O BO Data Services consiste em uma interface de desenvolvimento de IU, repositório de metadados, conectividade de dados com o sistema de origem e destino e console de gerenciamento para agendamento de trabalhos.

Você também pode dividir a arquitetura BODS nas camadas inferiores -

Camada de aplicativo da Web, Camada de servidor de banco de dados, Camada de serviço de dados.

Repositório é usado para armazenar metadados de objetos usados ​​no BO Data Services. Cada repositório deve ser registrado no Central Management Console CMC e estar vinculado a um ou vários servidores de trabalho que são responsáveis ​​pela execução de trabalhos criados por você.

Existem três tipos de Repositórios -

Local Repository -

Ele é usado para armazenar os metadados de todos os objetos criados no Data Services Designer, como projeto, trabalhos, fluxo de dados, fluxo de trabalho, etc.

Central Repository -

Ele é usado para controlar o gerenciamento de versão dos objetos e é usado para desenvolvimento multiuso. O Repositório Central armazena todas as versões de um objeto de aplicativo para que você possa mover para versões anteriores.

Profiler Repository -

Isso é usado para gerenciar todos os metadados relacionados às tarefas do profiler realizadas no designer SAP BODS. O repositório CMS armazena metadados de todas as tarefas realizadas no CMC na plataforma de BI. O Information Steward Repository armazena todos os metadados de tarefas e objetos de criação de perfil criados no gerenciador de informações.

Reusable Objects -

A maioria dos objetos armazenados no repositório podem ser reutilizados. Quando um objeto reutilizável é definido e salvo no repositório local, você pode reutilizar o objeto criando chamadas para a definição. Cada objeto reutilizável tem apenas uma definição e todas as chamadas para esse objeto se referem a essa definição. Agora, se a definição de um objeto é alterada em um lugar, você está alterando a definição do objeto em todos os lugares onde esse objeto aparece.

Uma biblioteca de objetos é usada para conter a definição do objeto e quando um objeto é arrastado e solto da biblioteca, isso significa que uma nova referência a um objeto existente é criada.

Single Use Objects -

Todos os objetos definidos especificamente para um trabalho ou fluxo de dados são chamados de objetos de uso único. Transformação específica de exemplo usada em qualquer carregamento de dados.

O armazenamento de dados é usado para configurar a conexão entre um aplicativo e o banco de dados. Você pode criar um Datastore diretamente ou pode ser criado com a ajuda de adaptadores. O Datastore permite que um aplicativo / software leia ou grave metadados de um aplicativo ou banco de dados e grave nesse banco de dados ou aplicativo.

Para criar o Repositório BODS, você precisa de um banco de dados instalado. Você pode usar SQL Server, banco de dados Oracle, My SQL, SAP HANA, Sybase, etc. Você deve criar os usuários abaixo no banco de dados durante a instalação do BODS e para criar Repositórios. Esses usuários são obrigados a fazer login em diferentes servidores CMS Server, Audit Server. Para criar um novo repositório, você deve fazer o login no Repository manager.

As tarefas em tempo real "extraem" dados do corpo da mensagem em tempo real recebida e de quaisquer fontes secundárias usadas na tarefa.

O repositório central é usado para controlar o gerenciamento de versão dos objetos e é usado para desenvolvimento multiuso. O Repositório Central armazena todas as versões de um objeto de aplicativo para que você possa mover para versões anteriores.

Console de gerenciamento de serviços de dados

No Data Services, você pode criar uma tabela de modelo para mover para o sistema de destino que possui a mesma estrutura e tipo de dados da tabela de origem.

Console de gerenciamento DS → Histórico de execução de tarefas

É uma ferramenta de desenvolvedor usada para criar objetos que consistem em mapeamento de dados, transformação e lógica. É baseado em GUI e funciona como designer para Data Services.

Você pode criar vários objetos usando Data Services Designer como Projeto, Trabalhos, Fluxo de Trabalho, Fluxo de Dados, mapeamento, transformações, etc.

Na biblioteca de objetos no DS Designer

Você pode criar Datastore usando memória como tipo de banco de dados. O armazenamento de dados de memória é usado para melhorar o desempenho dos fluxos de dados em trabalhos em tempo real, pois ele armazena os dados na memória para facilitar o acesso rápido e não requer ir para a fonte de dados original.

Um Datastore de memória é usado para armazenar esquemas de tabela de memória no repositório. Essas tabelas de memória obtêm dados de tabelas no banco de dados relacional ou usando arquivos de dados hierárquicos como mensagem XML e IDocs.

As tabelas de memória permanecem vivas até que o trabalho seja executado e os dados nas tabelas de memória não possam ser compartilhados entre diferentes trabalhos em tempo real.

Existem vários fornecedores de banco de dados que fornecem apenas um caminho de comunicação de um banco de dados para outro. Esses caminhos são conhecidos como links de banco de dados. No SQL Server, o servidor vinculado permite um caminho de comunicação unilateral de um banco de dados para outro.

Example -

Considere um nome de servidor de banco de dados local “Produto” armazena link de banco de dados para acessar informações no servidor de banco de dados remoto chamado Cliente. Agora, os usuários que estão conectados ao servidor de banco de dados remoto Cliente não podem usar o mesmo link para acessar dados no produto do servidor de banco de dados. O usuário conectado ao “Cliente” deve ter um link separado no dicionário de dados do servidor para acessar os dados no servidor de banco de dados do Produto.

Esse caminho de comunicação entre dois bancos de dados é chamado de link de banco de dados e Datastores, que são criados entre esses relacionamentos de banco de dados vinculados, são conhecidos como Datastores vinculados.

Existe a possibilidade de conectar o Datastore a outro Datastore e importar um link de banco de dados externo como opção do Datastore.

O Adapter Datastore permite importar metadados do aplicativo para o repositório. Você também pode acessar metadados de aplicativos e também mover dados em lote e em tempo real entre diferentes aplicativos e softwares.

  • Delimited
  • Transporte SAP
  • Texto Não Estruturado
  • Binário Não Estruturado
  • Largura fixa

Você pode usar a pasta de trabalho do Microsoft Excel como fonte de dados usando formatos de arquivo no Data Services. A pasta de trabalho do Excel deve estar disponível no sistema de arquivos Windows ou no sistema de arquivos Unix.

O fluxo de dados é usado para extrair, transformar e carregar dados do sistema de origem para o sistema de destino. Todas as transformações, carregamento e formatação ocorrem no fluxo de dados.

  • Source
  • Target
  • Transforms
  • Execute uma vez
  • Parallelism
  • Links de banco de dados
  • Cache

Os fluxos de trabalho são usados ​​para determinar o processo de execução dos fluxos de trabalho. O objetivo principal do fluxo de trabalho é preparar-se para executar os fluxos de dados e definir o estado do sistema quando a execução do fluxo de dados for concluída.

  • Fluxo de trabalho
  • Fluxo de dados
  • Scripts
  • Loops
  • Conditions
  • Experimente ou pegue os blocos

sim

Há uma tabela de fatos que você deseja atualizar e você criou um fluxo de dados com a transformação. Agora, se você deseja mover os dados do sistema de origem, deve verificar a última modificação da tabela de fatos para extrair apenas as linhas que foram adicionadas após a última atualização.

Para conseguir isso, você deve criar um script que determina a data da última atualização e, em seguida, passar isso como parâmetro de entrada para o fluxo de dados.

Você também deve verificar se a conexão de dados com uma tabela de fatos específica está ativa ou não. Se não estiver ativo, você precisa configurar um bloco de captura que envia automaticamente um e-mail ao administrador para notificar sobre este problema.

Você também pode adicionar condicionais ao fluxo de trabalho. Isso permite que você implemente a lógica If / Else / Then nos fluxos de trabalho.

As transformações são usadas para manipular conjuntos de dados como entradas e criar uma ou várias saídas. Existem várias transformações que podem ser usadas no Data Services.

  • Integração de dados
  • Qualidade de Dados
  • Platform
  • Merge
  • Query
  • Processamento de dados de texto
  • Data_Generator
  • Data_Transfer
  • Effective_Date
  • Hierarchy_flattening
  • Table_Comparision, etc.

Esta é a transformação mais comum usada em Data Services e você pode executar as funções abaixo -

  • Filtragem de dados de fontes

  • Junção de dados de várias fontes

  • Execute funções e transformações em dados

  • Mapeamento de coluna dos esquemas de entrada para saída

  • Atribuição de chaves primárias

  • Adicionar novas colunas, esquemas e funções resultantes aos esquemas de saída

  • Como a transformação de consulta é a transformação mais comumente usada, um atalho é fornecido para essa consulta na paleta de ferramentas.

Isso permite que você extraia as informações específicas de um grande volume de texto. Você pode pesquisar fatos e entidades, como clientes, produtos e fatos financeiros específicos de uma organização.

Essa transformação também verifica o relacionamento entre entidades e permite a extração.

Os dados extraídos usando processamento de dados de texto podem ser usados ​​em Business Intelligence, Reporting, query e analytics.

O processamento de dados de texto é usado para localizar informações relevantes de dados de texto não estruturados, no entanto, a limpeza de dados é usada para padronização e limpeza de dados estruturados.

Você pode criar trabalhos em tempo real para processar mensagens em tempo real no designer de Data Services. Como um trabalho em lote, o trabalho em tempo real extrai os dados, os transforma e carrega.

Cada trabalho em tempo real pode extrair dados de uma única mensagem ou você também pode extrair dados de outras fontes, como tabelas ou arquivos.

Transformar como ramificações e lógica de controle são usadas com mais frequência em trabalhos em tempo real, ao contrário dos trabalhos em lote no designer.

Os trabalhos em tempo real não são executados em resposta a uma programação ou gatilho interno, ao contrário dos trabalhos em lote.

O fluxo de dados incorporado é conhecido como fluxos de dados que são chamados de outro fluxo de dados no design. O fluxo de dados integrado pode conter vários números de origem e destinos, mas apenas uma entrada ou saída de dados de passagem para o fluxo de dados principal.

One Input - Fluxo de dados embutido é adicionado no final do fluxo de dados.

One Output - Fluxo de dados incorporado é adicionado no início de um fluxo de dados.

No input or output - Replique um fluxo de dados existente.

Variáveis ​​locais em serviços de dados são restritas ao objeto no qual são criadas.

As variáveis ​​globais são restritas aos empregos nos quais são criadas. Usando variáveis ​​globais, você pode alterar os valores das variáveis ​​globais padrão em tempo de execução.

As expressões que são usadas no fluxo de trabalho e fluxo de dados são chamadas de parâmetros.

Todas as variáveis ​​e parâmetros no fluxo de trabalho e fluxos de dados são mostrados na janela de variáveis ​​e parâmetros.

Recuperação automática - permite que você execute trabalhos malsucedidos no modo de recuperação.

Recuperação manual - permite que você execute novamente as tarefas sem considerar a execução parcial do tempo anterior.

O Data Services Designer fornece um recurso de Criação de Perfil de Dados para garantir e melhorar a qualidade e a estrutura dos dados de origem. O Data Profiler permite que você -

Encontre anomalias nos dados de origem, validação e ação corretiva e qualidade dos dados de origem.

A estrutura e o relacionamento dos dados de origem para uma melhor execução de jobs, fluxos de trabalho e fluxos de dados.

O conteúdo do sistema de origem e destino para determinar se seu trabalho retorna o resultado conforme o esperado.

O desempenho de um trabalho ETL depende do sistema no qual você está usando o software Data Services, número de movimentos, etc. Existem vários outros fatores que contribuem para o desempenho em uma tarefa ETL -

  • Base de dados de origem
  • Sistema operacional de origem
  • Banco de dados de destino
  • Sistema operacional de destino
  • Network
  • Sistema operacional do servidor de trabalho
  • Banco de dados do repositório BODs

SAP BO Data Services oferece suporte ao desenvolvimento multiusuário, onde cada usuário pode trabalhar no aplicativo em seu próprio repositório local. Cada equipe usa o repositório central para salvar a cópia principal de um aplicativo e todas as versões dos objetos no aplicativo.

No SAP Data Services, a migração de trabalho pode ser aplicada em diferentes níveis - nível de aplicativo, nível de repositório, nível de atualização.

Para copiar o conteúdo de um repositório central para outro repositório central, você não pode fazer isso diretamente e você precisa fazer uso do repositório local.

Primeiro é obter a versão mais recente de todos os objetos do repositório central para o repositório local. Ative o repositório central no qual deseja copiar o conteúdo.

Adicione todos os objetos que deseja copiar do repositório local para o repositório central.

Se você atualizar a versão do SAP Data Services, será necessário atualizar a versão do Repositório. Os pontos abaixo devem ser considerados ao migrar um repositório central para atualizar a versão -

Point 1

Faça o backup do repositório central de todas as tabelas e objetos.

Point 2

Para manter a versão de objetos em serviços de dados, mantenha um repositório central para cada versão. Crie um novo histórico central com a nova versão do software Data Services e copie todos os objetos para este repositório.

Point 3

É sempre recomendado que se você instalar uma nova versão do Data Services, você deve atualizar seu repositório central para uma nova versão de objetos.

Point 4

Além disso, atualize seu repositório local para a mesma versão de uma versão diferente do repositório central e local pode não funcionar ao mesmo tempo.

Point 5

Antes de migrar o repositório central, faça check-in de todos os objetos. Como você não atualiza o repositório central e local simultaneamente, é necessário fazer o check-in de todos os objetos. Como depois de ter seu repositório central atualizado para a nova versão, você não poderá fazer check-in de objetos do repositório local que possui uma versão mais antiga do Data Services.

SCDs são dimensões que possuem dados que mudam com o tempo.

SCD Tipo 1 Sem preservação de histórico

Consequência natural da normalização

SCD Tipo 2 Preservando todo o histórico e novas linhas

Existem novas linhas geradas para mudanças significativas

Você precisa usar uma chave única

Novos campos são gerados para armazenar dados históricos

Você precisa gerenciar um campo Effective_Date.

SCD Tipo 3 Preservação de histórico limitada

Neste, apenas dois estados de dados são preservados - atual e antigo

Não, o formato do arquivo não é um tipo de armazenamento de dados.