SAP BODS - Guia rápido

Um data warehouse é conhecido como um repositório central para armazenar os dados de uma ou várias fontes de dados heterogêneas. O data warehouse é usado para relatar e analisar informações e armazena dados históricos e atuais. Os dados no sistema DW são usados ​​para relatórios analíticos, que depois são usados ​​por analistas de negócios, gerentes de vendas ou trabalhadores do conhecimento para a tomada de decisões.

Os dados no sistema DW são carregados de um sistema de transação operacional como Vendas, Marketing, RH, SCM, etc. Eles podem passar pelo armazenamento de dados operacionais ou outras transformações antes de serem carregados no sistema DW para processamento de informações.

Data Warehouse - Principais Características

Os principais recursos de um sistema DW são -

  • É um repositório central de dados onde os dados são armazenados de uma ou mais fontes de dados heterogêneas.

  • Um sistema DW armazena dados atuais e históricos. Normalmente, um sistema DW armazena de 5 a 10 anos de dados históricos.

  • Um sistema DW é sempre mantido separado de um sistema de transação operacional.

  • Os dados no sistema DW são usados ​​para diferentes tipos de relatórios analíticos, desde comparação trimestral até comparação anual.

Necessidade de um sistema DW

Suponha que você tenha uma agência de crédito imobiliário onde os dados vêm de vários aplicativos, como marketing, vendas, ERP, HRM, MM, etc. Esses dados são extraídos, transformados e carregados no Data Warehouse.

Por exemplo, se você tiver que comparar as vendas trimestrais / anuais de um produto, não poderá usar um banco de dados transacional operacional, pois isso travará o sistema de transações. Portanto, um Data Warehouse é usado para essa finalidade.

Diferença entre DW e ODB

As diferenças entre um Data Warehouse e um Banco de Dados Operacional (Banco de Dados Transacional) são as seguintes -

  • Um sistema transacional é projetado para cargas de trabalho e transações conhecidas, como atualização de um registro de usuário, pesquisa de um registro, etc. No entanto, as transações de data warehouse são mais complexas e apresentam uma forma geral de dados.

  • Um sistema transacional contém os dados atuais de uma organização e o data warehouse normalmente contém os dados históricos.

  • O sistema transacional oferece suporte ao processamento paralelo de várias transações. Os mecanismos de controle e recuperação de simultaneidade são necessários para manter a consistência do banco de dados.

  • Uma consulta de banco de dados operacional permite ler e modificar operações (excluir e atualizar), enquanto uma consulta OLAP precisa apenas de acesso somente leitura dos dados armazenados (instrução Select).

Arquitetura DW

Data Warehousing envolve limpeza de dados, integração de dados e consolidações de dados.

Um Data Warehouse tem uma arquitetura de 3 camadas - Data Source Layer, Integration Layer, e Presentation Layer. A ilustração fornecida acima mostra a arquitetura comum de um sistema de Data Warehouse.

Existem quatro tipos de sistema de Data Warehousing.

  • Data Mart
  • Processamento Analítico Online (OLAP)
  • Processamento Transacional Online (OLTP)
  • Análise preditiva (PA)

Data Mart

Um Data Mart é conhecido como a forma mais simples de um sistema de Data Warehouse e normalmente consiste em uma única área funcional em uma organização, como vendas, finanças ou marketing, etc.

Data Mart em uma organização e é criado e gerenciado por um único departamento. Por pertencer a um único departamento, o departamento geralmente obtém dados de apenas alguns ou de um tipo de fontes / aplicativos. Essa fonte pode ser um sistema operacional interno, um data warehouse ou um sistema externo.

Processamento analítico online

Em um sistema OLAP, há menos número de transações em comparação com um sistema transacional. As consultas executadas são de natureza complexa e envolvem agregações de dados.

O que é uma agregação?

Salvamos tabelas com dados agregados como anual (1 linha), trimestral (4 linhas), mensal (12 linhas) ou então, se alguém tiver que fazer uma comparação ano a ano, apenas uma linha será processada. No entanto, em uma tabela não agregada, ele comparará todas as linhas.

SELECT SUM(salary)
FROM employee
WHERE title = 'Programmer';

Medidas eficazes em um sistema OLAP

O tempo de resposta é conhecido como uma das medidas mais eficazes e essenciais em um OLAPsistema. Os dados armazenados agregados são mantidos em esquemas multidimensionais como esquemas em estrela (quando os dados são organizados em grupos hierárquicos, frequentemente chamados de dimensões e em fatos e fatos agregados, é chamado de Esquemas).

A latência de um sistema OLAP é de algumas horas em comparação com os data marts, onde a latência é esperada para perto de um dia.

Processamento de transação online

Em um sistema OLTP, há um grande número de transações on-line curtas, como INSERT, UPDATE e DELETE.

Em um sistema OLTP, uma medida eficaz é o tempo de processamento de transações curtas e é muito menor. Ele controla a integridade dos dados em ambientes multiacesso. Para um sistema OLTP, o número de transações por segundo mede oeffectiveness. Um sistema de data warehouse OLTP contém dados atuais e detalhados e é mantido nos esquemas no modelo de entidade (3NF).

Exemplo

Sistema de transações do dia-a-dia em uma loja de varejo, onde os registros do cliente são inseridos, atualizados e excluídos diariamente. Ele fornece um processamento de consulta muito rápido. Os bancos de dados OLTP contêm dados detalhados e atuais. O esquema usado para armazenar o banco de dados OLTP é o modelo de entidade.

Diferenças entre OLTP e OLAP

As ilustrações a seguir mostram as principais diferenças entre um OLTP e OLAP sistema.

  • Indexes - O sistema OLTP tem apenas alguns índices, enquanto em um sistema OLAP há muitos índices para otimização de desempenho.

  • Joins- Em um sistema OLTP, um grande número de junções e dados são normalizados. No entanto, em um sistema OLAP, há menos junções e são desnormalizados.

  • Aggregation - Em um sistema OLTP, os dados não são agregados, enquanto em um banco de dados OLAP mais agregações são usadas.

Análise Preditiva

A análise preditiva é conhecida como encontrar os padrões ocultos nos dados armazenados no sistema DW usando diferentes funções matemáticas para prever resultados futuros.

O sistema de análise preditiva é diferente de um sistema OLAP em termos de uso. É usado para focar em resultados futuros. Um sistema OALP concentra-se no processamento de dados atuais e históricos para relatórios analíticos.

Existem vários sistemas de data warehouse / banco de dados disponíveis no mercado que atendem aos recursos de um sistema DW. Os fornecedores mais comuns de sistemas de data warehouse são -

  • Microsoft SQL Server
  • Oracle Exadata
  • IBM Netezza
  • Teradata
  • Sybase IQ
  • SAP Business Warehouse (SAP BW)

SAP Business Warehouse

SAP Business Warehousefaz parte da plataforma de lançamento SAP NetWeaver. Antes do NetWeaver 7.4, ele era conhecido como SAP NetWeaver Business Warehouse.

Data warehouse no SAP BW significa integração, transformação, limpeza de dados, armazenamento e preparação de dados. O processo de DW inclui modelagem de dados no sistema BW, preparação e administração. A principal ferramenta, que é usada para gerenciar tarefas DW no sistema BW, é o workbench de administração.

Características principais

  • SAP BW oferece recursos como Business Intelligence, que inclui serviços analíticos e planejamento de negócios, relatórios analíticos, processamento de consultas e informações e armazenamento de dados corporativos.

  • Ele fornece uma combinação de bancos de dados e ferramentas de gerenciamento de banco de dados que ajudam na tomada de decisões.

  • Outros recursos principais do sistema BW incluem Business Application Programming Interface (BAPI) que suporta conexão com aplicativos não SAP R / 3, extração e carregamento de dados automatizados, um processador OLAP integrado, repositório de metadados, ferramentas de administração, suporte multilíngue e um interface habilitada para web.

  • SAP BW foi introduzido pela primeira vez em 1998 pela SAP, uma empresa alemã. O sistema SAP BW foi baseado em uma abordagem baseada em modelo para tornar o Enterprise Data Warehouse fácil, simples e mais eficiente para dados SAP R3.

  • Nos últimos 16 anos, SAP BW evoluiu como um dos principais sistemas para muitas empresas gerenciarem suas necessidades de data warehouse empresarial.

  • The Business Explorer (BEx) oferece uma opção para relatórios flexíveis, análises estratégicas e relatórios operacionais na empresa.

  • É usado para realizar relatórios, execução de consultas e funções de análise no sistema de BI. Você também pode processar dados atuais e históricos em vários níveis de detalhes na Web e no formato Excel.

  • Usando BEx transmissão de informações, o conteúdo de BI pode ser compartilhado por e-mail como documento ou na forma de links como dados ao vivo ou você também pode publicar usando as funções SAP EP.

Objetos e produtos comerciais

SAP Business Objects é conhecido como a ferramenta de Business Intelligence mais comum e é usado para manipular dados, acesso de usuários, analisar, formatar e publicar informações em diferentes plataformas. É um conjunto de ferramentas baseado em front-end, que permite aos usuários de negócios e tomadores de decisão exibir, classificar e analisar dados atuais e históricos de inteligência de negócios.

É composto pelas seguintes ferramentas -

Web Intelligence

Web Intelligence (WebI) é chamada como a ferramenta de relatório detalhado de Business Objects mais comum que oferece suporte a vários recursos de análise de dados, como broca, hierarquias, gráficos, medidas calculadas, etc. Permite que os usuários finais criem consultas ad-hoc no painel de consulta e para realizar análises de dados online e offline.

SAP Business Objects Xcelsius / Dashboards

Os painéis fornecem visualização de dados e recursos de painel para os usuários finais e você pode criar painéis interativos usando esta ferramenta.

Você também pode adicionar vários tipos de tabelas e gráficos e criar painéis dinâmicos para visualizações de dados, que são usados ​​principalmente em reuniões financeiras em uma organização.

Crystal Reports

Crystal Reports são usados ​​para relatórios de pixels perfeitos. Isso permite que os usuários criem e projetem relatórios e, posteriormente, os utilizem para impressão.

Explorador

O Explorer permite que um usuário pesquise o conteúdo no repositório de BI e as melhores correspondências são mostradas na forma de gráficos. Não há necessidade de anotar as consultas para realizar a pesquisa.

Vários outros componentes e ferramentas introduzidos para relatórios detalhados, visualização de dados e propósito de painel são Design Studio, edição Analysis para Microsoft Office, BI Repository e plataforma Business Objects Mobile.

ETL significa Extract, Transform and Load. Uma ferramenta ETL extrai os dados de diferentes sistemas de origem RDBMS, transforma os dados como aplicação de cálculos, concatena, etc. e, em seguida, carrega os dados para o sistema de Data Warehouse. Os dados são carregados no sistema DW na forma de tabelas de dimensões e fatos.

Extração

  • Uma área de teste é necessária durante o carregamento de ETL. Existem várias razões pelas quais a área de teste é necessária.

  • Os sistemas de origem estão disponíveis apenas por um período específico de tempo para extrair dados. Este período de tempo é menor que o tempo total de carregamento de dados. Portanto, a área de teste permite que você extraia os dados do sistema de origem e os mantenha na área de teste antes que o intervalo de tempo termine.

  • A área de teste é necessária quando você deseja obter os dados de várias fontes de dados juntos ou se deseja juntar dois ou mais sistemas. Por exemplo, você não poderá realizar uma consulta SQL juntando duas tabelas de dois bancos de dados fisicamente diferentes.

  • O intervalo de tempo das extrações de dados para diferentes sistemas varia de acordo com o fuso horário e as horas operacionais.

  • Os dados extraídos dos sistemas de origem podem ser usados ​​em vários sistemas de armazenamento de dados, armazenamentos de dados de operação, etc.

  • ETL permite que você execute transformações complexas e requer área extra para armazenar os dados.

Transformar

Na transformação de dados, você aplica um conjunto de funções aos dados extraídos para carregá-los no sistema de destino. Os dados, que não requerem nenhuma transformação, são conhecidos como movimentação direta ou passagem pelos dados.

Você pode aplicar transformações diferentes em dados extraídos do sistema de origem. Por exemplo, você pode realizar cálculos personalizados. Se você quiser receita de soma de vendas e isso não estiver no banco de dados, você pode aplicar oSUM fórmula durante a transformação e carregue os dados.

Por exemplo, se você tiver o nome e o sobrenome em uma tabela em colunas diferentes, poderá usar concatenar antes de carregar.

Carga

Durante a fase de carregamento, os dados são carregados no sistema de destino final e pode ser um arquivo simples ou um sistema de Data Warehouse.

SAP BO Data Services é uma ferramenta ETL usada para integração de dados, qualidade de dados, criação de perfis de dados e processamento de dados. Ele permite que você integre e transforme o sistema de armazenamento de dados em dados confiável para relatórios analíticos.

O BO Data Services consiste em uma interface de desenvolvimento de IU, repositório de metadados, conectividade de dados com o sistema de origem e destino e console de gerenciamento para agendamento de trabalhos.

Integração e gerenciamento de dados

SAP BO Data Services é uma ferramenta de integração e gerenciamento de dados e consiste em Data Integrator Job Server e Data Integrator Designer.

Características principais

  • Você pode aplicar várias transformações de dados usando a linguagem Data Integrator para aplicar transformações de dados complexas e construir funções personalizadas.

  • O Data Integrator Designer é usado para armazenar trabalhos em lote e em tempo real e novos projetos no repositório.

  • O DI Designer também oferece uma opção para o desenvolvimento de ETL baseado em equipe, fornecendo um repositório central com todas as funcionalidades básicas.

  • O servidor de trabalho do Data Integrator é responsável por processar trabalhos criados usando o DI Designer.

Administrador da Web

O administrador da web do Data Integrator é usado por administradores de sistema e administrador de banco de dados para manter repositórios em serviços de dados. O Data Services inclui Metadata Repository, Central Repository para desenvolvimento baseado em equipe, Job Server e Web Services.

Principais funções do DI Web Administrator

  • É usado para agendar, monitorar e executar jobs em lote.
  • É usado para configurar e iniciar e parar servidores em tempo real.
  • É usado para configurar o Job Server, o Access Server e o uso do repositório.
  • É usado para configurar adaptadores.
  • É usado para configurar e controlar todas as ferramentas do BO Data Services.

A função de gerenciamento de dados enfatiza a qualidade dos dados. Envolve limpeza de dados, aprimoramento e consolidação dos dados para obter dados corretos no sistema DW.

Neste capítulo, aprenderemos sobre a arquitetura SAP BODS. A ilustração mostra a arquitetura do sistema BODS com a área Staging.

Camada de Origem

A camada de origem inclui diferentes fontes de dados, como aplicativos SAP e sistema RDBMS não SAP, e a integração de dados ocorre na área de preparação.

SAP Business Objects Data Services inclui diferentes componentes, como Data Service Designer, Data Services Management Console, Repository Manager, Data Services Server Manager, Work bench, etc. O sistema de destino pode ser um sistema DW como SAP HANA, SAP BW ou um não SAP Sistema de data warehouse.

A captura de tela a seguir mostra os diferentes componentes do SAP BODS.

Você também pode dividir a arquitetura BODS nas seguintes camadas -

  • Camada de aplicativo da web
  • Camada de servidor de banco de dados
  • Camada de serviço de serviços de dados

A ilustração a seguir mostra a arquitetura BODS.

Evolução do produto - ATL, DI e DQ

A Acta Technology Inc. desenvolveu o SAP Business Objects Data Services e, posteriormente, a Business Objects Company o adquiriu. Acta Technology Inc. é uma empresa com sede nos Estados Unidos e foi responsável pelo desenvolvimento da plataforma de integração de primeiros dados. Os dois produtos de software ETL desenvolvidos pela Acta Inc. foram osData Integration (DI) ferramenta e o Data Management ou Data Quality (DQ) ferramenta.

Business Objects, uma empresa francesa adquiriu a Acta Technology Inc. em 2002 e, posteriormente, ambos os produtos foram renomeados como Business Objects Data Integration (BODI) ferramenta e Business Objects Data Quality (BODQ) ferramenta.

A SAP adquiriu a Business Objects em 2007 e ambos os produtos foram renomeados como SAP BODI e SAP BODQ. Em 2008, a SAP integrou ambos os produtos em um único produto de software denominado SAP Business Objects Data Services (BODS).

SAP BODS fornece integração de dados e solução de gerenciamento de dados e na versão anterior do BODS, a solução de processamento de dados de texto foi incluída.

BODS - Objetos

Todas as entidades que são usadas no BO Data Services Designer são chamadas Objects. Todos os objetos como projetos, trabalhos, metadados e funções do sistema são armazenados na biblioteca de objetos local. Todos os objetos são de natureza hierárquica.

Os objetos contêm principalmente o seguinte -

  • Properties- Eles são usados ​​para descrever um objeto e não afetam seu funcionamento. Exemplo - Nome de um objeto, data em que foi criado, etc.

  • Options - Que controlam o funcionamento dos objetos.

Tipos de Objetos

Existem dois tipos de objetos no sistema - objetos reutilizáveis ​​e objetos de uso único. O tipo de objeto determina como esse objeto é usado e recuperado.

Objetos Reutilizáveis

A maioria dos objetos armazenados no repositório pode ser reutilizada. Quando um objeto reutilizável é definido e salvo no repositório local, você pode reutilizar o objeto criando chamadas para a definição. Cada objeto reutilizável tem apenas uma definição e todas as chamadas para esse objeto se referem a essa definição. Agora, se a definição de um objeto é alterada em um lugar, você está alterando a definição do objeto em todos os lugares onde esse objeto aparece.

Uma biblioteca de objetos é usada para conter a definição do objeto e quando um objeto é arrastado e solto da biblioteca, uma nova referência a um objeto existente é criada.

Objetos de uso único

Todos os objetos definidos especificamente para um trabalho ou fluxo de dados são conhecidos como objetos de uso único. Por exemplo, transformação específica usada em qualquer carregamento de dados.

BODS - Hierarquia de objeto

Todos os objetos são de natureza hierárquica. O diagrama a seguir mostra a hierarquia de objetos no sistema SAP BODS -

BODS - Ferramentas e funções

Com base na arquitetura ilustrada abaixo, temos muitas ferramentas definidas no SAP Business Objects Data Services. Cada ferramenta tem sua própria função de acordo com o panorama do sistema.

Na parte superior, você tem os Serviços de plataforma de informações instalados para usuários e gerenciamento de segurança de direitos. O BODS depende do console de gerenciamento central (CMC) para acesso do usuário e recurso de segurança. Isso é aplicável à versão 4.x. Na versão anterior, isso era feito no console de gerenciamento.

Data Services Designer é uma ferramenta de desenvolvedor usada para criar objetos que consistem em mapeamento de dados, transformação e lógica. É baseado em GUI e funciona como um designer para Data Services.

Repositório

Repositório é usado para armazenar metadados de objetos usados ​​no BO Data Services. Cada Repositório deve ser registrado no Central Management Console e estar vinculado a um ou vários servidores de trabalho, que são responsáveis ​​pela execução de trabalhos criados por você.

Tipos de Repositórios

Existem três tipos de Repositórios.

  • Local Repository - É usado para armazenar os metadados de todos os objetos criados no Data Services Designer, como projetos, trabalhos, fluxo de dados, fluxo de trabalho, etc.

  • Central Repository- É usado para controlar o gerenciamento de versão dos objetos e é usado para desenvolvimento multiuso. O Repositório Central armazena todas as versões de um objeto de aplicativo. Conseqüentemente, ele permite que você mude para versões anteriores.

  • Profiler Repository- Isso é usado para gerenciar todos os metadados relacionados às tarefas do profiler realizadas no designer SAP BODS. O repositório CMS armazena metadados de todas as tarefas realizadas no CMC na plataforma de BI. O Information Steward Repository armazena todos os metadados de tarefas e objetos de criação de perfil criados no gerenciador de informações.

Servidor de Trabalho

O servidor de trabalho é usado para executar os trabalhos em tempo real e em lote criados por você. Ele obtém as informações do trabalho dos respectivos repositórios e inicia o mecanismo de dados para executar o trabalho. O servidor de trabalho pode executar trabalhos em tempo real ou agendados e usa multithreading no cache de memória e processamento paralelo para fornecer otimização de desempenho.

Servidor de acesso

O Access Server em Data Services é conhecido como sistema de corretor de mensagens em tempo real, que leva as solicitações de mensagens, passa para o serviço em tempo real e exibe uma mensagem em um período de tempo específico.

Console de gerenciamento de serviço de dados

O Data Service Management Console é usado para realizar atividades de administração, como agendamento de trabalhos, geração de relatórios de qualidade no sistema DS, validação de dados, documentação etc.

BODS - Padrões de Nomenclatura

É aconselhável usar convenções de nomenclatura padrão para todos os objetos em todos os sistemas, pois isso permite que você identifique objetos nos Repositórios facilmente.

A tabela mostra a lista de convenções de nomenclatura recomendadas que devem ser usadas para todos os trabalhos e outros objetos.

Prefixo Sufixo Objeto
DF_ n / D Fluxo de dados
EDF_ _Entrada Fluxo de dados embutido
EDF_ _Resultado Fluxo de dados embutido
RTJob_ n / D Trabalho em tempo real
WF_ n / D Fluxo de trabalho
TRABALHO_ n / D Trabalho
n / D _DS Banco de dados
DC_ n / D Configuração de dados
SC_ n / D Configuração do sistema
n / D _Memory_DS Armazenamento de dados de memória
PROC_ n / D Procedimento armazenado

Os fundamentos do BO Data Service incluem objetos-chave na concepção de fluxo de trabalho, como projeto, trabalho, fluxo de trabalho, fluxo de dados, repositórios.

BODS - Repositório e Tipos

Repositório é usado para armazenar metadados de objetos usados ​​no BO Data Services. Cada Repositório deve ser registrado no Central Management Console, CMC, e estar vinculado a um ou vários servidores de trabalho, que são responsáveis ​​pela execução dos trabalhos criados por você.

Tipos de Repositórios

Existem três tipos de Repositórios.

  • Local Repository - É usado para armazenar os metadados de todos os objetos criados no Data Services Designer, como projetos, trabalhos, fluxo de dados, fluxo de trabalho, etc.

  • Central Repository- É usado para controlar o gerenciamento de versão dos objetos e é usado para desenvolvimento multiuso. O Repositório Central armazena todas as versões de um objeto de aplicativo. Conseqüentemente, ele permite que você mude para versões anteriores.

  • Profiler Repository- Isso é usado para gerenciar todos os metadados relacionados às tarefas do profiler realizadas no designer SAP BODS. O repositório CMS armazena metadados de todas as tarefas realizadas no CMC na plataforma de BI. O Information Steward Repository armazena todos os metadados de tarefas e objetos de criação de perfil criados no gerenciador de informações.

Para criar o Repositório BODS, você precisa ter um banco de dados instalado. Você pode usar SQL Server, banco de dados Oracle, My SQL, SAP HANA, Sybase, etc.

Criando Repositório

Você tem que criar os seguintes usuários no banco de dados durante a instalação do BODS e para criar Repositórios. Esses usuários são obrigados a fazer login em diferentes servidores, como o CMS Server, Audit Server etc.

Criar BODS de usuário identificados por Bodsserver1

  • Grant Connect to BODS;
  • Conceda Criar Sessão para BODS;
  • Conceder DBA para BODS;
  • Conceda Criar Qualquer Tabela para BODS;
  • Conceda a criação de qualquer visão para BODS;
  • Conceda Drop Any Table para BODS;
  • Conceda a eliminação de qualquer visualização para BODS;
  • Conceda inserir qualquer tabela para BODS;
  • Conceder atualização de qualquer tabela para BODS;
  • Conceda Excluir qualquer tabela para BODS;
  • Alterar COTAÇÃO DE CORPOS DE USUÁRIO ILIMITADA PARA USUÁRIOS;

Criar CMS de usuário identificado por CMSserver1

  • Conceder conexão ao CMS;
  • Conceda Criar Sessão ao CMS;
  • Conceder DBA ao CMS;
  • Conceda Criar Qualquer Tabela ao CMS;
  • Conceda a criação de qualquer visualização ao CMS;
  • Conceda a eliminação de qualquer tabela ao CMS;
  • Conceda Drop Any View para CMS;
  • Conceda inserir qualquer tabela ao CMS;
  • Conceder atualização de qualquer tabela ao CMS;
  • Conceda Excluir qualquer tabela ao CMS;
  • Alterar COTA DE USUÁRIO CMS ILIMITADA PARA USUÁRIOS;

Criar usuário CMSAUDIT identificado por CMSAUDITserver1

  • Grant Connect para CMSAUDIT;
  • Conceder sessão de criação para CMSAUDIT;
  • Conceder DBA para CMSAUDIT;
  • Conceda Criar Qualquer Tabela para CMSAUDIT;
  • Conceda Criar Qualquer Visualização para CMSAUDIT;
  • Conceda a eliminação de qualquer tabela para CMSAUDIT;
  • Conceda Drop Any View para CMSAUDIT;
  • Conceda inserir qualquer tabela para CMSAUDIT;
  • Conceder atualização de qualquer tabela para CMSAUDIT;
  • Conceda Excluir qualquer tabela para CMSAUDIT;
  • Alterar COTA DE CMSAUDIT DO USUÁRIO ILIMITADA PARA USUÁRIOS;

Para criar um novo Repositório após a instalação

Step 1 - Crie um banco de dados Local_Repoe vá para Data Services Repository Manager. Configure o banco de dados como repositório local.

Uma nova janela se abrirá.

Step 2 - Insira os detalhes nos seguintes campos -

Tipo de repositório, tipo de banco de dados, nome do servidor de banco de dados, porta, nome de usuário e senha.

Step 3 - Clique no Createbotão. Você receberá a seguinte mensagem -

Step 4 - Agora faça login no Console de gerenciamento central CMC em SAP BI Platform com nome de usuário e senha.

Step 5 - Na página inicial do CMC, clique em Data Services.

Step 6 - Do Data Services menu, clique Configure a new Data Services Repositório.

Step 7 - Insira os detalhes conforme fornecidos na nova janela.

  • Nome do repositório: Local_Repo
  • Tipo de base de dados: SAP HANA
  • Nome do servidor da base de dados: melhor
  • Nome do banco de dados: LOCAL_REPO
  • Nome do usuário:
  • Password:*****

Step 8 - Clique no botão Test Connection e se tiver sucesso, clique Save. Depois de salvar, ele aparecerá na guia Repositório no CMC.

Step 9 - Aplicar direitos de acesso e segurança no repositório local em CMC → User and Groups.

Step 10 - Depois que o acesso for concedido, vá para Data Services Designer → Selecione Repository → Insira o nome de usuário e a senha para fazer o login.

Atualizando o Repositório

Para atualizar um repositório, siga as etapas fornecidas.

Step 1 - Para atualizar um Repositório após a instalação, crie um banco de dados Local_Repo e vá para Data Services Repository Manager.

Step 2 - Configure o banco de dados como repositório local.

Uma nova janela se abrirá.

Step 3 - Insira os detalhes para os campos a seguir.

Tipo de repositório, tipo de banco de dados, nome do servidor de banco de dados, porta, nome de usuário e senha.

Você verá a saída conforme mostrado na captura de tela mostrada abaixo.

O Data Service Management Console (DSMC) é usado para realizar atividades de administração, como agendamento de trabalhos, geração de relatórios de qualidade no sistema DS, validação de dados, documentação etc.

Você pode acessar o console de gerenciamento de serviços de dados das seguintes maneiras -

Você pode acessar o console de gerenciamento de serviços de dados indo para Start → All Programs → Data Services → Data Service Management Console.

Você também pode acessar o console de gerenciamento de serviços de dados via Designer se você já estiver logado.

Para acessar o console de gerenciamento de serviços de dados via Designer Home Page siga as etapas fornecidas abaixo.

Para acessar o console de gerenciamento de serviços de dados por meio de Ferramentas, siga as etapas fornecidas -

Step 1 - Vá para Tools → Data Services Management Console conforme mostrado na imagem a seguir.

Step 2 - Depois de fazer login no Data Services Management Console, a tela inicial será aberta conforme mostrado na captura de tela fornecida abaixo. Na parte superior, você pode ver o nome do usuário através do qual você está conectado.

Na página inicial, você verá as seguintes opções -

  • Administrator
  • Auto Documentação
  • Data de validade
  • Análise de impacto e linhagem
  • Painel Operacional
  • Relatórios de qualidade de dados

As principais funções de cada módulo do Data Services Management Console são explicadas neste capítulo.

Módulo Administrador

Uma opção de administrador é usada para gerenciar -

  • Usuários e funções
  • Para adicionar conexões para acessar servidores e repositórios
  • Para acessar os dados de trabalho publicados para serviços da web
  • Para agendamento e monitoramento de jobs batch
  • Para verificar o status do servidor de acesso e serviços em tempo real.

Depois de clicar no Administratorguia, você pode ver muitos links no painel esquerdo. Eles são - Status, Lote, Serviços da Web, Conexões SAP, Grupos de servidores, Gerenciamento de repositórios do Profiler e Histórico de execução de trabalhos.

Nós

Os vários nós no módulo Administrador são discutidos abaixo.

Status

O nó Status é usado para verificar o status de trabalhos em lote e em tempo real, acessar o status do servidor, adaptador e repositórios de perfil e outros status do sistema.

Clique em Status → Selecionar um Repositório

No painel direito, você verá as guias das seguintes opções -

Batch Job Status- É usado para verificar o status do trabalho em lote. Você pode verificar as informações do trabalho, como rastreamento, monitor, erro e monitor de desempenho, hora de início, hora de término, duração, etc.

Batch Job Configuration - A configuração da tarefa em lote é usada para verificar a programação de tarefas individuais ou você pode adicionar uma ação, como Executar, Adicionar Programação, Exportar Comando de Execução.

Repositories Schedules - É usado para visualizar e configurar agendamentos para todos os trabalhos no repositório.

Nó de lote

No nó Trabalho em lote, você verá as mesmas opções acima.

Sr. Não. Opção e descrição
1

Batch Job Status

Visualize o status da última execução e informações detalhadas sobre cada trabalho.

2

Batch Job Configuration

Configure as opções de execução e agendamento para trabalhos individuais.

3

Repository Schedules

Visualize e configure agendamentos para todos os trabalhos no repositório.

Nó de serviços da web

Os serviços da Web são usados ​​para publicar trabalhos em tempo real e trabalhos em lote como operação de serviço da Web e para verificar o status dessas operações. Isso também é usado para manter a segurança de trabalhos publicados como serviço da web e para visualizarWSDL Arquivo.

Conexões SAP

SAP Connections é usado para verificar o status ou para configurar RFC server interface no Console de gerenciamento de serviços de dados.

Para verificar o status da interface do servidor RFC, vá para a guia Status da interface do servidor RFC. Para adicionar uma nova interface de servidor RFC, na guia de configuração, clique emAdd.

Quando uma nova janela for aberta, insira os detalhes de configuração do servidor RFC clique Apply.

Grupos de servidores

Isso é usado para agrupar todos os servidores de tarefas associados ao mesmo repositório em um grupo de servidores. Esta guia é usada para balanceamento de carga durante a execução de trabalhos em serviços de dados.

Quando um trabalho é executado, ele verifica o servidor de trabalho correspondente e, se estiver inativo, move o trabalho para outro servidor de trabalho no mesmo grupo. É usado principalmente na produção para balanceamento de carga.

Repositórios de Perfil

Quando você conecta o repositório de perfil ao administrador, permite expandir o nó do repositório de perfil. Você pode ir para a página de status Tarefas de perfil.

Nó de Gestão

Para usar o recurso da guia Administrador, você precisa adicionar conexões aos serviços de dados usando o nó de gerenciamento. O nó de gerenciamento consiste em diferentes opções de configuração para o aplicativo de administração.

Histórico de execução de trabalho

Isso é usado para verificar o histórico de execução de um trabalho ou fluxo de dados. Usando esta opção, você pode verificar o histórico de execução de um trabalho em lote ou todos os trabalhos em lote criados por você.

Quando você seleciona um trabalho, as informações são exibidas na forma de tabela, que consiste em nome do repositório, nome do trabalho, hora de início, hora de término, hora de execução, status, etc.

O Data Service Designer é uma ferramenta de desenvolvedor usada para criar objetos que consistem em mapeamento de dados, transformação e lógica. É baseado em GUI e funciona como um designer para Data Services.

Você pode criar vários objetos usando Data Services Designer, como projetos, trabalhos, fluxos de trabalho, fluxos de dados, mapeamento, transformações, etc.

Para iniciar o Data Services Designer, siga as etapas abaixo.

Step 1 - Aponte para iniciar → Todos os programas → SAP Data Services 4.2 → Data Services Designer.

Step 2 - Selecione o Repositório e digite a senha para fazer o login.

Depois de selecionar o Repositório e fazer o login no Data Services Designer, uma tela inicial aparecerá conforme mostrado na imagem abaixo.

No painel esquerdo, você tem a área do projeto, onde você pode criar um novo projeto, Job, fluxo de dados, fluxo de trabalho etc. Na área Projeto, você tem a biblioteca de objetos locais, que consiste em todos os objetos criados no Data Services.

No painel inferior, você pode abrir os objetos existentes acessando opções específicas como Projeto, Trabalhos, Fluxo de dados, Fluxo de trabalho, etc. Depois de selecionar qualquer objeto do painel inferior, ele mostrará todos os objetos semelhantes já criado no Repositório na biblioteca de objetos local.

No lado direito, você tem uma tela inicial, que pode ser usada para -

  • Criar Projeto
  • Projeto aberto
  • Crie armazenamentos de dados
  • Criar Repositórios
  • Importar de arquivo simples
  • Console de gerenciamento de serviços de dados

Para desenvolver um fluxo ETL, primeiro você precisa criar armazenamentos de dados para o sistema de origem e de destino. Siga as etapas fornecidas para desenvolver um fluxo ETL -

Step 1 - Clique Create Data Stores.

Uma nova janela se abrirá.

Step 2 - Entre no Datastore nome, Datastoretipo e tipo de banco de dados conforme mostrado abaixo. Você pode selecionar diferentes bancos de dados como sistema de origem, conforme mostrado na imagem abaixo.

Step 3- Para usar o sistema ECC como fonte de dados, selecione Aplicativos SAP como o tipo de armazenamento de dados. Insira o nome de usuário e senha e noAdvance guia, digite o número do sistema e o número do cliente.

Step 4- Clique em OK e o Datastore será adicionado à lista da biblioteca de objetos local. Se você expandir o Datastore, ele não mostrará nenhuma tabela.

Step 5 - Para extrair qualquer tabela do sistema ECC para carregar no sistema de destino, clique com o botão direito em Tabelas → Importar por nomes.

Step 6 - Insira o nome da tabela e clique em Import. Aqui, Table – Mara é usada, que é uma tabela padrão no sistema ECC.

Step 7 - De forma semelhante, crie um Datastorepara o sistema de destino. Neste exemplo, HANA é usado como um sistema de destino.

Depois de clicar em OK, este Datastore será adicionado à biblioteca de objetos local e não haverá nenhuma tabela dentro dela.

Crie um fluxo ETL

Para criar um fluxo ETL, crie um novo projeto.

Step 1 - Clique na opção, Create Project. Digite o nome do projeto e clique emCreate. Ele será adicionado à área do projeto.

Step 2 - Clique com o botão direito no nome do Projeto e crie um novo trabalho em lote / trabalho em tempo real.

Step 3- Digite o nome do trabalho e pressione Enter. Você tem que adicionar fluxo de trabalho e fluxo de dados a isso. Selecione um fluxo de trabalho e clique na área de trabalho para adicionar ao trabalho. Insira o nome do fluxo de trabalho e clique duas vezes nele para adicioná-lo à área Projeto.

Step 4- De forma semelhante, selecione o Fluxo de dados e traga-o para a área Projeto. Insira o nome do fluxo de dados e clique duas vezes para adicioná-lo ao novo projeto.

Step 5- Agora arraste a tabela de origem do armazenamento de dados para a área de trabalho. Agora você pode arrastar a tabela de destino com tipo de dados semelhante para a área de trabalho ou pode criar uma nova tabela de modelo.

Para criar uma nova tabela de modelos, clique com o botão direito na tabela de origem, Adicionar Novo → Tabela de Modelos.

Step 6- Insira o nome da tabela e selecione o Datastore na lista como Datastore de destino. O nome do proprietário representa o nome do esquema onde a tabela deve ser criada.

A tabela será adicionada à área de trabalho com este nome de tabela.

Step 7- Arraste a linha da tabela de origem para a tabela de destino. Clique noSave All opção no topo.

Agora você pode agendar o trabalho usando o Data Service Management Console ou pode executá-lo manualmente clicando com o botão direito no nome do trabalho e Executar.

Os datastores são usados ​​para configurar a conexão entre um aplicativo e o banco de dados. Você pode criar um Datastore diretamente ou pode ser criado com a ajuda de adaptadores. O Datastore permite que um aplicativo / software leia ou grave metadados de um aplicativo ou banco de dados e grave nesse banco de dados ou aplicativo.

No Business Objects Data Services, você pode se conectar aos seguintes sistemas usando o Datastore -

  • Sistemas mainframe e banco de dados
  • Aplicativos e software com adaptadores escritos pelo usuário
  • Aplicativos SAP, SAP BW, Oracle Apps, Siebel, etc.

O SAP Business Objects Data Services oferece uma opção de conexão com as interfaces de mainframe usando AttunityConector. UsandoAttunity, conecte o Datastore à lista de fontes fornecida abaixo -

  • DB2 UDB para OS / 390
  • DB2 UDB para OS / 400
  • IMS/DB
  • VSAM
  • Adabas
  • Arquivos simples no OS / 390 e OS / 400

Usando o conector Attunity, você pode se conectar aos dados do mainframe com a ajuda de um software. Este software precisa ser instalado manualmente no servidor mainframe e no servidor de trabalho do cliente local usando uma interface ODBC.

Insira os detalhes como localização do host, porta, espaço de trabalho Attunity, etc.

Criar Datastore para um Banco de Dados

Para criar o Datastore para um banco de dados, siga as etapas fornecidas abaixo.

Step 1- Insira o nome do Datastore, o tipo do Datastore e o tipo de banco de dados, conforme mostrado na imagem abaixo. Você pode selecionar um banco de dados diferente como sistema de origem fornecido na lista.

Step 2- Para usar o sistema ECC como fonte de dados, selecione Aplicativos SAP como o tipo de Datastore. Digite o nome de usuário e a senha. Clique noAdvance guia e digite o número do sistema e o número do cliente.

Step 3- Clique em OK e o Datastore será adicionado à lista da biblioteca de objetos local. Se você expandir o Datastore, não haverá nenhuma tabela para exibir.

Neste capítulo, aprenderemos como editar ou alterar o Datastore. Para alterar ou editar o Datastore, siga as etapas fornecidas abaixo.

Step 1- Para editar um Datastore, clique com o botão direito no nome do Datastore e clique em Editar. Isso abrirá o editor do Datastore.

Você pode editar as informações de conexão para a configuração atual do Datastore.

Step 2 - Clique no Advance botão e você pode editar o número do cliente, id do sistema e outras propriedades.

Step 3 - Clique no Edit opção de adicionar, editar e excluir as configurações.

Step 4 - Clique em OK e as alterações serão aplicadas.

Você pode criar um Datastore usando memória como o tipo de banco de dados. Os armazenamentos de dados de memória são usados ​​para melhorar o desempenho dos fluxos de dados em tarefas em tempo real, uma vez que armazena os dados na memória para facilitar o acesso rápido e não requer ir para a fonte de dados original.

Um Datastore de memória é usado para armazenar esquemas de tabela de memória no repositório. Essas tabelas de memória obtêm dados de tabelas no banco de dados relacional ou usando arquivos de dados hierárquicos como mensagem XML e IDocs. As tabelas de memória permanecem vivas até que o trabalho seja executado e os dados nas tabelas de memória não podem ser compartilhados entre diferentes trabalhos em tempo real.

Criação de um armazenamento de dados de memória

Para criar o armazenamento de dados de memória, siga as etapas abaixo.

Step 1 - Clique em Criar Datastore e insira o nome do Datastore “Memory_DS_TEST”. As tabelas de memória são apresentadas com tabelas RDBMS normais e podem ser identificadas com convenções de nomenclatura.

Step 2 - Em Datastore Type, selecione Database e no tipo de banco de dados selecione Memory. Clique OK.

Step 3 - Agora vá para Projeto → Novo → Projeto como mostrado na imagem abaixo.

Step 4- Crie um novo trabalho clicando com o botão direito. Adicione o fluxo de trabalho e o fluxo de dados conforme mostrado abaixo.

Step 5- Selecione uma tabela de modelo e arraste e solte na área de trabalho. Uma janela Criar tabela será aberta.

Step 6- Insira o nome da tabela e, no Datastore, selecione Memory Datastore. Se você quiser um ID de linha gerado pelo sistema, selecione ocreate row idcaixa de seleção. Clique OK.

Step 7 - Conecte esta tabela de memória ao fluxo de dados e clique Save All no topo.

Tabela de memória como fonte e destino

Para usar uma tabela de memória como um alvo -

Step 1- Vá para a biblioteca de objetos local e clique na guia Armazenamento de dados. Expanda o Memory Datastore → Expand tables.

Step 2- Selecione a tabela de Memória que deseja usar como uma tabela de origem ou de destino e arraste-a para o fluxo de trabalho. Conecte esta tabela de memória como origem ou destino no fluxo de dados.

Step 3 - Clique no save botão para salvar o trabalho.

Existem vários fornecedores de banco de dados, que fornecem apenas um caminho de comunicação unilateral de um banco de dados para outro. Esses caminhos são conhecidos como links de banco de dados. No SQL Server, o servidor vinculado permite um caminho de comunicação unilateral de um banco de dados para outro.

Exemplo

Considere um servidor de banco de dados local chamado “Product” armazena o link do banco de dados para acessar informações no servidor de banco de dados remoto chamado Customer. Agora, os usuários que estão conectados ao servidor de banco de dados remoto Cliente não podem usar o mesmo link para acessar dados no Produto do servidor de banco de dados. Usuários que estão conectados a“Customer” deve ter um link separado no dicionário de dados do servidor para acessar os dados no servidor de banco de dados do produto.

Esse caminho de comunicação entre os dois bancos de dados é chamado de link de banco de dados. Os Datastores, que são criados entre esses relacionamentos de banco de dados vinculados, são conhecidos como Datastores vinculados.

Existe a possibilidade de conectar um Datastore a outro Datastore e importar um link de banco de dados externo como opção do Datastore.

O Adapter Datastore permite importar metadados do aplicativo para o repositório. Você pode acessar os metadados do aplicativo e mover o lote e os dados em tempo real entre diferentes aplicativos e softwares.

Existe um Adapter Software Development Kit - SDK fornecido pela SAP que pode ser usado para desenvolver adaptadores customizados. Esses adaptadores são exibidos no designer de Data Services por Adapter Datastores.

Para extrair ou carregar os dados usando um adaptador, você deve definir pelo menos um Datastore para essa finalidade.

Adapter Datastore - Definição

Para definir o Adaptive Datastore, siga as etapas fornecidas -

Step 1 - Clique Create Datastore→ Insira o nome do Datastore. Selecione o tipo de armazenamento de dados como adaptador. Selecione osJob Server na lista e no nome da instância do adaptador e clique em OK.

Para navegar nos metadados do aplicativo

Clique com o botão direito no nome do Datastore e clique em Open. Isso abrirá uma nova janela mostrando os metadados de origem. Clique no sinal + para verificar os objetos e clique com o botão direito no objeto a importar.

O formato de arquivo é definido como um conjunto de propriedades para apresentar a estrutura de arquivos simples. Ele define a estrutura de metadados. O formato do arquivo é usado para conectar ao banco de dados de origem e destino quando os dados são armazenados nos arquivos e não no banco de dados.

O formato do arquivo é usado para as seguintes funções -

  • Crie um modelo de formato de arquivo para definir a estrutura de um arquivo.
  • Crie um formato de arquivo de origem e destino específico no fluxo de dados.

Os seguintes tipos de arquivos podem ser usados ​​como um arquivo de origem ou de destino usando o formato de arquivo -

  • Delimited
  • Transporte SAP
  • Texto Não Estruturado
  • Binário Não Estruturado
  • Largura fixa

Editor de formato de arquivo

O Editor de formato de arquivo é usado para definir as propriedades dos modelos de formato de arquivo e dos formatos de arquivo de origem e destino.

Os seguintes modos estão disponíveis no editor de formato de arquivo -

  • New mode - Permite criar um novo modelo de formato de arquivo.

  • Edit mode - Permite editar um modelo de formato de arquivo existente.

  • Source mode - Permite que você edite o formato de arquivo de um arquivo de origem específico.

  • Target mode - Permite editar o formato de arquivo de um arquivo de destino específico.

Existem três áreas de trabalho para o Editor de Formato de Arquivo -

  • Properties Values - É usado para editar os valores das propriedades de formato de arquivo.

  • Column Attributes - É usado para editar e definir as colunas ou campos no arquivo.

  • Data Preview - É usado para ver como as configurações afetam os dados de amostra.

Criação de um formato de arquivo

Para criar um formato de arquivo, siga as etapas abaixo.

Step 1 - Vá para Biblioteca de objetos locais → Arquivos simples.

Step 2 - Clique com o botão direito na opção Arquivos Simples → Novo.

Uma nova janela do Editor de formato de arquivo será aberta.

Step 3- Selecione o tipo de formato de arquivo. Insira o nome que descreve o modelo de formato de arquivo. Para arquivos de largura delimitada e fixa, você pode ler e carregar usando o programa de transferência personalizado. Insira as outras propriedades para descrever os arquivos que este modelo representa.

Você também pode especificar a estrutura das colunas na área de trabalho dos atributos da coluna para alguns formatos de arquivo específicos. Assim que todas as propriedades estiverem definidas, clique noSave botão.

Editando um formato de arquivo

Para editar os formatos de arquivo, siga as etapas abaixo.

Step 1 - Na Biblioteca de objetos locais, vá para o Format aba.

Step 2- Selecione o formato de arquivo que deseja editar. Clique com o botão direito noEdit opção.

Faça as alterações no editor de formato de arquivo e clique no botão Save botão.

Você pode criar um formato de arquivo de copybook COBOL que retarda a criação apenas do formato. Você pode configurar a fonte mais tarde, depois de adicionar o formato ao fluxo de dados.

Você pode criar o formato de arquivo e conectá-lo ao arquivo de dados ao mesmo tempo. Siga as etapas fornecidas abaixo.

Step 1 - Vá para Biblioteca de objetos local → Formato de arquivo → Copybooks COBOL.

Step 2 - Clique com o botão direito no New opção.

Step 3- Insira o nome do formato. Vá para a guia Formato → Selecione o copybook COBOL para importar. A extensão do arquivo é.cpy.

Step 4 - Clique OK. Este formato de arquivo é adicionado à biblioteca de objetos locais. A caixa de diálogo do nome do esquema do Copybook COBOL é aberta. Se necessário, renomeie o esquema e clique emOK.

Usando datastores de banco de dados, você pode extrair os dados de tabelas e funções no banco de dados. Quando você executa a importação de dados para metadados,Tool permite que você edite os nomes das colunas, tipos de dados, descrição, etc.

Você pode editar os seguintes objetos -

  • Nome da tabela
  • Nome da coluna
  • Descrição da Tabela
  • Descrição da coluna
  • Tipo de dados da coluna
  • Tipo de conteúdo da coluna
  • Atributos de tabela
  • Chave primária
  • Nome do proprietário

Importando Metadados

Para importar metadados, siga as etapas abaixo -

Step 1 - Vá para a Biblioteca de objetos local → vá para o Datastore que deseja usar.

Step 2 - Clique com o botão direito em Datastore → Abrir.

Na área de trabalho, todos os itens disponíveis para importação serão exibidos. Selecione os itens para os quais deseja importar os metadados.

Na biblioteca de objetos, vá para o armazenamento de dados para ver a lista de objetos importados.

Você pode usar a pasta de trabalho do Microsoft Excel como fonte de dados usando os formatos de arquivo no Data Services. A pasta de trabalho do Excel deve estar disponível no sistema de arquivos Windows ou no sistema de arquivos Unix.

Sr. Não. Acesso e descrição
1

In the object library, click the Formats tab.

Uma pasta de trabalho do Excel formal descreve a estrutura definida em uma pasta de trabalho do Excel (denotada com uma extensão .xls). Você armazena modelos de formato para intervalos de dados do Excel na biblioteca de objetos. Você usa o modelo para definir o formato de uma fonte específica em um fluxo de dados. O SAP Data Services acessa as pastas de trabalho do Excel apenas como origem (não como destinos).

Clique com o botão direito no New opção e selecione Excel Workbook como mostrado na imagem abaixo.

Extração de dados de XML FILE DTD, XSD

Você também pode importar formatos de arquivo de esquema XML ou DTD.

Step 1 - Vá para Biblioteca de objetos locais → guia Formato → Esquema aninhado.

Step 2 - Aponte para New(Você pode selecionar o arquivo DTD ou o esquema XML ou o formato de arquivo JSON). Insira o nome do formato de arquivo e selecione o arquivo que deseja importar. Clique OK.

Extração de dados de copybooks COBOL

Você também pode importar formatos de arquivo em copybooks COBOL. Vá para Biblioteca de objetos locais → Formatar → Copybooks COBOL.

O fluxo de dados é usado para extrair, transformar e carregar dados da origem para o sistema de destino. Todas as transformações, carregamento e formatação ocorrem no fluxo de dados.

Depois de definir um fluxo de dados em um projeto, ele pode ser adicionado a um fluxo de trabalho ou trabalho ETL. O fluxo de dados pode enviar ou receber objetos / informações usando parâmetros. O fluxo de dados é nomeado em formatoDF_Name.

Exemplo de fluxo de dados

Vamos supor que você deseja carregar uma tabela de fatos no sistema DW com dados de duas tabelas no sistema de origem.

O fluxo de dados contém os seguintes objetos -

  • Tabela Duas Fontes
  • Junte-se a duas tabelas e definido na transformação de consulta
  • Tabela de destino

Existem três tipos de objetos que podem ser adicionados a um fluxo de dados. Eles são -

  • Source
  • Target
  • Transforms

Step 1 - Vá para a Biblioteca de Objetos Local e arraste ambas as tabelas para a área de trabalho.

Step 2 - Para adicionar uma Transformação de Consulta, arraste da barra de ferramentas à direita.

Step 3 - Junte as duas tabelas e crie uma tabela de modelo de destino clicando com o botão direito do mouse na caixa Consulta → Adicionar novo → Nova tabela de modelo.

Step 4 - Insira o nome da tabela de destino, nome do armazenamento de dados e proprietário (nome do esquema) sob a qual a tabela deve ser criada.

Step 5 - Arraste a tabela de destino na frente e junte-a à transformação Consulta.

Passando Parâmetros

Você também pode passar parâmetros diferentes para dentro e para fora do fluxo de dados. Ao passar um parâmetro para um fluxo de dados, os objetos no fluxo de dados fazem referência a esses parâmetros. Usando parâmetros, você pode passar diferentes operações para um fluxo de dados.

Exemplo - suponha que você inseriu um parâmetro em uma tabela sobre a última atualização. Ele permite que você extraia apenas as linhas modificadas desde a última atualização.

Você pode alterar as propriedades de um fluxo de dados como Executar uma vez, tipo de cache, link de banco de dados, paralelismo, etc.

Step 1 - Para alterar as propriedades do fluxo de dados, clique com o botão direito em Fluxo de dados → Propriedades

Você pode definir várias propriedades para um fluxo de dados. As propriedades são fornecidas a seguir.

Sr. Não. Propriedades e descrição
1

Execute only once

Quando você especifica que um fluxo de dados deve ser executado apenas uma vez, um trabalho em lote nunca irá reexecutar esse fluxo de dados após a conclusão bem-sucedida do fluxo de dados, exceto se o fluxo de dados estiver contido em um fluxo de trabalho que é uma unidade de recuperação que é executada novamente e não foi concluído com êxito em outro lugar fora da unidade de recuperação. É recomendável que você não marque um fluxo de dados como Executar apenas uma vez se um fluxo de trabalho pai for uma unidade de recuperação.

2

Use database links

Links de banco de dados são caminhos de comunicação entre um servidor de banco de dados e outro. Os links de banco de dados permitem que usuários locais acessem dados em um banco de dados remoto, que pode estar no computador local ou remoto do mesmo tipo de banco de dados ou diferente.

3

Degree of parallelism

Grau de paralelismo (DOP) é ​​uma propriedade de um fluxo de dados que define quantas vezes cada transformação em um fluxo de dados é replicada para processar um subconjunto paralelo de dados.

4

Cache type

Você pode armazenar dados em cache para melhorar o desempenho de operações, como associações, grupos, classificações, filtragem, pesquisas e comparações de tabelas. Você pode selecionar um dos seguintes valores para a opção Tipo de cache na janela Propriedades do fluxo de dados -

  • In-memory - Escolha este valor se o seu fluxo de dados processa uma pequena quantidade de dados que pode caber na memória disponível.

  • Pageable - Este valor é o padrão.

Step 2 - Altere as propriedades como Executar apenas uma vez, Grau de paralelismo e tipos de cache.

Objetos de origem e destino

Um fluxo de dados pode extrair ou carregar dados diretamente usando os seguintes objetos -

  • Source objects - Objetos de origem definem a origem da qual os dados são extraídos ou você lê os dados.

  • Target objects - Objetos de destino definem o destino no qual você carrega ou grava os dados.

O seguinte tipo de objeto de origem pode ser usado e diferentes métodos de acesso são usados ​​para os objetos de origem.

Mesa Um arquivo formatado com colunas e linhas conforme usado em bancos de dados relacionais Direto ou através do adaptador
Tabela de modelos Uma tabela de modelo que foi criada e salva em outro fluxo de dados (usada no desenvolvimento) Direto
Arquivo Um arquivo plano delimitado ou de largura fixa Direto
Documento Um arquivo com um formato específico do aplicativo (não legível pelo analisador SQL ou XML) Através do adaptador
Arquivo XML Um arquivo formatado com tags XML Direto
Mensagem XML Usado como fonte em trabalhos em tempo real Direto

Os seguintes objetos Target podem ser usados ​​e diferentes métodos de acesso podem ser aplicados.

Mesa Um arquivo formatado com colunas e linhas conforme usado em bancos de dados relacionais Direto ou através do adaptador
Tabela de modelos Uma tabela cujo formato é baseado na saída da transformação anterior (usada no desenvolvimento) Direto
Arquivo Um arquivo plano delimitado ou de largura fixa Direto
Documento Um arquivo com um formato específico do aplicativo (não legível pelo analisador SQL ou XML) Através do adaptador
Arquivo XML Um arquivo formatado com tags XML Direto
Arquivo de modelo XML Um arquivo XML cujo formato é baseado na saída de transformação anterior (usado no desenvolvimento, principalmente para depurar fluxos de dados) Direto

Os fluxos de trabalho são usados ​​para determinar o processo de execução. O objetivo principal do fluxo de trabalho é preparar a execução dos fluxos de dados e definir o estado do sistema, uma vez que a execução do fluxo de dados seja concluída.

As tarefas em lote em projetos ETL são semelhantes aos fluxos de trabalho, com a única diferença de que a tarefa não tem parâmetros.

Vários objetos podem ser adicionados a um fluxo de trabalho. Eles são -

  • Fluxo de trabalho
  • Fluxo de dados
  • Scripts
  • Loops
  • Conditions
  • Experimente ou pegue os blocos

Você também pode fazer um fluxo de trabalho chamar outro fluxo de trabalho ou um fluxo de trabalho pode chamar a si mesmo.

Note - No fluxo de trabalho, as etapas são executadas em uma sequência da esquerda para a direita.

Exemplo de fluxo de trabalho

Suponha que haja uma tabela de fatos que você deseja atualizar e tenha criado um fluxo de dados com a transformação. Agora, se desejar mover os dados do sistema de origem, você deve verificar a última modificação da tabela de fatos para extrair apenas as linhas que foram adicionadas após a última atualização.

Para conseguir isso, você deve criar um script, que determina a data da última atualização e, em seguida, passa isso como parâmetro de entrada para o fluxo de dados.

Você também deve verificar se a conexão de dados com uma tabela de fatos específica está ativa ou não. Se não estiver ativo, você precisa configurar um bloco catch, que envia automaticamente um e-mail ao administrador para notificar sobre o problema.

Os fluxos de trabalho podem ser criados usando os seguintes métodos -

  • Biblioteca de Objetos
  • Paleta de ferramentas

Criação de um fluxo de trabalho usando a biblioteca de objetos

Para criar um fluxo de trabalho usando a Biblioteca de Objetos, siga as etapas fornecidas abaixo.

Step 1 - Vá para a guia Biblioteca de objetos → Fluxo de trabalho.

Step 2 - Clique com o botão direito no New opção.

Step 3 - Insira o nome do Workflow.

Criação de um fluxo de trabalho usando a paleta de ferramentas

Para criar um fluxo de trabalho usando a paleta de ferramentas, clique no ícone do lado direito e arraste o fluxo de trabalho para a área de trabalho.

Você também pode definir a execução do fluxo de trabalho apenas uma vez acessando as propriedades do fluxo de trabalho.

Condicionais

Você também pode adicionar condicionais ao fluxo de trabalho. Isso permite que você implemente a lógica If / Else / Then nos fluxos de trabalho.

Sr. Não. Condicional e Descrição
1

If

Uma expressão booleana avaliada como TRUE ou FALSE. Você pode usar funções, variáveis ​​e operadores padrão para construir a expressão.

2

Then

Elementos de fluxo de trabalho a serem executados se o If expressão é avaliada como TRUE.

3

Else

(Opcional) Elementos de fluxo de trabalho a serem executados se o If expressão é avaliada como FALSE.

Para definir um condicional

Step 1 - Vá para Fluxo de trabalho → Clique no ícone Condicional na paleta de ferramentas do lado direito.

Step 2 - Clique duas vezes no nome de Condicional para abrir o If-Then–Else editor condicional.

Step 3- Insira a Expressão Booleana que controla o Condicional. Clique OK.

Step 4 - Arraste o fluxo de dados que deseja executar o Then and Else janela conforme a expressão na condição IF.

Depois de concluir a condição, você pode depurar e validar a condicional.

As transformações são usadas para manipular os conjuntos de dados como entradas e criar uma ou várias saídas. Existem várias transformações, que podem ser usadas no Data Services. O tipo de transformações depende da versão e do produto adquirido.

Os seguintes tipos de transformações estão disponíveis -

Integração de dados

As transformações de integração de dados são usadas para extração, transformação e carregamento de dados no sistema DW. Ele garante a integridade dos dados e melhora a produtividade do desenvolvedor.

  • Data_Generator
  • Data_Transfer
  • Effective_Date
  • Hierarchy_flattening
  • Table_Comparision, etc.

Qualidade de Dados

As transformações do Data Quality são usadas para melhorar a qualidade dos dados. Você pode aplicar analisar, corrigir, padronizar e enriquecer o conjunto de dados do sistema de origem.

  • Associate
  • Limpeza de dados
  • DSF2 Walk Sequencer, etc.

Plataforma

A plataforma é usada para a movimentação do conjunto de dados. Usando isso, você pode gerar, mapear e mesclar linhas de duas ou mais fontes de dados.

  • Case
  • Merge
  • Consulta, etc.

Processamento de Dados de Texto

O processamento de dados de texto permite processar um grande volume de dados de texto.

Neste capítulo, você verá como adicionar Transform para um fluxo de dados.

Step 1 - Vá para Biblioteca de objetos → guia Transformar.

Step 2- Selecione a transformação que deseja adicionar ao fluxo de dados. Se você adicionar uma transformação que tem a opção de selecionar a configuração, um prompt será aberto.

Step 3 - Desenhe a conexão de fluxo de dados para conectar a fonte a uma transformação.

Step 4 - Clique duas vezes no nome da Transformação para abrir o editor de transformação.

Assim que a definição estiver completa, clique OK para fechar o editor.

Esta é a transformação mais comum usada no Data Services e você pode executar as seguintes funções -

  • Filtragem de dados de fontes
  • Junção de dados de várias fontes
  • Execute funções e transformações em dados
  • Mapeamento de coluna dos esquemas de entrada para saída
  • Atribuição de chaves primárias
  • Adicionar novas colunas, esquemas e funções resultantes aos esquemas de saída

Como a transformação de consulta é a transformação mais comumente usada, um atalho é fornecido para esta consulta na paleta de ferramentas.

Para adicionar a transformação de consulta, siga as etapas abaixo -

Step 1- Clique na paleta de ferramentas de transformação de consulta. Clique em qualquer lugar na área de trabalho Fluxo de dados. Conecte-o às entradas e saídas.

Quando você clica duas vezes no ícone de transformação de Consulta, ele abre um editor de Consulta que é usado para executar operações de consulta.

As seguintes áreas estão presentes na transformação de consulta -

  • Esquema de entrada
  • Esquema de Saída
  • Parameters

Os esquemas de entrada e saída contêm colunas, esquemas aninhados e funções. Schema In e Schema Out mostra o esquema atualmente selecionado na transformação.

Para alterar o esquema de saída, selecione o esquema na lista, clique com o botão direito e selecione Tornar Atual.

Transformação de qualidade de dados

As transformações do Data Quality não podem ser conectadas diretamente à transformação upstream, que contém tabelas aninhadas. Para conectar essas transformações, você deve adicionar uma transformação de consulta ou transformação de pipeline XML entre a transformação da tabela aninhada e a transformação de qualidade de dados.

Como usar a transformação da qualidade de dados?

Step 1 - Vá para Biblioteca de Objetos → guia Transformar

Step 2 - Expanda a transformação Data Quality e adicione a transformação ou configuração de transformação que deseja adicionar ao fluxo de dados.

Step 3- Desenhe as conexões de fluxo de dados. Clique duas vezes no nome da transformação para abrir o editor de transformação. No esquema de entrada, selecione os campos de entrada que você deseja mapear.

Note - Para usar a transformação Associate, você pode adicionar campos definidos pelo usuário à guia de entrada.

Transformação de processamento de dados de texto

Transformação de processamento de dados de texto permite que você extraia informações específicas de um grande volume de texto. Você pode pesquisar fatos e entidades, como clientes, produtos e fatos financeiros, específicos de uma organização.

Essa transformação também verifica o relacionamento entre entidades e permite a extração. Os dados extraídos, usando processamento de dados de texto, podem ser usados ​​em Business Intelligence, Reporting, query e analytics.

Transformação de Extração de Entidade

Em Data Services, o processamento de dados de texto é feito com a ajuda da Extração de Entidades, que extrai entidades e fatos de dados não estruturados.

Isso envolve analisar e processar grande volume de dados de texto, pesquisar entidades, atribuí-las ao tipo apropriado e apresentar metadados em formato padrão.

A transformação Extração de entidade pode extrair informações de qualquer conteúdo de texto, HTML, XML ou determinado formato binário (como PDF) e gerar saída estruturada. Você pode usar a saída de várias maneiras com base em seu fluxo de trabalho. Você pode usá-lo como uma entrada para outra transformação ou gravar em várias fontes de saída, como uma tabela de banco de dados ou um arquivo simples. A saída é gerada na codificação UTF-16.

Entity Extract Transform can be used in the following scenarios −

  • Encontrar uma informação específica de grande volume de texto.

  • Encontrar informações estruturadas de texto não estruturado com informações existentes para fazer novas conexões.

  • Relatórios e análises de qualidade do produto.

Diferenças entre TDP e limpeza de dados

O processamento de dados de texto é usado para localizar informações relevantes de dados de texto não estruturados. No entanto, a limpeza de dados é usada para padronização e limpeza de dados estruturados.

Parâmetros Processamento de Dados de Texto Limpeza de dados
Tipo de entrada Dados Não Estruturados Dados Estruturados
Tamanho de entrada Mais de 5 KB Menos de 5 KB
Escopo de entrada Domínio amplo com muitas variações Variações limitadas
Uso potencial Possíveis informações significativas de dados não estruturados Qualidade dos dados para armazenamento no Repositório
Resultado Crie anotações na forma de entidades, tipo, etc. A entrada não é alterada Crie campos padronizados, a entrada é alterada

A administração de Data Services inclui a criação de jobs em lote e em tempo real, agendamento de jobs, fluxo de dados embutidos, variáveis ​​e parâmetros, mecanismo de recuperação, criação de perfil de dados, ajuste de desempenho, etc.

Trabalhos em tempo real

Você pode criar trabalhos em tempo real para processar mensagens em tempo real no designer de Data Services. Como um trabalho em lote, o trabalho em tempo real extrai os dados, os transforma e carrega.

Cada trabalho em tempo real pode extrair dados de uma única mensagem. Você também pode extrair dados de outras fontes, como tabelas ou arquivos.

Os trabalhos em tempo real não são executados com a ajuda de gatilhos, ao contrário dos trabalhos em lote. Eles são executados como serviços em tempo real pelos administradores. Os serviços em tempo real aguardam mensagens do servidor de acesso. O servidor de acesso recebe essa mensagem e a passa para os serviços em tempo real, que são configurados para processar o tipo de mensagem. Os serviços em tempo real executam a mensagem e retornam o resultado e continuam a processar as mensagens até receberem uma instrução para interromper a execução.

Trabalhos em tempo real x lote

Transformações como ramificações e lógica de controle são usadas com mais frequência em tarefas em tempo real, o que não é o caso com tarefas em lote no designer.

Os trabalhos em tempo real não são executados em resposta a uma programação ou gatilho interno, ao contrário dos trabalhos em lote.

Criação de trabalhos em tempo real

Trabalhos em tempo real podem ser criados usando os mesmos objetos, como fluxos de dados, fluxos de trabalho, loops, condicionais, scripts, etc.

Você pode usar os seguintes modelos de dados para criar trabalhos em tempo real -

  • Modelo de fluxo de dados único
  • Modelo de fluxo de dados múltiplos

Modelo de fluxo de dados único

Você pode criar uma tarefa em tempo real com fluxo de dados único em seu loop de processamento em tempo real e inclui uma única origem de mensagem e um único destino de mensagem.

Creating Real Time job using single data model −

Para criar um trabalho em tempo real usando um modelo de dados único, siga as etapas fornecidas.

Step 1 - Vá para Data Services Designer → Projeto Novo → Projeto → Insira o nome do projeto

Step 2 - Clique com o botão direito no espaço em branco na área Projeto → Novo trabalho em tempo real.

O espaço de trabalho mostra dois componentes do trabalho em tempo real -

  • RT_Process_begins
  • Step_ends

Mostra o início e o fim do trabalho em tempo real.

Step 3 - Para criar um trabalho em tempo real com fluxo de dados único, selecione o fluxo de dados na paleta de ferramentas no painel direito e arraste-o para a área de trabalho.

Clique dentro do loop, você pode usar uma fonte de mensagem e um destino de mensagem no loop de processamento em tempo real. Conecte as marcas inicial e final ao fluxo de dados.

Step 4 - Adicione configurar objetos no fluxo de dados conforme necessário e salve o trabalho.

Modelo de fluxo de dados múltiplos

Isso permite que você crie um trabalho em tempo real com múltiplos fluxos de dados em seu loop de processamento em tempo real. Você também precisa garantir que os dados em cada modelo de dados sejam totalmente processados ​​antes de passar para a próxima mensagem.

Testando empregos em tempo real

Você pode testar o trabalho em tempo real passando a mensagem de amostra como mensagem de origem do arquivo. Você pode verificar se o Data Services gera a mensagem de destino esperada.

Para garantir que seu trabalho forneça o resultado esperado, você pode executar o trabalho no modo de visualização de dados. Usando este modo, você pode capturar dados de saída para se certificar de que seu trabalho em tempo real está funcionando bem.

Fluxos de dados incorporados

O fluxo de dados incorporado é conhecido como fluxos de dados, que são chamados de outro fluxo de dados no design. O fluxo de dados integrado pode conter vários números de origem e destinos, mas apenas uma entrada ou saída de dados de passagem para o fluxo de dados principal.

Os seguintes tipos de fluxos de dados incorporados podem ser usados ​​-

  • One Input - Fluxo de dados embutido é adicionado no final do fluxo de dados.

  • One Output - Fluxo de dados incorporado é adicionado no início de um fluxo de dados.

  • No input or output - Replique um fluxo de dados existente.

O fluxo de dados incorporado pode ser usado para os seguintes fins -

  • Para simplificar a exibição do fluxo de dados.

  • Se você deseja salvar a lógica do fluxo e reutilizá-la em outros fluxos de dados.

  • Para depuração, em que você cria seções de fluxo de dados como fluxo de dados incorporado e as executa separadamente.

Você pode selecionar um objeto no fluxo de dados existente. Existem duas maneiras de criar o Fluxo de Dados incorporado.

Opção 1

Clique com o botão direito no objeto e selecione para torná-lo fluxo de dados incorporados.

opção 2

Arraste o fluxo de dados completo e valide da biblioteca de objetos para um fluxo de dados aberto no espaço de trabalho. Em seguida, abra o fluxo de dados que foi criado. Selecione o objeto que deseja usar como porta de entrada e saída e cliquemake port para esse objeto.

O Data Services adiciona esse objeto como ponto de conexão para o fluxo de dados incorporado.

Variáveis ​​e Parâmetros

Você pode usar variáveis ​​locais e globais com fluxo de dados e fluxo de trabalho, que fornecem mais flexibilidade na criação de trabalhos.

Os principais recursos são -

  • O tipo de dados de uma variável pode ser um número, inteiro, decimal, data ou uma string de texto como um caractere.

  • As variáveis ​​podem ser usadas nos fluxos de dados e fluxos de trabalho como função no Where cláusula.

  • Variáveis ​​locais em serviços de dados são restritas ao objeto no qual são criadas.

  • As variáveis ​​globais são restritas aos empregos nos quais são criadas. Usando variáveis ​​globais, você pode alterar os valores das variáveis ​​globais padrão em tempo de execução.

  • As expressões que são usadas no fluxo de trabalho e fluxo de dados são conhecidas como parameters.

  • Todas as variáveis ​​e parâmetros no fluxo de trabalho e fluxos de dados são mostrados na janela de variáveis ​​e parâmetros.

Para visualizar variáveis ​​e parâmetros, siga as etapas abaixo -

Vá para Ferramentas → Variáveis.

Uma nova janela Variables and parametersé exibido. Ele tem duas guias - Definições e Chamadas.

o Definitionsguia permite que você crie e visualize variáveis ​​e parâmetros. Você pode usar variáveis ​​e parâmetros locais no fluxo de trabalho e no nível do fluxo de dados. Variáveis ​​globais podem ser usadas no nível do trabalho.

Trabalho

Variáveis ​​locais

Variáveis ​​globais

Um script ou condicional no trabalho

Qualquer objeto no trabalho

Fluxo de trabalho

Variáveis ​​locais

Parâmetros

Este fluxo de trabalho ou passado para outros fluxos de trabalho ou fluxos de dados usando um parâmetro.

Objetos pais para passar variáveis ​​locais. Os fluxos de trabalho também podem retornar variáveis ​​ou parâmetros para objetos pais.

Fluxo de dados

Parâmetros

Uma cláusula WHERE, mapeamento de coluna ou uma função no fluxo de dados. Fluxo de dados. Os fluxos de dados não podem retornar valores de saída.

Na guia de chamada, você pode ver o nome do parâmetro definido para todos os objetos na definição de um objeto pai.

Definindo Variável Local

Para definir a variável local, abra o trabalho em tempo real.

Step 1- Vá para Ferramentas → Variáveis. Uma novaVariables and Parameters a janela será aberta.

Step 2 - Vá para Variável → Clique com o botão direito → Inserir

Irá criar um novo parâmetro $NewVariable0.

Step 3- Insira o nome da nova variável. Selecione o tipo de dados na lista.

Uma vez definido, feche a janela. De forma semelhante, você pode definir os parâmetros para fluxo de dados e fluxo de trabalho.

Caso seu trabalho não seja executado com êxito, você deve corrigir o erro e executar o trabalho novamente. Em caso de falha nos trabalhos, existe a possibilidade de que algumas tabelas tenham sido carregadas, alteradas ou parcialmente carregadas. Você precisa executar o trabalho novamente para obter todos os dados e remover quaisquer dados duplicados ou ausentes.

Duas técnicas que podem ser usadas para recuperação são as seguintes -

  • Automatic Recovery - Isso permite que você execute trabalhos malsucedidos no modo de recuperação.

  • Manually Recovery - Isso permite que você execute novamente os trabalhos sem considerar a execução parcial da vez anterior.

To run a job with Recovery option enabled in Designer

Step 1 - Clique com o botão direito no nome do trabalho → Executar.

Step 2 - Salve todas as alterações e execute → Sim.

Step 3- Vá para a guia Execução → caixa de seleção Ativar recuperação. Se esta caixa não estiver marcada, os serviços de dados não irão recuperar o trabalho, se falhar.

To run a job in Recovery mode from Designer

Step 1- Clique com o botão direito e execute o trabalho como acima. Salve as alterações.

Step 2- Vá para as opções de execução. Você tem que garantir que a opçãoRecover from last failed execution caixa está marcada.

Note- Esta opção não é habilitada, se um trabalho ainda não foi executado. Isso é conhecido como recuperação automática de um trabalho com falha.

O Data Services Designer fornece um recurso de Criação de Perfil de Dados para garantir e melhorar a qualidade e a estrutura dos dados de origem.

O Data Profiler permite que você -

  • Encontre anomalias nos dados de origem, validação e ação corretiva e qualidade dos dados de origem.

  • Defina a estrutura e o relacionamento dos dados de origem para uma melhor execução de jobs, fluxos de trabalho e fluxos de dados.

  • Encontre o conteúdo do sistema de origem e destino para determinar se seu trabalho retorna o resultado esperado.

O Data Profiler fornece as seguintes informações sobre a execução do servidor Profiler -

Análise de coluna

  • Basic Profiling - Inclui informações como mín., Máx., Méd., Etc.

  • Detailed Profiling - Inclui informações como contagem distinta, porcentagem distinta, mediana, etc.

Análise de Relacionamento

  • Anomalias de dados entre duas colunas para as quais você define um relacionamento.

O recurso de criação de perfil de dados pode ser usado em dados das seguintes fontes de dados -

  • servidor SQL
  • Oracle
  • DB2
  • Conector Attunity
  • Sybase IQ
  • Teradata

Conectando ao Profiler Server

Para se conectar a um Servidor de Perfil -

Step 1 - Vá para Ferramentas → Login do Profiler Server

Step 2 - Insira os detalhes como Sistema, Nome de usuário, Senha e Autenticação.

Step 3 - Clique no Log on botão.

Quando você estiver conectado, uma lista de repositórios do profiler será exibida. SelecioneRepository e clique Connect.

O desempenho de um trabalho ETL depende do sistema no qual você está usando o software Data Services, número de movimentos, etc.

Existem vários outros fatores que contribuem para o desempenho em uma tarefa ETL. Eles são -

  • Source Data Base - O banco de dados de origem deve ser definido para realizar o Selectdeclarações rapidamente. Isso pode ser feito aumentando o tamanho da E / S do banco de dados, aumentando o tamanho do buffer compartilhado para armazenar mais dados em cache e não permitindo o paralelo para tabelas pequenas, etc.

  • Source Operating System- O sistema operacional de origem deve ser configurado para ler os dados rapidamente dos discos. Defina o protocolo de leitura antecipada para 64 KB.

  • Target Database - O banco de dados de destino deve ser configurado para executar INSERT e UPDATErapidamente. Isso pode ser feito por -

    • Desativando o log de Archive.
    • Desativando o log de Refazer para todas as tabelas.
    • Maximizando o tamanho do buffer compartilhado.
  • Target Operating System- O sistema operacional de destino deve ser configurado para gravar os dados nos discos rapidamente. Você pode ativar a E / S assíncrona para tornar as operações de entrada / saída o mais rápidas possível.

  • Network - A largura de banda da rede deve ser suficiente para transferir os dados da origem para o sistema de destino.

  • BODS Repository Database - Para melhorar o desempenho dos trabalhos BODS, o seguinte pode ser executado -

    • Monitor Sample Rate - Caso você esteja processando uma grande quantidade de conjunto de dados em um trabalho ETL, monitore a Taxa de Amostragem para um valor mais alto para reduzir o número de chamadas de E / S para o arquivo de log, melhorando assim o desempenho.

    • Você também pode excluir os logs de Data Services da verificação de vírus se a verificação de vírus estiver configurada no servidor de trabalho, pois pode causar uma degradação do desempenho

  • Job Server OS - Em Data Services, um fluxo de dados em um trabalho inicia um ‘al_engine’processo, que inicia quatro threads. Para desempenho máximo, considere um design que execute um‘al_engine’processo por CPU de cada vez. O sistema operacional do Job Server deve ser ajustado de forma que todos os threads sejam distribuídos para todas as CPUs disponíveis.

SAP BO Data Services suporta desenvolvimento multiusuário, onde cada usuário pode trabalhar em um aplicativo em seu próprio repositório local. Cada equipe usa o repositório central para salvar a cópia principal de um aplicativo e todas as versões dos objetos no aplicativo.

Os principais recursos são -

  • No SAP Data Services, você pode criar um repositório central para armazenar a cópia da equipe de um aplicativo. Ele contém todas as informações que também estão disponíveis no repositório local. No entanto, ele apenas fornece um local de armazenamento para as informações do objeto. Para fazer qualquer alteração, você deve trabalhar no repositório local.

  • Você pode copiar objetos do repositório central para o repositório local. No entanto, se você tiver que fazer alguma alteração, deverá fazer o check-out desse objeto no repositório central. Devido a isso, os outros usuários não podem fazer check-out desse objeto no repositório central e, portanto, não podem fazer alterações no mesmo objeto.

  • Depois de fazer as alterações no objeto, você precisa fazer o check-in do objeto. Ele permite que o Data Services salve o novo objeto modificado no repositório central.

  • Os serviços de dados permitem que vários usuários com repositórios locais se conectem ao repositório central ao mesmo tempo, mas apenas um usuário pode fazer check-out e fazer alterações em um objeto específico.

  • O repositório central também mantém o histórico de cada objeto. Ele permite que você reverta para a versão anterior de um objeto, se as alterações não resultarem conforme o necessário.

Vários usuários

O SAP BO Data Services permite que vários usuários trabalhem no mesmo aplicativo ao mesmo tempo. Os seguintes termos devem ser considerados em um ambiente multiusuário -

Sr. Não. Multiusuário e descrição
1

Highest level object

O objeto de nível mais alto é o objeto que não é dependente de nenhum objeto na hierarquia de objetos. Por exemplo, se o Trabalho 1 for composto pelo Fluxo de Trabalho 1 e Fluxo de Dados 1, o Trabalho 1 é o objeto de nível mais alto.

2

Object dependents

Dependentes de objetos são objetos associados abaixo do objeto de nível mais alto na hierarquia. Por exemplo, se o Trabalho 1 for composto pelo Fluxo de Trabalho 1 que contém o Fluxo de Dados 1, então o Fluxo de Trabalho 1 e o Fluxo de Dados 1 são dependentes do Trabalho 1. Além disso, o Fluxo de Dados 1 é dependente do Fluxo de Trabalho 1.

3

Object version

Uma versão de objeto é uma instância de um objeto. Cada vez que você adiciona ou faz check-in de um objeto no repositório central, o software cria uma nova versão do objeto. A versão mais recente de um objeto é a última ou a versão mais recente criada.

Para atualizar o repositório local em ambiente multiusuário, você pode obter a cópia mais recente de cada objeto do repositório central. Para editar um objeto, você pode usar as opções de check-out e check-in.

Existem vários parâmetros de segurança que podem ser aplicados em um repositório central para torná-lo seguro.

Vários parâmetros de segurança são -

  • Authentication - Isso permite que apenas usuários autênticos façam login no repositório central.

  • Authorization - Isso permite que o usuário atribua diferentes níveis de permissões para cada objeto.

  • Auditing- Isso é usado para manter o histórico de todas as alterações feitas em um objeto. Você pode verificar todas as versões anteriores e reverter para as versões anteriores.

Criando Repositório Central Não Seguro

Em um ambiente de desenvolvimento multiusuário, é sempre aconselhável trabalhar no método de repositório central.

Para criar um repositório central não seguro, siga as etapas fornecidas -

Step 1 - Criar uma base de dados, utilizando sistema de gestão de base de dados, que funcionará como repositório central.

Step 2 - Vá para um Repository Manager.

Step 3- Selecione o tipo de Repositório como Central. Insira os detalhes do banco de dados, como nome de usuário e senha e cliqueCreate.

Step 4 - Para definir uma conexão com o Repositório Central, Tools → Central Repository.

Step 5 - Selecione a conexão Repositório no Repositório Central e clique no botão Add ícone.

Step 6 - Digite a senha do repositório central e clique no botão Activate botão.

Criando um Repositório Central Seguro

Para criar um Repositório Central seguro, vá para o Repository Manager. Selecione o tipo de repositório como central. Clique noEnable Security Caixa de seleção.

Para um desenvolvimento bem-sucedido no ambiente multiusuário, é aconselhável implementar alguns processos como check in e check out.

Você pode usar os seguintes processos em um ambiente multiusuário -

  • Filtering
  • Verificando objetos
  • Desfazendo check-out
  • Verificando objetos
  • Rotulando objetos

A filtragem é aplicável quando você adiciona quaisquer objetos, faz check-in, check-out e rotula objetos para o repositório central.

Migrando trabalhos multiusuário

No SAP Data Services, a migração de trabalho pode ser aplicada em diferentes níveis, ou seja, nível de aplicativo, nível de repositório, nível de atualização.

Você não pode copiar o conteúdo de um repositório central para outro repositório central diretamente; você precisa fazer uso do repositório local.

A primeira etapa é obter a versão mais recente de todos os objetos do repositório central para o repositório local. Ative o repositório central no qual deseja copiar o conteúdo. Adicione todos os objetos que deseja copiar do repositório local para o repositório central.

Migração do Repositório Central

Se você atualizar a versão do SAP Data Services, também precisará atualizar a versão do Repositório.

Os seguintes pontos devem ser considerados ao migrar um repositório central para atualizar a versão -

  • Faça um backup do repositório central de todas as tabelas e objetos.

  • Para manter a versão de objetos em serviços de dados, mantenha um repositório central para cada versão. Crie um novo histórico central com a nova versão do software Data Services e copie todos os objetos para este repositório.

  • Se você instalar uma nova versão do Data Services, é sempre recomendável, você deve atualizar seu repositório central para uma nova versão de objetos.

  • Atualize seu repositório local para a mesma versão, pois diferentes versões do repositório central e local podem não funcionar ao mesmo tempo.

  • Antes de migrar o repositório central, faça check-in de todos os objetos. Como você não atualiza o repositório central e local simultaneamente, é necessário fazer o check-in de todos os objetos. Depois de ter seu repositório central atualizado para uma versão mais recente, você não poderá fazer check-in de objetos do repositório local, que tem uma versão mais antiga do Data Services.