Amazon Web Services - Pipeline de dados

AWS Data Pipeline é um serviço da web, projetado para tornar mais fácil para os usuários integrar dados espalhados por vários serviços da AWS e analisá-los em um único local.

Usando o AWS Data Pipeline, os dados podem ser acessados ​​da fonte, processados ​​e, em seguida, os resultados podem ser transferidos com eficiência para os respectivos serviços da AWS.

Como configurar o pipeline de dados?

A seguir estão as etapas para configurar o pipeline de dados -

Step 1 - Crie o Pipeline usando as seguintes etapas.

  • Faça login na conta AWS.

  • Use este link para abrir o console do AWS Data Pipeline - https://console.aws.amazon.com/datapipeline/

  • Selecione a região na barra de navegação.

  • Clique no botão Criar novo pipeline.

  • Preencha os dados obrigatórios nos respectivos campos.

    • No campo Origem, escolha Construir usando um modelo e, em seguida, selecione este modelo - Introdução usando ShellCommandActivity.

    • A seção Parâmetros é aberta apenas quando o modelo é selecionado. Deixe a pasta de entrada S3 e o comando Shell para executar com seus valores padrão. Clique no ícone de pasta próximo à pasta de saída S3 e selecione os depósitos.

    • Em Agenda, deixe os valores como padrão.

    • Na configuração do pipeline, deixe o registro como ativado. Clique no ícone da pasta em localização S3 para logs e selecione os baldes.

    • Em Segurança / Acesso, deixe os valores das funções do IAM como padrão.

    • Clique no botão Ativar.

Como excluir um pipeline?

Excluir o pipeline também excluirá todos os objetos associados.

Step 1 - Selecione o pipeline na lista de pipelines.

Step 2 - Clique no botão Ações e escolha Excluir.

Step 3- Uma janela de prompt de confirmação é aberta. Clique em Delete.

Recursos do AWS Data Pipeline

Simple and cost-efficient- Seus recursos de arrastar e soltar facilitam a criação de um pipeline no console. Seu criador de pipeline visual fornece uma biblioteca de modelos de pipeline. Esses modelos facilitam a criação de pipelines para tarefas como processamento de arquivos de log, arquivamento de dados no Amazon S3, etc.

Reliable- Sua infraestrutura é projetada para atividades de execução tolerantes a falhas. Se ocorrerem falhas na lógica da atividade ou nas fontes de dados, o AWS Data Pipeline tentará novamente a atividade automaticamente. Se a falha continuar, ele enviará uma notificação de falha. Podemos até configurar esses alertas de notificação para situações como execuções bem-sucedidas, falhas, atrasos nas atividades, etc.

Flexible - O AWS Data Pipeline oferece vários recursos como agendamento, rastreamento, tratamento de erros, etc. Ele pode ser configurado para realizar ações como executar trabalhos do Amazon EMR, executar consultas SQL diretamente em bancos de dados, executar aplicativos personalizados em execução no Amazon EC2, etc.