DynamoDB - MapReduce

O Elastic MapReduce (EMR) da Amazon permite que você processe big data de maneira rápida e eficiente. O EMR executa o Apache Hadoop em instâncias EC2, mas simplifica o processo. Você utiliza o Apache Hive para consultar o mapa e reduzir os fluxos de trabalho através do HiveQL , uma linguagem de consulta semelhante ao SQL. O Apache Hive serve como uma forma de otimizar as consultas e seus aplicativos.

Você pode usar a guia EMR do console de gerenciamento, o EMR CLI, uma API ou um SDK para iniciar um fluxo de trabalho. Você também tem a opção de executar o Hive interativamente ou utilizar um script.

As operações de leitura / gravação EMR afetam o consumo de taxa de transferência, no entanto, em grandes solicitações, ele executa novas tentativas com a proteção de um algoritmo de backoff. Além disso, executar o EMR simultaneamente com outras operações e tarefas pode resultar em limitação.

A integração DynamoDB / EMR não oferece suporte a atributos de conjuntos binários e binários.

Pré-requisitos de integração DynamoDB / EMR

Revise esta lista de verificação de itens necessários antes de usar EMR -

  • Uma conta AWS
  • Uma tabela preenchida sob a mesma conta empregada em operações EMR
  • Uma versão Hive personalizada com conectividade DynamoDB
  • Suporte de conectividade DynamoDB
  • Um balde S3 (opcional)
  • Um cliente SSH (opcional)
  • Um par de chaves EC2 (opcional)

Configuração de colmeia

Antes de usar o EMR, crie um par de chaves para executar o Hive no modo interativo. O par de chaves permite a conexão com instâncias EC2 e nós mestres de fluxos de trabalho.

Você pode fazer isso seguindo as etapas subsequentes -

  • Faça login no console de gerenciamento e abra o console EC2 localizado em https://console.aws.amazon.com/ec2/

  • Selecione uma região na parte superior direita do console. Certifique-se de que a região corresponda à região do DynamoDB.

  • No painel de navegação, selecione Key Pairs.

  • Selecione Create Key Pair.

  • No Key Pair Name campo, digite um nome e selecione Create.

  • Faça download do arquivo de chave privada resultante que usa o seguinte formato: filename.pem.

Note - Você não pode se conectar a instâncias EC2 sem o par de chaves.

Hive Cluster

Crie um cluster habilitado para hive para executar o Hive. Ele cria o ambiente necessário de aplicativos e infraestrutura para uma conexão Hive-para-DynamoDB.

Você pode executar esta tarefa usando as seguintes etapas -

  • Acesse o console EMR.

  • Selecione Create Cluster.

  • Na tela de criação, defina a configuração do cluster com um nome descritivo para o cluster, selecione Yes para proteção de terminação e verifique Enabled para registro, um destino S3 para log folder S3 locatione Enabled para depuração.

  • Na tela de configuração de software, certifique-se de que os campos sejam mantidos Amazon para distribuição do Hadoop, a versão mais recente da versão AMI, uma versão padrão do Hive para aplicativos a serem instalados-Hive e uma versão padrão do Pig para aplicativos a serem instalados-Pig.

  • Na tela de configuração de hardware, certifique-se de que os campos sejam mantidos Launch into EC2-Classic para rede, No Preference para EC2 Availability Zone, o padrão para Master-Amazon EC2 Instance Type, sem verificação para Request Spot Instances, o padrão para Core-Amazon EC2 Instance Type, 2 para Contagem, sem verificação para Solicitar Instâncias Spot, o padrão para Task-Amazon EC2 Instance Type, 0 para Contagem e sem verificação para Instâncias Spot de Solicitação.

Certifique-se de definir um limite fornecendo capacidade suficiente para evitar a falha do cluster.

  • Na tela Segurança e Acesso, certifique-se de que os campos contenham seu par de chaves no par de chaves EC2, No other IAM users no acesso do usuário IAM, e Proceed without roles na função IAM.

  • Revise a tela Bootstrap Actions, mas não a modifique.

  • Revise as configurações e selecione Create Cluster quando terminado.

UMA Summary painel aparece no início do cluster.

Ativar Sessão SSH

Você precisa de uma sessão SSH ativa para se conectar ao nó mestre e executar as operações CLI. Localize o nó mestre selecionando o cluster no console EMR. Ele lista o nó mestre comoMaster Public DNS Name.

Instale o PuTTY se não o tiver. Em seguida, inicie o PuTTYgen e selecioneLoad. Escolha seu arquivo PEM e abra-o. PuTTYgen irá informá-lo sobre a importação bem-sucedida. SelecioneSave private key para salvar no formato de chave privada PuTTY (PPK) e escolha Yespara salvar sem uma frase secreta. Em seguida, digite um nome para a chave PuTTY, pressioneSavee feche o PuTTYgen.

Use PuTTY para fazer uma conexão com o nó mestre, iniciando primeiro o PuTTY. EscolherSessionna lista de categorias. Digite hadoop @ DNS no campo Nome do host. ExpandirConnection > SSH na lista de categorias e escolha Auth. Na tela de opções de controle, selecioneBrowsepara arquivo de chave privada para autenticação. Em seguida, selecione seu arquivo de chave privada e abra-o. SelecioneYes para o pop-up de alerta de segurança.

Quando conectado ao nó mestre, um prompt de comando do Hadoop aparece, o que significa que você pode iniciar uma sessão interativa do Hive.

Mesa Colmeia

O Hive serve como uma ferramenta de armazenamento de dados permitindo consultas em clusters EMR usando HiveQL . As configurações anteriores fornecem um prompt de trabalho. Execute os comandos do Hive interativamente, simplesmente inserindo “hive” e, a seguir, quaisquer comandos que desejar. Consulte nosso tutorial do Hive para obter mais informações sobre o Hive .