Amazon Web Services - Elastic MapReduce

Amazon Elastic MapReduce (EMR) é um serviço da web que fornece uma estrutura gerenciada para executar estruturas de processamento de dados, como Apache Hadoop, Apache Spark e Presto de maneira fácil, econômica e segura.

É usado para análise de dados, indexação da web, armazenamento de dados, análise financeira, simulação científica, etc.

Como configurar o Amazon EMR?

Siga estas etapas para configurar o Amazon EMR -

Step 1 - Faça login na conta da AWS e selecione Amazon EMR no console de gerenciamento.

Step 2- Crie um bucket do Amazon S3 para logs de cluster e dados de saída. (O procedimento é explicado em detalhes na seção Amazon S3)

Step 3 - Inicie o cluster Amazon EMR.

A seguir estão as etapas para criar o cluster e iniciá-lo no EMR.

  • Deixe as opções da seção Tags como padrão e prossiga.

  • Na seção de configuração de software, nivele as opções como padrão.

  • Na seção Configuração do sistema de arquivos, deixe as opções de EMRFS definidas por padrão. EMRFS é uma implementação de HDFS, que permite que os clusters do Amazon EMR armazenem dados no Amazon S3.

  • Na seção Configuração de Hardware, selecione m3.xlarge no campo de tipo de instância EC2 e deixe as outras configurações como padrão. Clique no botão Avançar.

  • Na seção Segurança e acesso, para o par de chaves EC2, selecione o par da lista no campo do par de chaves EC2 e deixe as outras configurações como padrão.

  • Na seção Ações de Bootstrap, deixe os campos configurados por padrão e clique no botão Adicionar. As ações de bootstrap são scripts executados durante a configuração, antes que o Hadoop seja iniciado em cada nó do cluster.

  • Na seção Etapas, deixe as configurações padrão e prossiga.

  • Clique no botão Criar cluster para abrir a página Detalhes do cluster. É aqui que devemos executar o script Hive como uma etapa de cluster e usar a interface da web do Hue para consultar os dados.

Step 4 - Execute o script Hive usando as seguintes etapas.

  • Abra o console do Amazon EMR e selecione o cluster desejado.

  • Vá para a seção Etapas e expanda-a. Em seguida, clique no botão Adicionar etapa.

  • A caixa de diálogo Adicionar etapa é aberta. Preencha os campos obrigatórios e clique no botão Adicionar.

  • Para visualizar a saída do script Hive, use as seguintes etapas -

    • Abra o console do Amazon S3 e selecione o bucket do S3 usado para os dados de saída.

    • Selecione a pasta de saída.

    • A consulta grava os resultados em uma pasta separada. Selecioneos_requests.

    • A saída é armazenada em um arquivo de texto. Este arquivo pode ser baixado.

Benefícios do Amazon EMR

A seguir estão os benefícios do Amazon EMR -

  • Easy to use - Amazon EMR é fácil de usar, ou seja, é fácil de configurar cluster, configuração de Hadoop, provisionamento de nó, etc.

  • Reliable - É confiável no sentido de que repete tarefas com falha e substitui automaticamente instâncias de baixo desempenho.

  • Elastic- Amazon EMR permite computar uma grande quantidade de instâncias para processar dados em qualquer escala. Ele aumenta ou diminui facilmente o número de instâncias.

  • Secure - Ele configura automaticamente as configurações de firewall do Amazon EC2, controla o acesso à rede para instâncias, inicia clusters em um Amazon VPC, etc.

  • Flexible- Permite controle completo sobre os clusters e acesso root a cada instância. Ele também permite a instalação de aplicativos adicionais e personaliza seu cluster conforme a necessidade.

  • Cost-efficient- Seu preço é fácil de estimar. Ele cobra por hora para cada instância usada.