Amazon Web Services - Elastic MapReduce
Amazon Elastic MapReduce (EMR) é um serviço da web que fornece uma estrutura gerenciada para executar estruturas de processamento de dados, como Apache Hadoop, Apache Spark e Presto de maneira fácil, econômica e segura.
É usado para análise de dados, indexação da web, armazenamento de dados, análise financeira, simulação científica, etc.
Como configurar o Amazon EMR?
Siga estas etapas para configurar o Amazon EMR -
Step 1 - Faça login na conta da AWS e selecione Amazon EMR no console de gerenciamento.
Step 2- Crie um bucket do Amazon S3 para logs de cluster e dados de saída. (O procedimento é explicado em detalhes na seção Amazon S3)
Step 3 - Inicie o cluster Amazon EMR.
A seguir estão as etapas para criar o cluster e iniciá-lo no EMR.
Use este link para abrir o console Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home
Selecione criar cluster e forneça os detalhes necessários na página Configuração de Cluster.
Deixe as opções da seção Tags como padrão e prossiga.
Na seção de configuração de software, nivele as opções como padrão.
Na seção Configuração do sistema de arquivos, deixe as opções de EMRFS definidas por padrão. EMRFS é uma implementação de HDFS, que permite que os clusters do Amazon EMR armazenem dados no Amazon S3.
Na seção Configuração de Hardware, selecione m3.xlarge no campo de tipo de instância EC2 e deixe as outras configurações como padrão. Clique no botão Avançar.
Na seção Segurança e acesso, para o par de chaves EC2, selecione o par da lista no campo do par de chaves EC2 e deixe as outras configurações como padrão.
Na seção Ações de Bootstrap, deixe os campos configurados por padrão e clique no botão Adicionar. As ações de bootstrap são scripts executados durante a configuração, antes que o Hadoop seja iniciado em cada nó do cluster.
Na seção Etapas, deixe as configurações padrão e prossiga.
Clique no botão Criar cluster para abrir a página Detalhes do cluster. É aqui que devemos executar o script Hive como uma etapa de cluster e usar a interface da web do Hue para consultar os dados.
Step 4 - Execute o script Hive usando as seguintes etapas.
Abra o console do Amazon EMR e selecione o cluster desejado.
Vá para a seção Etapas e expanda-a. Em seguida, clique no botão Adicionar etapa.
A caixa de diálogo Adicionar etapa é aberta. Preencha os campos obrigatórios e clique no botão Adicionar.
Para visualizar a saída do script Hive, use as seguintes etapas -
Abra o console do Amazon S3 e selecione o bucket do S3 usado para os dados de saída.
Selecione a pasta de saída.
A consulta grava os resultados em uma pasta separada. Selecioneos_requests.
A saída é armazenada em um arquivo de texto. Este arquivo pode ser baixado.
Benefícios do Amazon EMR
A seguir estão os benefícios do Amazon EMR -
Easy to use - Amazon EMR é fácil de usar, ou seja, é fácil de configurar cluster, configuração de Hadoop, provisionamento de nó, etc.
Reliable - É confiável no sentido de que repete tarefas com falha e substitui automaticamente instâncias de baixo desempenho.
Elastic- Amazon EMR permite computar uma grande quantidade de instâncias para processar dados em qualquer escala. Ele aumenta ou diminui facilmente o número de instâncias.
Secure - Ele configura automaticamente as configurações de firewall do Amazon EC2, controla o acesso à rede para instâncias, inicia clusters em um Amazon VPC, etc.
Flexible- Permite controle completo sobre os clusters e acesso root a cada instância. Ele também permite a instalação de aplicativos adicionais e personaliza seu cluster conforme a necessidade.
Cost-efficient- Seu preço é fácil de estimar. Ele cobra por hora para cada instância usada.