Perguntas da entrevista do Hadoop

O que o comando 'jps' faz?

Ele fornece o status dos demônios que executam o cluster Hadoop. Ele fornece a saída mencionando o status do namenode, datanode, namenode secundário, Jobtracker e Task tracker.

Como reiniciar o Namenode?

Step-1. Clique em stop-all.sh e depois em start-all.sh OU

Step-2. Escreva sudo hdfs (pressione Enter), su-hdfs (pressione Enter), /etc/init.d/ha (pressione Enter) e então /etc/init.d/hadoop-0.20-namenode start (pressione Enter).

Quais são os três modos em que o Hadoop pode ser executado?

Os três modos em que o Hadoop pode ser executado são -

modo autônomo (local)
Modo pseudo-distribuído
Modo totalmente distribuído

O que /etc/init.d faz?

/etc/init.d especifica onde os daemons (serviços) são colocados ou para ver o status desses daemons. É muito específico do LINUX e nada a ver com o Hadoop.

E se um Namenode não tiver dados?

Não pode fazer parte do cluster do Hadoop.

O que acontece com o rastreador de trabalho quando o Namenode está desativado?

Quando o Namenode está inativo, seu cluster está DESLIGADO, porque o Namenode é o único ponto de falha no HDFS.

O que é Big Data?

Big Data nada mais é do que uma variedade de dados tão grandes e complexos que se torna muito tedioso para capturar, armazenar, processar, recuperar e analisar com a ajuda de ferramentas de gerenciamento de banco de dados disponíveis ou técnicas tradicionais de processamento de dados.

Quais são as quatro características do Big Data?

as três características do Big Data são -

Volume - Facebook gerando mais de 500 terabytes de dados por dia.

Velocity - Analisar 2 milhões de registros por dia para identificar o motivo das perdas.

Variety - imagens, áudio, vídeo, dados do sensor, arquivos de log, etc. Veracidade: vieses, ruído e anormalidade nos dados

Como a análise de Big Data é útil para as organizações?

Uma análise eficaz de Big Data oferece muitas vantagens de negócios, pois as organizações aprenderão em quais áreas se concentrar e quais são menos importantes. A análise de big data fornece alguns indicadores-chave iniciais que podem impedir a empresa de uma grande perda ou ajudar a agarrar uma grande oportunidade com as mãos abertas! Uma análise precisa do Big Data auxilia na tomada de decisões! Por exemplo, hoje em dia as pessoas confiam muito no Facebook e no Twitter antes de comprar qualquer produto ou serviço. Tudo graças à explosão do Big Data.

Por que precisamos do Hadoop?

Todos os dias, uma grande quantidade de dados não estruturados é despejada em nossas máquinas. O maior desafio não é armazenar grandes conjuntos de dados em nossos sistemas, mas recuperar e analisar o big data nas organizações, que também estão presentes em diferentes máquinas em diferentes locais. Nessa situação, surge a necessidade do Hadoop. O Hadoop tem a capacidade de analisar os dados presentes em diferentes máquinas em diferentes locais de forma muito rápida e econômica. Ele usa o conceito de MapReduce, que permite dividir a consulta em pequenas partes e processá-las em paralelo. Isso também é conhecido como computação paralela. O link a seguir Por que o Hadoop fornece uma explicação detalhada sobre por que o Hadoop está ganhando tanta popularidade!

Qual é a diferença básica entre RDBMS tradicional e Hadoop?

O RDBMS tradicional é usado para sistemas transacionais para relatar e arquivar os dados, enquanto o Hadoop é uma abordagem para armazenar uma grande quantidade de dados no sistema de arquivos distribuído e processá-los. O RDBMS será útil quando você quiser buscar um registro de Big data, enquanto o Hadoop será útil quando você quiser Big data de uma só vez e realizar análises mais tarde

O que é tolerância a falhas?

Suponha que você tenha um arquivo armazenado em um sistema e, devido a algum problema técnico, esse arquivo seja destruído. Então, não há chance de obter os dados presentes naquele arquivo. Para evitar tais situações, o Hadoop introduziu o recurso de tolerância a falhas no HDFS. No Hadoop, quando armazenamos um arquivo, ele é automaticamente replicado em dois outros locais também. Portanto, mesmo que um ou dois sistemas entrem em colapso, o arquivo ainda estará disponível no terceiro sistema.

A replicação causa redundância de dados, então por que ela é realizada no HDFS?

O HDFS funciona com hardware comum (sistemas com configurações médias) que tem grandes chances de travar a qualquer momento. Assim, para tornar todo o sistema altamente tolerante a falhas, o HDFS replica e armazena dados em locais diferentes. Todos os dados no HDFS são armazenados em pelo menos 3 locais diferentes. Assim, mesmo que um deles esteja corrompido e o outro fique indisponível por algum tempo por algum motivo, os dados podem ser acessados do terceiro. Portanto, não há chance de perder os dados. Esse fator de replicação nos ajuda a obter o recurso do Hadoop chamado Fault Tolerant.

Como os dados são replicados três vezes no HDFS, isso significa que qualquer cálculo feito em um nó também será replicado nos outros dois?

Não, os cálculos serão feitos apenas nos dados originais. O nó mestre saberá qual nó exatamente tem esses dados específicos. No caso, se um dos nós não estiver respondendo, é considerado que falhou. Só então, o cálculo necessário será feito na segunda réplica.

O que é um Namenode?

Namenode é o nó mestre no qual o rastreador de trabalho é executado e consiste nos metadados. Ele mantém e gerencia os blocos que estão presentes nos datanodes. É uma máquina de alta disponibilidade e ponto único de falha no HDFS.

O Namenode também é um hardware comum?

Não. O Namenode nunca pode ser um hardware comum porque todo o HDFS depende dele. É o único ponto de falha no HDFS. O Namenode deve ser uma máquina de alta disponibilidade.

O que é um Datanode?

Datanodes são os escravos que são implantados em cada máquina e fornecem o armazenamento real. Eles são responsáveis por atender às solicitações de leitura e gravação dos clientes.

Por que usamos HDFS para aplicativos com grandes conjuntos de dados e não quando há muitos arquivos pequenos?

O HDFS é mais adequado para uma grande quantidade de conjuntos de dados em um único arquivo em comparação com uma pequena quantidade de dados espalhados por vários arquivos. Isso ocorre porque o Namenode é um sistema de alto desempenho muito caro, portanto, não é prudente ocupar o espaço no Namenode por uma quantidade desnecessária de metadados que são gerados para vários arquivos pequenos. Portanto, quando há uma grande quantidade de dados em um único arquivo, o nó de nome ocupará menos espaço. Portanto, para obter um desempenho otimizado, o HDFS oferece suporte a grandes conjuntos de dados em vez de vários arquivos pequenos.

O que é um rastreador de trabalho?

O rastreador de trabalho é um daemon executado em um namenode para enviar e rastrear trabalhos MapReduce no Hadoop. Ele atribui as tarefas a diferentes rastreadores de tarefas. Em um cluster Hadoop, haverá apenas um rastreador de tarefa, mas muitos rastreadores de tarefa. É o único ponto de falha do serviço Hadoop e MapReduce. Se o rastreador de trabalho cair, todos os trabalhos em execução serão interrompidos. Ele recebe pulsação do rastreador de tarefas com base em qual rastreador de trabalho decide se a tarefa atribuída é concluída ou não.

O que é um rastreador de tarefas?

O rastreador de tarefas também é um daemon que roda em datanodes. Os rastreadores de tarefas gerenciam a execução de tarefas individuais no nó escravo. Quando um cliente envia um trabalho, o rastreador de trabalho inicializa o trabalho e divide o trabalho e os atribui a diferentes rastreadores de tarefas para realizar tarefas MapReduce. Ao executar esta ação, o rastreador de tarefas estará se comunicando simultaneamente com o rastreador de trabalhos enviando pulsação. Se o rastreador de tarefa não receber pulsação do rastreador de tarefa dentro do tempo especificado, ele assumirá que o rastreador de tarefa travou e atribuirá essa tarefa a outro rastreador de tarefa no cluster.

O que é uma pulsação no HDFS?

Um batimento cardíaco é um sinal que indica que ele está vivo. Um datanode envia pulsação para Namenode e o rastreador de tarefas enviará sua pulsação para o rastreador de trabalho. Se o Namenode ou rastreador de trabalho não receber batimento cardíaco, eles decidirão que há algum problema no datanode ou rastreador de tarefa é incapaz de executar a tarefa atribuída.

O que é um 'bloco' no HDFS?

Um 'bloco' é a quantidade mínima de dados que pode ser lida ou gravada. No HDFS, o tamanho do bloco padrão é 64 MB, em contraste com o tamanho do bloco de 8.192 bytes no Unix / Linux. Os arquivos no HDFS são divididos em blocos do tamanho de blocos, que são armazenados como unidades independentes. Os blocos HDFS são grandes em comparação aos blocos de disco, principalmente para minimizar o custo das buscas. Se um arquivo específico tiver 50 MB, o bloco HDFS ainda consumirá 64 MB como o tamanho padrão? Não, de jeito nenhum! 64 MB é apenas uma unidade onde os dados serão armazenados. Nesta situação particular, apenas 50 MB serão consumidos por um bloco HDFS e 14 MB estarão livres para armazenar algo mais. É o MasterNode que faz a alocação de dados de maneira eficiente.

Quais são os benefícios da transferência em bloco?

Um arquivo pode ser maior do que qualquer disco único na rede. Não há nada que exija que os blocos de um arquivo sejam armazenados no mesmo disco, para que possam aproveitar qualquer um dos discos do cluster. Tornar a unidade de abstração um bloco em vez de um arquivo simplifica o subsistema de armazenamento. Os blocos fornecem tolerância a falhas e disponibilidade. Para garantir contra blocos corrompidos e falha de disco e máquina, cada bloco é replicado para um pequeno número de máquinas fisicamente separadas (normalmente três). Se um bloco ficar indisponível, uma cópia pode ser lida de outro local de forma transparente para o cliente?

Como a indexação é feita no HDFS?

O Hadoop tem sua própria maneira de indexar. Dependendo do tamanho do bloco, uma vez que os dados são armazenados, o HDFS continuará armazenando a última parte dos dados que dirá onde a próxima parte dos dados estará.

O rastreador de trabalho e os rastreadores de tarefa estão presentes em máquinas separadas?

Sim, rastreador de trabalho e rastreador de tarefa estão presentes em máquinas diferentes. O motivo é que o rastreador de trabalho é um ponto único de falha para o serviço Hadoop MapReduce. Se ele cair, todos os trabalhos em execução serão interrompidos.

Qual é o canal de comunicação entre o cliente e namenode / datanode?

O modo de comunicação é SSH.

O que é um rack?

Rack é uma área de armazenamento com todos os datanodes reunidos. Esses datanodes podem estar fisicamente localizados em locais diferentes. Rack é uma coleção física de datanodes armazenados em um único local. Pode haver vários racks em um único local.

O que é um Namenode secundário? É um substituto para o Namenode?

O Namenode secundário lê constantemente os dados da RAM do Namenode e os grava no disco rígido ou no sistema de arquivos. Não é um substituto para o Namenode, portanto, se o Namenode falhar, todo o sistema Hadoop ficará inativo.

Explique como funcionam as funções de 'mapear' e 'reduzir'.

O Namenode pega a entrada e divide em partes e as atribui aos nós de dados. Esses datanodes processam as tarefas atribuídas a eles e fazem um par de valores-chave e retornam a saída intermediária ao Redutor. O redutor coleta esses pares de valores-chave de todos os datanodes e os combina e gera a saída final.

Por que 'Reading' é feito em paralelo e 'Writing' não está no HDFS?

Através do programa mapreduce, o arquivo pode ser lido dividindo seus blocos durante a leitura. Mas enquanto estiver escrevendo, os valores de entrada ainda não são conhecidos pelo sistema mapreduce não pode ser aplicado e nenhuma escrita paralela é possível.

Copie um diretório de um nó no cluster para outro

Use o comando '-distcp' para copiar,

O fator de replicação padrão para um arquivo é 3.

Use o comando '-setrep' para alterar o fator de replicação de um arquivo para 2.

hadoop fs -setrep -w 2 apache_hadoop / sample.txt

O que é reconhecimento de rack?

Reconhecimento de rack é a maneira pela qual o namenode decide como colocar blocos com base nas definições de rack O Hadoop tentará minimizar o tráfego de rede entre datanodes dentro do mesmo rack e só entrará em contato com racks remotos se for necessário. O namenode é capaz de controlar isso devido ao reconhecimento do rack.

Qual arquivo faz a configuração do Hadoop-core?

core-default.xml

Existe um comando hdfs para ver o espaço livre disponível em hdfs

hadoop dfsadmin -report

O requisito é adicionar um novo nó de dados a um cluster Hadoop em execução; como faço para iniciar serviços em apenas um nó de dados?

Você não precisa desligar e / ou reiniciar o cluster inteiro neste caso.

Primeiro, adicione o nome DNS do novo nó ao arquivo conf / slaves no nó mestre.

Em seguida, faça login no novo nó escravo e execute -

$ cd caminho / para / hadoop

$ bin / hadoop-daemon.sh start datanode

$ bin / hadoop-daemon.sh start tasktracker

em seguida, issuehadoop dfsadmin -refreshNodes e hadoop mradmin -refreshNodes para que NameNode e JobTracker saibam sobre o nó adicional que foi adicionado.

Como você interrompe normalmente um trabalho em execução?

Hadoop job –kill jobid

O nó do nome permanece no modo de segurança até que todos os arquivos sub-replicados sejam totalmente replicados?

Não. Durante o modo de segurança, a replicação de blocos é proibida. O nó de nome aguarda quando todos ou a maioria dos nós de dados relatar seus blocos.

O que acontece se um cliente Hadoop renomeia um arquivo ou diretório que contém esse arquivo enquanto outro cliente ainda está gravando nele?

Um arquivo aparecerá no namespace assim que for criado. Se um gravador estiver gravando em um arquivo e outro cliente renomear o próprio arquivo ou qualquer um de seus componentes de caminho, o gravador original obterá uma IOException quando terminar de gravar no bloco atual ou quando fechar o arquivo.

Como tornar um grande cluster menor removendo alguns dos nós?

O Hadoop oferece o recurso de desativação para retirar um conjunto de nós de dados existentes. Os nós a serem retirados devem ser incluídos no arquivo de exclusão e o nome do arquivo de exclusão deve ser especificado como um parâmetro de configuração dfs.hosts.exclude.

O processo de desativação pode ser encerrado a qualquer momento, editando a configuração ou os arquivos de exclusão e repetindo o -refreshNodes comando

Podemos pesquisar arquivos usando curingas?

Sim. Por exemplo, para listar todos os arquivos que começam com a letra a, você pode usar o comando ls com o * curinga & minu;

hdfs dfs –ls a*

O que acontece quando dois clientes tentam gravar no mesmo arquivo HDFS?

O HDFS oferece suporte apenas para gravações exclusivas.

Quando o primeiro cliente contata o nó do nome para abrir o arquivo para gravação, o nó do nome concede uma concessão ao cliente para criar esse arquivo. Quando o segundo cliente tenta abrir o mesmo arquivo para gravação, o nó do nome verá que a concessão do arquivo já foi concedida a outro cliente e rejeitará a solicitação de abertura para o segundo cliente

O que significa "arquivo só pode ser replicado para 0 nós, em vez de 1"?

O namenode não tem nenhum DataNodes disponível.

O que é um combinador?

O Combiner é um processo de 'mini-redução' que opera apenas em dados gerados por um mapeador. O Combiner receberá como entrada todos os dados emitidos pelas instâncias do Mapper em um determinado nó. A saída do Combiner é então enviada para os Redutores, em vez da saída dos Mapeadores

Considere o cenário de caso: No sistema M / R, - o tamanho do bloco HDFS é 64 MB

- O formato de entrada é FileInputFormat

- Temos 3 arquivos de tamanho 64K, 65Mb e 127Mb

Quantas divisões de entrada serão feitas pelo framework Hadoop?

O Hadoop fará 5 divisões da seguinte forma -

- 1 divisão para arquivos de 64K
- 2 divisões para arquivos de 65 MB
- 2 divisões para arquivos de 127 MB

Suponha que o Hadoop gerou 100 tarefas para um trabalho e uma das tarefas falhou. O que o Hadoop fará?

Ele reiniciará a tarefa novamente em algum outro TaskTracker e somente se a tarefa falhar mais de quatro vezes (a configuração padrão e pode ser alterada) ele encerrará o trabalho.

Quais são os problemas com arquivos pequenos e HDFS?

O HDFS não é bom para lidar com um grande número de arquivos pequenos. Porque cada arquivo, diretório e bloco no HDFS é representado como um objeto na memória do namenode, cada um ocupando aproximadamente 150 bytes. Portanto, 10 milhões de arquivos, cada um usando um bloco, usariam cerca de 3 gigabytes de memória. quando procuramos um bilhão de arquivos, o requisito de memória no namenode não pode ser atendido.

O que é execução especulativa no Hadoop?

Se um nó parece estar lento, o nó mestre pode executar redundantemente outra instância da mesma tarefa e a primeira saída será obtida. Este processo é chamado de execução especulativa.

O Hadoop pode lidar com dados de streaming?

Sim, por meio de tecnologias como Apache Kafka, Apache Flume e Apache Spark é possível fazer streaming em grande escala.

Por que o ponto de verificação é importante no Hadoop?

Conforme mais e mais arquivos são adicionados, o namenode cria grandes logs de edição. O que pode atrasar substancialmente a inicialização do NameNode, pois o NameNode reaplica todas as edições. O ponto de verificação é um processo que pega uma imagem de imagem e edita o log e os compacta em uma nova imagem de imagem. Dessa forma, em vez de reproduzir um log de edição potencialmente ilimitado, o NameNode pode carregar o estado final na memória diretamente do fsimage. Esta é uma operação muito mais eficiente e reduz o tempo de inicialização do NameNode.