Hadoop - Visão geral do HDFS

O Hadoop File System foi desenvolvido usando design de sistema de arquivos distribuído. É executado em hardware comum. Ao contrário de outros sistemas distribuídos, o HDFS é altamente tolerante a falhas e projetado com hardware de baixo custo.

O HDFS mantém uma grande quantidade de dados e fornece acesso mais fácil. Para armazenar dados tão grandes, os arquivos são armazenados em várias máquinas. Esses arquivos são armazenados de forma redundante para resgatar o sistema de possíveis perdas de dados em caso de falha. O HDFS também disponibiliza aplicativos para processamento paralelo.

Recursos do HDFS

  • É adequado para armazenamento e processamento distribuído.
  • O Hadoop fornece uma interface de comando para interagir com o HDFS.
  • Os servidores integrados de namenode e datanode ajudam os usuários a verificar facilmente o status do cluster.
  • Acesso de streaming aos dados do sistema de arquivos.
  • HDFS fornece permissões de arquivo e autenticação.

Arquitetura HDFS

A seguir está a arquitetura de um sistema de arquivos Hadoop.

O HDFS segue a arquitetura mestre-escravo e possui os seguintes elementos.

Namenode

O namenode é o hardware comum que contém o sistema operacional GNU / Linux e o software namenode. É um software que pode ser executado em hardware comum. O sistema com o namenode atua como o servidor mestre e executa as seguintes tarefas -

  • Gerencia o namespace do sistema de arquivos.

  • Regula o acesso do cliente aos arquivos.

  • Ele também executa operações do sistema de arquivos, como renomear, fechar e abrir arquivos e diretórios.

Datanode

O datanode é um hardware comum com o sistema operacional GNU / Linux e o software datanode. Para cada nó (hardware / sistema de commodities) em um cluster, haverá um datanode. Esses nós gerenciam o armazenamento de dados de seu sistema.

  • Os Datanodes executam operações de leitura e gravação nos sistemas de arquivos, conforme a solicitação do cliente.

  • Eles também realizam operações como criação, exclusão e replicação de blocos de acordo com as instruções do namenode.

Quadra

Geralmente os dados do usuário são armazenados nos arquivos do HDFS. O arquivo em um sistema de arquivos será dividido em um ou mais segmentos e / ou armazenado em nós de dados individuais. Esses segmentos de arquivo são chamados de blocos. Em outras palavras, a quantidade mínima de dados que o HDFS pode ler ou gravar é chamada de Bloco. O tamanho do bloco padrão é 64 MB, mas pode ser aumentado conforme a necessidade de alteração na configuração do HDFS.

Objetivos do HDFS

Fault detection and recovery- Como o HDFS inclui um grande número de hardware comum, a falha de componentes é frequente. Portanto, o HDFS deve ter mecanismos para detecção e recuperação rápida e automática de falhas.

Huge datasets - O HDFS deve ter centenas de nós por cluster para gerenciar os aplicativos com grandes conjuntos de dados.

Hardware at data- Uma tarefa solicitada pode ser realizada de forma eficiente, quando o cálculo ocorre próximo aos dados. Especialmente quando grandes conjuntos de dados estão envolvidos, ele reduz o tráfego de rede e aumenta o rendimento.