Apache Flume - Introdução

O que é Flume?

Apache Flume é uma ferramenta / serviço / mecanismo de ingestão de dados para coletar, agregar e transportar grandes quantidades de dados de streaming, como arquivos de log, eventos (etc ...) de várias fontes para um armazenamento de dados centralizado.

O Flume é uma ferramenta altamente confiável, distribuída e configurável. Ele é projetado principalmente para copiar dados de streaming (dados de log) de vários servidores da web para o HDFS.

Aplicações de Flume

Suponha que um aplicativo da web de e-commerce deseja analisar o comportamento do cliente de uma determinada região. Para fazer isso, eles precisariam mover os dados de log disponíveis para o Hadoop para análise. Aqui, o Apache Flume vem em nosso resgate.

O Flume é usado para mover os dados de log gerados pelos servidores de aplicativos para o HDFS em uma velocidade mais alta.

Vantagens do Flume

Aqui estão as vantagens de usar o Flume -

  • Usando o Apache Flume, podemos armazenar os dados em qualquer um dos armazenamentos centralizados (HBase, HDFS).

  • Quando a taxa de entrada de dados excede a taxa na qual os dados podem ser gravados no destino, o Flume atua como um mediador entre os produtores de dados e os armazenamentos centralizados e fornece um fluxo constante de dados entre eles.

  • Flume fornece o recurso de contextual routing.

  • As transações no Flume são baseadas em canais, onde duas transações (um remetente e um receptor) são mantidas para cada mensagem. Ele garante uma entrega confiável de mensagens.

  • O Flume é confiável, tolerante a falhas, escalonável, gerenciável e personalizável.

Características do Flume

Algumas das características notáveis ​​do Flume são as seguintes -

  • O Flume ingere dados de log de vários servidores da web em um armazenamento centralizado (HDFS, HBase) com eficiência.

  • Usando o Flume, podemos obter os dados de vários servidores imediatamente para o Hadoop.

  • Junto com os arquivos de log, o Flume também é usado para importar grandes volumes de dados de eventos produzidos por sites de redes sociais como Facebook e Twitter, e sites de comércio eletrônico como Amazon e Flipkart.

  • O Flume oferece suporte a um grande conjunto de tipos de fontes e destinos.

  • O Flume suporta fluxos de vários saltos, fluxos fan-in fan-out, roteamento contextual, etc.

  • O canal pode ser dimensionado horizontalmente.