Apache Flink - Processamento em lote versus processamento em tempo real

Em termos de Big Data, existem dois tipos de processamento -

  • Processamento em lote
  • Processamento em tempo real

O processamento com base nos dados coletados ao longo do tempo é chamado de processamento em lote. Por exemplo, um gerente de banco deseja processar os dados do último mês (coletados ao longo do tempo) para saber o número de cheques que foram cancelados no último mês.

O processamento baseado em dados imediatos para resultados instantâneos é chamado de processamento em tempo real. Por exemplo, um gerente de banco recebendo um alerta de fraude imediatamente após a ocorrência de uma transação fraudulenta (resultado instantâneo).

A tabela abaixo lista as diferenças entre o processamento em lote e em tempo real -

Processamento em lote Processamento em Tempo Real

Arquivos estáticos

Streams de eventos

Processado periodicamente em minuto, hora, dia etc.

Processado imediatamente

nanossegundos

Dados anteriores no armazenamento em disco

Armazenamento na memória

Exemplo - Geração de contas

Exemplo - Alerta de transação ATM

Atualmente, o processamento em tempo real está sendo muito usado em todas as organizações. Casos de uso como detecção de fraude, alertas em tempo real na área de saúde e alerta de ataque à rede exigem processamento em tempo real de dados instantâneos; um atraso de até mesmo alguns milissegundos pode ter um grande impacto.

Uma ferramenta ideal para esses casos de uso em tempo real seria aquela, que pode inserir dados como fluxo e não em lote. Apache Flink é essa ferramenta de processamento em tempo real.