Apache Flink - Processamento em lote versus processamento em tempo real
Em termos de Big Data, existem dois tipos de processamento -
- Processamento em lote
- Processamento em tempo real
O processamento com base nos dados coletados ao longo do tempo é chamado de processamento em lote. Por exemplo, um gerente de banco deseja processar os dados do último mês (coletados ao longo do tempo) para saber o número de cheques que foram cancelados no último mês.
O processamento baseado em dados imediatos para resultados instantâneos é chamado de processamento em tempo real. Por exemplo, um gerente de banco recebendo um alerta de fraude imediatamente após a ocorrência de uma transação fraudulenta (resultado instantâneo).
A tabela abaixo lista as diferenças entre o processamento em lote e em tempo real -
Processamento em lote | Processamento em Tempo Real |
---|---|
Arquivos estáticos |
Streams de eventos |
Processado periodicamente em minuto, hora, dia etc. |
Processado imediatamente nanossegundos |
Dados anteriores no armazenamento em disco |
Armazenamento na memória |
Exemplo - Geração de contas |
Exemplo - Alerta de transação ATM |
Atualmente, o processamento em tempo real está sendo muito usado em todas as organizações. Casos de uso como detecção de fraude, alertas em tempo real na área de saúde e alerta de ataque à rede exigem processamento em tempo real de dados instantâneos; um atraso de até mesmo alguns milissegundos pode ter um grande impacto.
Uma ferramenta ideal para esses casos de uso em tempo real seria aquela, que pode inserir dados como fluxo e não em lote. Apache Flink é essa ferramenta de processamento em tempo real.