Apache Flink - Flink vs Spark vs Hadoop

Aqui está uma tabela abrangente, que mostra a comparação entre as três estruturas de big data mais populares: Apache Flink, Apache Spark e Apache Hadoop.

Apache Hadoop Apache Spark Apache Flink

Year of Origin

2005 2009 2009

Place of Origin

MapReduce (Google) Hadoop (Yahoo) Universidade da California, Berkeley Universidade Técnica de Berlim

Data Processing Engine

Lote Lote Corrente

Processing Speed

Mais lento que Spark e Flink 100x mais rápido que o Hadoop Mais rápido que faísca

Programming Languages

Java, C, C ++, Ruby, Groovy, Perl, Python Java, Scala, python e R Java e Scala

Programming Model

MapReduce Conjuntos de dados distribuídos resilientes (RDD) Fluxos de dados cíclicos

Data Transfer

Lote Lote Pipelined e Batch

Memory Management

Baseado em disco JVM gerenciado Gerenciado Ativo

Latency

Baixo Médio Baixo

Throughput

Médio Alto Alto

Optimization

Manual Manual Automático

API

Nível baixo Alto nível Alto nível

Streaming Support

N / D Spark Streaming Flink Streaming

SQL Support

Hive, Impala SparkSQL API de tabela e SQL

Graph Support

N / D GraphX Gelly

Machine Learning Support

N / D SparkML FlinkML