PySpark - Introdução

Neste capítulo, vamos nos familiarizar com o que é o Apache Spark e como o PySpark foi desenvolvido.

Spark - Visão geral

Apache Spark é uma estrutura de processamento em tempo real extremamente rápida. Ele faz cálculos na memória para analisar dados em tempo real. Ele entrou em cena comoApache Hadoop MapReduceestava realizando processamento em lote apenas e não tinha um recurso de processamento em tempo real. Portanto, o Apache Spark foi introduzido porque pode realizar processamento de stream em tempo real e também pode cuidar do processamento em lote.

Além do processamento em tempo real e em lote, o Apache Spark também oferece suporte a consultas interativas e algoritmos iterativos. Apache Spark possui seu próprio gerenciador de cluster, onde pode hospedar seu aplicativo. Ele aproveita o Apache Hadoop para armazenamento e processamento. UsaHDFS (Sistema de arquivos distribuídos Hadoop) para armazenamento e pode executar aplicativos Spark em YARN também.

PySpark - Visão geral

Apache Spark é escrito em Scala programming language. Para oferecer suporte a Python com Spark, a comunidade Apache Spark lançou uma ferramenta, PySpark. Usando o PySpark, você pode trabalhar comRDDsna linguagem de programação Python também. É por causa de uma biblioteca chamadaPy4j que eles são capazes de alcançar isso.

Ofertas PySpark PySpark Shellque vincula a API Python ao núcleo do Spark e inicializa o contexto do Spark. A maioria dos cientistas de dados e especialistas em análise hoje usa Python por causa de seu rico conjunto de bibliotecas. Integrar Python com Spark é uma bênção para eles.