Neste capítulo, aprenderemos sobre a aplicação dos recursos de extração com PySpark no Agile Data Science.
Visão geral do Spark
O Apache Spark pode ser definido como uma estrutura de processamento rápido em tempo real. Ele faz cálculos para analisar dados em tempo real. O Apache Spark é apresentado como um sistema de processamento de fluxo em tempo real e também pode cuidar do processamento em lote. O Apache Spark oferece suporte a consultas interativas e algoritmos iterativos.
O Spark é escrito na “linguagem de programação Scala”.
O PySpark pode ser considerado uma combinação de Python com Spark. O PySpark oferece o shell PySpark, que vincula a API Python ao núcleo do Spark e inicializa o contexto do Spark. A maioria dos cientistas de dados usa o PySpark para rastrear recursos conforme discutido no capítulo anterior.
Neste exemplo, vamos nos concentrar nas transformações para construir um conjunto de dados chamado contagens e salvá-lo em um arquivo específico.
text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")
Usando o PySpark, um usuário pode trabalhar com RDDs na linguagem de programação python. A biblioteca embutida, que cobre os fundamentos de documentos e componentes baseados em dados, ajuda nisso.