Uma interface DataFrame permite que diferentes DataSources funcionem no Spark SQL. É uma mesa temporária e pode ser operada como um RDD normal. Registrar um DataFrame como uma tabela permite que você execute consultas SQL sobre seus dados.
Neste capítulo, descreveremos os métodos gerais para carregar e salvar dados usando diferentes fontes de dados Spark. Depois disso, discutiremos em detalhes as opções específicas que estão disponíveis para as fontes de dados integradas.
Existem diferentes tipos de fontes de dados disponíveis no SparkSQL, alguns dos quais estão listados abaixo -
Sr. Não |
Fontes de dados |
1 |
Conjuntos de dados JSON O Spark SQL pode capturar automaticamente o esquema de um conjunto de dados JSON e carregá-lo como um DataFrame. |
2 |
Hive Tables O Hive vem junto com a biblioteca Spark como HiveContext, que herda de SQLContext. |
3 |
Arquivos Parquet Parquet é um formato colunar, suportado por muitos sistemas de processamento de dados. |