Apache Presto - Visão geral

A análise de dados é o processo de análise de dados brutos para reunir informações relevantes para uma melhor tomada de decisão. É usado principalmente em muitas organizações para tomar decisões de negócios. Bem, a análise de big data envolve uma grande quantidade de dados e esse processo é bastante complexo, portanto, as empresas usam estratégias diferentes.

Por exemplo, o Facebook é uma das maiores empresas de armazenamento de dados orientadas a dados do mundo. Os dados de warehouse do Facebook são armazenados no Hadoop para computação em grande escala. Mais tarde, quando os dados do warehouse cresceram para petabytes, eles decidiram desenvolver um novo sistema com baixa latência. No ano de 2012, os membros da equipe do Facebook criaram“Presto” para análise de consulta interativa que operaria rapidamente mesmo com petabytes de dados.

O que é Apache Presto?

Apache Presto é um mecanismo de execução de consulta paralela distribuída, otimizado para baixa latência e análise de consulta interativa. O Presto executa consultas com facilidade e escala sem tempo de inatividade, mesmo de gigabytes a petabytes.

Uma única consulta Presto pode processar dados de várias fontes, como HDFS, MySQL, Cassandra, Hive e muitas outras fontes de dados. Presto é construído em Java e fácil de integrar com outros componentes de infraestrutura de dados. O Presto é poderoso e empresas líderes como Airbnb, DropBox, Groupon, Netflix o estão adotando.

Presto - Recursos

Presto contém os seguintes recursos -

  • Arquitetura simples e extensível.
  • Conectores plugáveis ​​- Presto oferece suporte a conectores plugáveis ​​para fornecer metadados e dados para consultas.
  • Execuções em pipeline - evita sobrecarga de latência de E / S desnecessária.
  • Funções definidas pelo usuário - os analistas podem criar funções personalizadas definidas pelo usuário para migrar facilmente.
  • Processamento colunar vetorizado.

Presto - Benefícios

Aqui está uma lista de benefícios que o Apache Presto oferece -

  • Operações SQL especializadas
  • Fácil de instalar e depurar
  • Abstração de armazenamento simples
  • Escala dados de petabytes rapidamente com baixa latência

Presto - Aplicativos

O Presto oferece suporte à maioria das melhores aplicações industriais da atualidade. Vamos dar uma olhada em alguns dos aplicativos notáveis.

  • Facebook- Facebook criou Presto para necessidades de análise de dados. O Presto dimensiona facilmente grandes velocidades de dados.

  • Teradata- A Teradata fornece soluções ponta a ponta em análise de Big Data e armazenamento de dados. A contribuição da Teradata para o Presto torna mais fácil para mais empresas atender a todas as necessidades analíticas.

  • Airbnb- O Presto é parte integrante da infraestrutura de dados do Airbnb. Bem, centenas de funcionários estão executando consultas todos os dias com a tecnologia.

Por que Presto?

O Presto suporta ANSI SQL padrão, o que o torna muito fácil para analistas de dados e desenvolvedores. Embora seja construído em Java, ele evita problemas típicos de código Java relacionados à alocação de memória e coleta de lixo. O Presto tem uma arquitetura de conector compatível com Hadoop. Ele permite conectar facilmente sistemas de arquivos.

O Presto é executado em várias distribuições do Hadoop. Além disso, o Presto pode acessar a partir de uma plataforma Hadoop para consultar o Cassandra, bancos de dados relacionais ou outros armazenamentos de dados. Esse recurso analítico de plataforma cruzada permite que os usuários do Presto extraiam o máximo valor comercial de gigabytes a petabytes de dados.