HCatalog - Introdução

O que é HCatalog?

HCatalog é uma ferramenta de gerenciamento de armazenamento de tabela para Hadoop. Ele expõe os dados tabulares do metastore do Hive para outros aplicativos do Hadoop. Ele permite que os usuários com diferentes ferramentas de processamento de dados (Pig, MapReduce) gravem dados facilmente em uma grade. Isso garante que os usuários não precisem se preocupar com onde ou em que formato seus dados estão armazenados.

HCatalog funciona como um componente chave do Hive e permite que os usuários armazenem seus dados em qualquer formato e estrutura.

Por que HCatalog?

Habilitando a ferramenta certa para o trabalho certo

O ecossistema Hadoop contém diferentes ferramentas para processamento de dados, como Hive, Pig e MapReduce. Embora essas ferramentas não exijam metadados, elas ainda podem se beneficiar deles quando estiverem presentes. Compartilhar um repositório de metadados também permite que os usuários entre ferramentas compartilhem dados com mais facilidade. Um fluxo de trabalho em que os dados são carregados e normalizados usando MapReduce ou Pig e depois analisados ​​por meio do Hive é muito comum. Se todas essas ferramentas compartilham um metastore, os usuários de cada ferramenta têm acesso imediato aos dados criados com outra ferramenta. Nenhuma etapa de carregamento ou transferência é necessária.

Capture estados de processamento para permitir o compartilhamento

HCatalog pode publicar seus resultados analíticos. Assim, o outro programador pode acessar sua plataforma analítica via “REST”. Os esquemas publicados por você também são úteis para outros cientistas de dados. Os outros cientistas de dados usam suas descobertas como entradas para uma descoberta subsequente.

Integre o Hadoop com tudo

O Hadoop como um ambiente de processamento e armazenamento abre muitas oportunidades para a empresa; no entanto, para estimular a adoção, ele deve funcionar e aumentar as ferramentas existentes. O Hadoop deve servir como entrada em sua plataforma analítica ou integrar-se com seus armazenamentos de dados operacionais e aplicativos da web. A organização deve aproveitar o valor do Hadoop sem ter que aprender um conjunto de ferramentas totalmente novo. Os serviços REST abrem a plataforma para a empresa com uma API familiar e linguagem semelhante a SQL. Os sistemas de gerenciamento de dados corporativos usam o HCatalog para uma integração mais profunda com a plataforma Hadoop.

Arquitetura HCatalog

A ilustração a seguir mostra a arquitetura geral do HCatalog.

HCatalog suporta leitura e gravação de arquivos em qualquer formato para o qual um SerDe(serializador-desserializador) pode ser escrito. Por padrão, HCatalog oferece suporte aos formatos de arquivo RCFile, CSV, JSON, SequenceFile e ORC. Para usar um formato personalizado, você deve fornecer InputFormat, OutputFormat e SerDe.

HCatalog é construído em cima do metastore do Hive e incorpora o DDL do Hive. HCatalog fornece interfaces de leitura e gravação para Pig e MapReduce e usa a interface de linha de comando do Hive para emitir comandos de definição de dados e exploração de metadados.