Perguntas da entrevista do Hive

Quais são os diferentes tipos de tabelas disponíveis no HIve?

Existem dois tipos. Mesa gerenciada e mesa externa. Na tabela gerenciada, os dados e o esquema estão sob controle do Hive, mas na tabela externa, apenas o esquema está sob o controle do Hive.

O Hive é adequado para ser usado em sistemas OLTP? Por quê?

No Hive não fornece inserção e atualização no nível da linha. Portanto, não é adequado para o sistema OLTP.

Uma tabela pode ser renomeada no Hive?

Alterar Tabela table_name RENAME TO new_name

Podemos alterar o tipo de dados de uma coluna em uma tabela hive?

Usando a opção de coluna REPLACE

ALTER TABLE nome_tabela REPLACE COLUMNS ……

O que é um metastore no Hive?

É um banco de dados relacional que armazena os metadados de tabelas, partições, bancos de dados Hive etc.

Qual é a necessidade de um Serde personalizado?

Dependendo da natureza dos dados que o usuário possui, o SerDe embutido pode não atender ao formato dos dados. Os usuários de SO precisam escrever seu próprio código java para satisfazer seus requisitos de formato de dados.

Por que precisamos do Hive?

Hive é uma ferramenta no ecossistema Hadoop que fornece uma interface para organizar e consultar dados em um banco de dados da mesma maneira e escrever consultas como SQL. É adequado para acessar e analisar dados no Hadoop usando a sintaxe SQL.

Qual é o local padrão onde o hive armazena os dados da tabela?

hdfs: // namenode_server / user / hive / warehouse

Quais são os três modos diferentes em que a colmeia pode ser executada?

Modo local
Modo distribuído
Modo pseudodistribuído

Existe um tipo de dados de data no Hive?

Sim. Os tipos de dados TIMESTAMP armazenam data no formato java.sql.timestamp

Quais são os tipos de dados de coleta no Hive?

Existem três tipos de dados de coleta no Hive.

ARRAY
MAP
STRUCT

Podemos executar comandos shell Unix do hive? Dê um exemplo.

Sim, usando o! marque logo antes do comando.

Por exemplo,! Pwd no prompt do hive listará o diretório atual.

O que é uma variável do Hive? Para que usamos isso?

A variável hive é uma variável criada no ambiente Hive que pode ser referenciada por scripts Hive. É usado para passar alguns valores para as consultas do hive quando a consulta começa a ser executada.

As consultas do hive podem ser executadas a partir de arquivos de script? Quão?

Usando o comando source.

Example −

Hive> source /path/to/file/file_with_query.hql

Qual é a importância do arquivo .hiverc?

É um arquivo que contém uma lista de comandos que precisam ser executados quando o hive CLI é iniciado. Por exemplo, definir o modo estrito como verdadeiro, etc.

Quais são o registro padrão e o delimitador de campo usados para arquivos de texto do hive?

O delimitador de registro padrão é - \ n

E os delimitadores arquivados são - \ 001, \ 002, \ 003

O que você quer dizer com esquema na leitura?

O esquema é validado com os dados ao ler os dados e não aplicado ao gravar dados.

Como você lista todos os bancos de dados cujo nome começa com p?

MOSTRAR BANCOS DE DADOS COMO 'p. *'

O que o comando “USE” no hive faz?

Com o comando use, você fixa o banco de dados no qual todas as consultas subsequentes do hive serão executadas.

Como você pode excluir o DBPROPERTY no Hive?

Não há como excluir DBPROPERTY.

Qual é o significado da linha

set hive.mapred.mode = strict;

Ele define os trabalhos mapreduce para o modo estrito. Através do qual as consultas em tabelas particionadas não podem ser executadas sem uma cláusula WHERE. Isso evita que trabalhos muito grandes sejam executados por muito tempo.

Como você verifica se existe uma partição específica?

Isso pode ser feito com a seguinte consulta

SHOW PARTITIONS table_name PARTITION(partitioned_column=’partition_value’)

Qual classe java lida com a codificação do registro de entrada em arquivos que armazenam as tabelas no Hive?

org.apache.hadoop.mapred.TextInputFormat

Qual classe java lida com a codificação do registro de saída em arquivos que resultam de consultas do Hive?

org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

Qual é o significado da cláusula 'IF EXISTS ”ao eliminar uma tabela?

Quando emitimos o comando DROP TABLE IF EXISTS nome_tabela

O Hive gera um erro se a tabela que está sendo eliminada não existir.

Quando você aponta uma partição de uma tabela de colmeia para um novo diretório, o que acontece com os dados?

Os dados permanecem no local antigo. Ele deve ser movido manualmente.

Escreva uma consulta para inserir uma nova coluna (new_col INT) em uma tabela hiev (htab) em uma posição antes de uma coluna existente (x_col)

ALTER TABLE table_name
CHANGE COLUMN new_col  INT
BEFORE x_col

O arquivamento de tabelas Hive permite alguma economia de espaço no HDFS?

Não. Isso apenas reduz o número de arquivos, o que se torna mais fácil para o namenode gerenciar.

Como você pode impedir que um formulário de partição seja consultado?

Usando a cláusula ENABLE OFFLINE com a ação ALTER TABLE.

Ao carregar dados em uma tabela de colmeia usando a cláusula LOAD DATA, como você especifica que é um arquivo hdfs e não um arquivo local?

Omitindo a CLÁUSULA LOCAL na instrução LOAD DATA.

Se você omitir a cláusula OVERWRITE ao criar uma tabela de colméia, o que acontecerá com os arquivos novos e os que já existem?

Os novos arquivos recebidos são apenas adicionados ao diretório de destino e os arquivos existentes são simplesmente substituídos. Outros arquivos cujo nome não corresponda a nenhum dos arquivos recebidos continuarão a existir.

Se você adicionar a cláusula OVERWRITE, todos os dados existentes no diretório serão excluídos antes que os novos dados sejam gravados.

O que a seguinte consulta faz?

INSERT OVERWRITE TABLE employees
PARTITION (country, state)
SELECT ..., se.cnty, se.st
FROM staged_employees se;

Ele cria partição nos funcionários da tabela com valores de partição provenientes das colunas na cláusula select. É chamado de inserção de partição dinâmica.

O que é uma função geradora de tabela na colmeia?

Uma função geradora de tabela é uma função que pega uma única coluna como argumento e a expande para várias colunas ou linhas. Exemplo de exploração ()

Como o Hive pode evitar o mapreduce?

Se definirmos a propriedade hive.exec.mode.local.auto como true, o hive evitará mapreduce para buscar os resultados da consulta.

Qual é a diferença entre os operadores LIKE e RLIKE no Hive?

O operador LIKE se comporta da mesma maneira que os operadores SQL regulares usados em consultas selecionadas. Exemplo -

street_name como '% Chi'

Mas o operador RLIKE usa expressões regulares mais avançadas que estão disponíveis em java

Exemplo - street_name RLIKE '. * (Chi | Oho). *' Que selecionará qualquer palavra que contenha chi ou oho.

É possível criar junções cartesianas entre 2 tabelas, usando Hive?

Não. Como este tipo de Join não pode ser implementado no mapreduce

Como parte da otimização das consultas no HIve, qual deve ser a ordem do tamanho da tabela em uma consulta de junção?

Em uma consulta de junção, a menor tabela a ser obtida na primeira posição e a maior tabela deve ser obtida na última posição.

Qual é a utilidade da cláusula DISTRIBUTED BY no Hive?

Ele controla como a saída do mapa é reduzida entre os redutores. É útil no caso de streaming de dados

Como você converterá a string '51 .2 'em um valor flutuante na coluna de preço?

Selecione o elenco (preço como FLOAT)

Qual será o resultado quando você lançar ('abc' como INT)?

O Hive retornará NULL

O nome de uma visualização pode ser igual ao nome de uma tabela de colmeia?

Não. O nome de uma visão deve ser único quando comparado a todas as outras tabelas e visões presentes no mesmo banco de dados.

Podemos CARREGAR dados em uma visualização?

Não. Uma visão não pode ser o destino de uma instrução INSERT ou LOAD.

Que tipos de custos estão associados à criação de índices em tabelas de colmeias?

Os índices ocupam espaço e há um custo de processamento na organização dos valores da coluna na qual o índice é cerado.

Dê o comando para ver os índices em uma tabela.

MOSTRAR ÍNDICE ON nome_tabela

Isso listará todos os índices criados em qualquer uma das colunas da tabela nome_tabela.

O que é balde?

Os valores em uma coluna são misturados em uma série de depósitos que são definidos pelo usuário. É uma maneira de evitar muitas partições ou partições aninhadas, garantindo a otimização da saída da consulta.

O que / * streamtable (table_name) * / faz?

É uma dica de consulta transmitir uma tabela para a memória antes de executar a consulta. É uma técnica de otimização de consulta.

Uma partição pode ser arquivada? Quais são as vantagens e desvantagens?

Sim. Uma partição pode ser arquivada. A vantagem é que diminui o número de arquivos armazenados no namenode e o arquivo arquivado pode ser consultado usando o hive. A desvantagem é que causará consultas menos eficientes e não oferecerá nenhuma economia de espaço.

O que é um UDF genérico na colmeia?

É uma UDF que é criada usando um programa java para servir a alguma necessidade específica não coberta pelas funções existentes no Hive. Ele pode detectar o tipo de argumento de entrada programaticamente e fornecer uma resposta apropriada.

A seguinte instrução falhou ao executar. O que pode ser a causa?

LOAD DATA LOCAL INPATH ‘${env:HOME}/country/state/’
OVERWRITE INTO TABLE address;

O caminho de entrada local deve conter um arquivo e não um diretório. O $ env: HOME é uma variável válida disponível no ambiente da colmeia.

Como você especifica o nome do criador da tabela ao criar uma tabela no Hive?

A cláusula TBLPROPERTIES é usada para adicionar o nome do criador ao criar uma tabela.

O TBLPROPERTIES é adicionado como -

TBLPROPERTIES(‘creator’= ‘Joan’)