Hive - Exibir e índices

Este capítulo descreve como criar e gerenciar visualizações. As visualizações são geradas com base nos requisitos do usuário. Você pode salvar quaisquer dados do conjunto de resultados como uma visualização. O uso da visualização no Hive é igual ao da visualização no SQL. É um conceito RDBMS padrão. Podemos executar todas as operações DML em uma visualização.

Criação de uma visão

Você pode criar uma visualização no momento de executar uma instrução SELECT. A sintaxe é a seguinte:

CREATE VIEW [IF NOT EXISTS] view_name [(column_name [COMMENT column_comment], ...) ]
[COMMENT table_comment]
AS SELECT ...

Exemplo

Vamos dar um exemplo para ver. Assuma a tabela de funcionários conforme fornecida abaixo, com os campos Id, Nome, Salário, Designação e Departamento. Gere uma consulta para recuperar os detalhes dos funcionários que ganham um salário de mais de Rs 30000. Armazenamos o resultado em uma visualização chamadaemp_30000.

+------+--------------+-------------+-------------------+--------+
| ID   | Name         | Salary      | Designation       | Dept   |
+------+--------------+-------------+-------------------+--------+
|1201  | Gopal        | 45000       | Technical manager | TP     |
|1202  | Manisha      | 45000       | Proofreader       | PR     |
|1203  | Masthanvali  | 40000       | Technical writer  | TP     |
|1204  | Krian        | 40000       | Hr Admin          | HR     |
|1205  | Kranthi      | 30000       | Op Admin          | Admin  |
+------+--------------+-------------+-------------------+--------+

A consulta a seguir recupera os detalhes do funcionário usando o cenário acima:

hive> CREATE VIEW emp_30000 AS
SELECT * FROM employee
WHERE salary>30000;

Soltando uma Visualização

Use a seguinte sintaxe para descartar uma visualização:

DROP VIEW view_name

A consulta a seguir elimina uma visualização chamada emp_30000:

hive> DROP VIEW emp_30000;

Criação de um índice

Um índice nada mais é que um ponteiro para uma coluna específica de uma tabela. Criar um índice significa criar um ponteiro em uma coluna específica de uma tabela. Sua sintaxe é a seguinte:

CREATE INDEX index_name
ON TABLE base_table_name (col_name, ...)
AS 'index.handler.class.name'
[WITH DEFERRED REBUILD]
[IDXPROPERTIES (property_name=property_value, ...)]
[IN TABLE index_table_name]
[PARTITIONED BY (col_name, ...)]
[
   [ ROW FORMAT ...] STORED AS ...
   | STORED BY ...
]
[LOCATION hdfs_path]
[TBLPROPERTIES (...)]

Exemplo

Tomemos um exemplo de índice. Use a mesma tabela de funcionários que usamos anteriormente com os campos Id, Nome, Salário, Designação e Dept. Crie um índice denominado index_salary na coluna de salários da tabela de funcionários.

A consulta a seguir cria um índice:

hive> CREATE INDEX inedx_salary ON TABLE employee(salary)
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

É um indicador para a coluna de salários. Se a coluna for modificada, as alterações serão armazenadas usando um valor de índice.

Descartando um índice

A seguinte sintaxe é usada para descartar um índice:

DROP INDEX <index_name> ON <table_name>

A consulta a seguir elimina um índice denominado index_salary:

hive> DROP INDEX index_salary ON employee;