Talend - Hive

Neste capítulo, vamos entender como trabalhar com o trabalho Hive em Talend.

Criação de um trabalho Talend Hive

Como exemplo, carregaremos os dados da NYSE em uma tabela de colmeia e executaremos uma consulta de seção básica. Clique com o botão direito em Job Design e crie um novo job - hivejob. Mencione os detalhes do trabalho e clique em Concluir.

Adicionando componentes ao trabalho do Hive

Para atribuir componentes a um trabalho do Hive, arraste e solte cinco componentes principais - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput e tLogRow do palete para a janela do designer. Em seguida, clique com o botão direito em tHiveConnection e crie o gatilho OnSubjobOk para tHiveCreateTable. Agora, clique com o botão direito em tHiveCreateTable e crie o gatilho OnSubjobOk para tHiveLoad. Clique com o botão direito em tHiveLoad e crie o gatilho iterativo em tHiveInput. Finalmente, clique com o botão direito em tHiveInput e crie uma linha principal para tLogRow.

Configurando Componentes e Transformações

Em tHiveConnection, selecione a distribuição como cloudera e a versão que você está usando. Observe que o modo de conexão será independente e o Hive Service será o Hive 2. Verifique também se os parâmetros a seguir estão definidos de acordo -

  • Host: “quickstart.cloudera”
  • Porta: “10000”
  • Banco de dados: “padrão”
  • Nome de usuário: “colmeia”

Observe que a senha será preenchida automaticamente, você não precisa editá-la. Além disso, outras propriedades do Hadoop serão predefinidas e definidas por padrão.

Em tHiveCreateTable, selecione Usar uma conexão existente e coloque tHiveConnection na lista de componentes. Dê o nome da tabela que você deseja criar no banco de dados padrão. Mantenha os outros parâmetros conforme mostrado abaixo.

Em tHiveLoad, selecione “Usar uma conexão existente” e coloque tHiveConnection na lista de componentes. Selecione LOAD na ação Carregar. Em Caminho do arquivo, forneça o caminho HDFS do arquivo de entrada da NYSE. Mencione a tabela em Nome da tabela, na qual deseja carregar a entrada. Mantenha os outros parâmetros conforme mostrado abaixo.

Em tHiveInput, selecione Usar uma conexão existente e coloque tHiveConnection na lista de componentes. Clique em editar esquema, adicione as colunas e seu tipo, conforme mostrado no instantâneo do esquema abaixo. Agora dê o nome da tabela que você criou em tHiveCreateTable.

Coloque sua consulta na opção de consulta que deseja executar na tabela do Hive. Aqui, estamos imprimindo todas as colunas das primeiras 10 linhas na tabela de seção de teste.

Em tLogRow, clique em colunas de sincronização e selecione o modo Tabela para mostrar a saída.

Executando o Trabalho do Hive

Clique em Executar para iniciar a execução. Se todas as conexões e parâmetros foram definidos corretamente, você verá a saída de sua consulta conforme mostrado abaixo.