Talend - Big Data

O slogan do Open Studio com Big Data é “Simplifique ETL e ELT com a principal ferramenta gratuita de ETL de código aberto para Big Data”. Neste capítulo, vamos examinar o uso do Talend como uma ferramenta para processamento de dados em um ambiente de big data.

Introdução

Talend Open Studio - Big Data é uma ferramenta gratuita e de código aberto para processar seus dados com muita facilidade em um ambiente de big data. Você tem muitos componentes de big data disponíveis no Talend Open Studio, que permite criar e executar trabalhos do Hadoop simplesmente arrastando e soltando alguns componentes do Hadoop.

Além disso, não precisamos escrever grandes linhas de códigos MapReduce; Talend Open Studio Big data ajuda você a fazer isso com os componentes presentes nele. Ele gera automaticamente o código MapReduce para você, você só precisa arrastar e soltar os componentes e configurar alguns parâmetros.

Também oferece a opção de se conectar a várias distribuições de Big Data, como Cloudera, HortonWorks, MapR, Amazon EMR e até mesmo Apache.

Componentes Talend para Big Data

A lista de categorias com componentes para executar um trabalho no ambiente de Big Data incluída em Big Data, é mostrada abaixo -

A lista de conectores e componentes de Big Data no Talend Open Studio é mostrada abaixo -

  • tHDFSConnection - Usado para conectar-se ao HDFS (Hadoop Distributed File System).

  • tHDFSInput - Lê os dados do caminho hdfs fornecido, coloca-os no esquema talend e então os passa para o próximo componente no trabalho.

  • tHDFSList - Recupera todos os arquivos e pastas no caminho hdfs fornecido.

  • tHDFSPut - Copia o arquivo / pasta do sistema de arquivos local (definido pelo usuário) para hdfs no caminho fornecido.

  • tHDFSGet - Copia o arquivo / pasta de hdfs para o sistema de arquivos local (definido pelo usuário) no caminho fornecido.

  • tHDFSDelete - Exclui o arquivo do HDFS

  • tHDFSExist - Verifica se um arquivo está presente no HDFS ou não.

  • tHDFSOutput - Grava fluxos de dados no HDFS.

  • tCassandraConnection - Abre a conexão com o servidor Cassandra.

  • tCassandraRow - Executa consultas CQL (linguagem de consulta Cassandra) no banco de dados especificado.

  • tHBaseConnection - Abre a conexão com o banco de dados HBase.

  • tHBaseInput - lê dados do banco de dados HBase.

  • tHiveConnection - Abre a conexão com o banco de dados Hive.

  • tHiveCreateTable - Cria uma tabela dentro de um banco de dados hive.

  • tHiveInput - Lê dados do banco de dados do hive.

  • tHiveLoad - Grava dados na tabela do hive ou em um diretório especificado.

  • tHiveRow - executa consultas HiveQL no banco de dados especificado.

  • tPigLoad - Carrega dados de entrada para fluxo de saída.

  • tPigMap - Usado para transformar e rotear os dados em um processo pig.

  • tPigJoin - Executa a operação de junção de 2 arquivos com base em chaves de junção.

  • tPigCoGroup - Agrupa e agrega os dados provenientes de várias entradas.

  • tPigSort - Classifica os dados fornecidos com base em uma ou mais chaves de classificação definidas.

  • tPigStoreResult - Armazena o resultado da operação pig em um espaço de armazenamento definido.

  • tPigFilterRow - Filtra as colunas especificadas para dividir os dados com base na condição fornecida.

  • tPigDistinct - Remove as tuplas duplicadas da relação.

  • tSqoopImport - Transfere dados de banco de dados relacional como MySQL, Oracle DB para HDFS.

  • tSqoopExport - Transfere dados de HDFS para banco de dados relacional como MySQL, Oracle DB