Talend - Big Data
O slogan do Open Studio com Big Data é “Simplifique ETL e ELT com a principal ferramenta gratuita de ETL de código aberto para Big Data”. Neste capítulo, vamos examinar o uso do Talend como uma ferramenta para processamento de dados em um ambiente de big data.
Introdução
Talend Open Studio - Big Data é uma ferramenta gratuita e de código aberto para processar seus dados com muita facilidade em um ambiente de big data. Você tem muitos componentes de big data disponíveis no Talend Open Studio, que permite criar e executar trabalhos do Hadoop simplesmente arrastando e soltando alguns componentes do Hadoop.
Além disso, não precisamos escrever grandes linhas de códigos MapReduce; Talend Open Studio Big data ajuda você a fazer isso com os componentes presentes nele. Ele gera automaticamente o código MapReduce para você, você só precisa arrastar e soltar os componentes e configurar alguns parâmetros.
Também oferece a opção de se conectar a várias distribuições de Big Data, como Cloudera, HortonWorks, MapR, Amazon EMR e até mesmo Apache.
Componentes Talend para Big Data
A lista de categorias com componentes para executar um trabalho no ambiente de Big Data incluída em Big Data, é mostrada abaixo -

A lista de conectores e componentes de Big Data no Talend Open Studio é mostrada abaixo -
tHDFSConnection - Usado para conectar-se ao HDFS (Hadoop Distributed File System).
tHDFSInput - Lê os dados do caminho hdfs fornecido, coloca-os no esquema talend e então os passa para o próximo componente no trabalho.
tHDFSList - Recupera todos os arquivos e pastas no caminho hdfs fornecido.
tHDFSPut - Copia o arquivo / pasta do sistema de arquivos local (definido pelo usuário) para hdfs no caminho fornecido.
tHDFSGet - Copia o arquivo / pasta de hdfs para o sistema de arquivos local (definido pelo usuário) no caminho fornecido.
tHDFSDelete - Exclui o arquivo do HDFS
tHDFSExist - Verifica se um arquivo está presente no HDFS ou não.
tHDFSOutput - Grava fluxos de dados no HDFS.
tCassandraConnection - Abre a conexão com o servidor Cassandra.
tCassandraRow - Executa consultas CQL (linguagem de consulta Cassandra) no banco de dados especificado.
tHBaseConnection - Abre a conexão com o banco de dados HBase.
tHBaseInput - lê dados do banco de dados HBase.
tHiveConnection - Abre a conexão com o banco de dados Hive.
tHiveCreateTable - Cria uma tabela dentro de um banco de dados hive.
tHiveInput - Lê dados do banco de dados do hive.
tHiveLoad - Grava dados na tabela do hive ou em um diretório especificado.
tHiveRow - executa consultas HiveQL no banco de dados especificado.
tPigLoad - Carrega dados de entrada para fluxo de saída.
tPigMap - Usado para transformar e rotear os dados em um processo pig.
tPigJoin - Executa a operação de junção de 2 arquivos com base em chaves de junção.
tPigCoGroup - Agrupa e agrega os dados provenientes de várias entradas.
tPigSort - Classifica os dados fornecidos com base em uma ou mais chaves de classificação definidas.
tPigStoreResult - Armazena o resultado da operação pig em um espaço de armazenamento definido.
tPigFilterRow - Filtra as colunas especificadas para dividir os dados com base na condição fornecida.
tPigDistinct - Remove as tuplas duplicadas da relação.
tSqoopImport - Transfere dados de banco de dados relacional como MySQL, Oracle DB para HDFS.
tSqoopExport - Transfere dados de HDFS para banco de dados relacional como MySQL, Oracle DB