Apache Tajo - Integração OpenStack Swift

Swift é um armazenamento de objeto / blob distribuído e consistente. Swift oferece software de armazenamento em nuvem para que você possa armazenar e recuperar muitos dados com uma API simples. Tajo suporta integração Swift.

A seguir estão os pré-requisitos da integração Swift -

  • Swift
  • Hadoop

Core-site.xml

Adicione as seguintes alterações ao arquivo hadoop “core-site.xml” -

<property> 
   <name>fs.swift.impl</name> 
   <value>org.apache.hadoop.fs.swift.snative.SwiftNativeFileSystem</value> 
   <description>File system implementation for Swift</description> 
</property>  

<property> 
   <name>fs.swift.blocksize</name> 
   <value>131072</value> 
   <description>Split size in KB</description> 
</property>

Isso será usado para o Hadoop acessar os objetos Swift. Depois de fazer todas as alterações, vá para o diretório Tajo para definir a variável de ambiente Swift.

conf / tajo-env.h

Abra o arquivo de configuração Tajo e adicione definir a variável de ambiente da seguinte maneira -

$ vi conf/tajo-env.h  
export TAJO_CLASSPATH = $HADOOP_HOME/share/hadoop/tools/lib/hadoop-openstack-x.x.x.jar

Agora, Tajo será capaz de consultar os dados usando o Swift.

Criar a tabela

Vamos criar uma tabela externa para acessar objetos Swift no Tajo da seguinte maneira -

default> create external table swift(num1 int, num2 text, num3 float) 
   using text with ('text.delimiter' = '|') location 'swift://bucket-name/table1';

Após a criação da tabela, você pode executar as consultas SQL.