Apache Tajo - Definições de configuração

A configuração do Tajo é baseada no sistema de configuração do Hadoop. Este capítulo explica as definições de configuração do Tajo em detalhes.

Configurações básicas

Tajo usa os seguintes dois arquivos de configuração -

  • catalog-site.xml - configuração para o servidor de catálogos.
  • tajo-site.xml - configuração para outros módulos Tajo.

Configuração de modo distribuído

A configuração do modo distribuído é executada no Hadoop Distributed File System (HDFS). Vamos seguir as etapas para configurar a configuração do modo distribuído Tajo.

tajo-site.xml

Este arquivo está disponível @ /path/to/tajo/confdiretório e atua como configuração para outros módulos Tajo. Para acessar o Tajo em um modo distribuído, aplique as seguintes alterações a“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://hostname:port/tajo</value> 
</property>
  
<property> 
   <name>tajo.master.umbilical-rpc.address</name> 
   <value>hostname:26001</value> 
</property> 
 
<property> 
   <name>tajo.master.client-rpc.address</name> 
   <value>hostname:26002</value> 
</property>
  
<property> 
   <name>tajo.catalog.client-rpc.address</name> 
   <value>hostname:26005</value> 
</property>

Configuração do Nó Mestre

Tajo usa HDFS como tipo de armazenamento primário. A configuração é a seguinte e deve ser adicionada ao“tajo-site.xml”.

<property> 
   <name>tajo.rootdir</name> 
   <value>hdfs://namenode_hostname:port/path</value> 
</property>

Configuração do Catálogo

Se você deseja customizar o serviço de catálogo, copie $path/to/Tajo/conf/catalogsite.xml.template para $path/to/Tajo/conf/catalog-site.xml e adicione qualquer uma das configurações a seguir, conforme necessário.

Por exemplo, se você usar “Hive catalog store” para acessar o Tajo, a configuração deve ser como a seguinte -

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.HCatalogStore</value> 
</property>

Se você precisa armazenar MySQL catálogo e, em seguida, aplique as seguintes alterações -

<property> 
   <name>tajo.catalog.store.class</name> 
   <value>org.apache.tajo.catalog.store.MySQLStore</value> 
</property> 

<property> 
   <name>tajo.catalog.jdbc.connection.id</name> 
   <value><mysql user name></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.connection.password</name> 
   <value><mysql user password></value> 
</property>
 
<property> 
   <name>tajo.catalog.jdbc.uri</name> 
   <value>jdbc:mysql://<mysql host name>:<mysql port>/<database name for tajo>
      ?createDatabaseIfNotExist = true</value> 
</property>

Da mesma forma, você pode registrar os outros catálogos suportados pelo Tajo no arquivo de configuração.

Configuração de trabalhador

Por padrão, o TajoWorker armazena dados temporários no sistema de arquivos local. É definido no arquivo “tajo-site.xml” da seguinte forma -

<property> 
   <name>tajo.worker.tmpdir.locations</name> 
   <value>/disk1/tmpdir,/disk2/tmpdir,/disk3/tmpdir</value> 
</property>

Para aumentar a capacidade de execução de tarefas de cada recurso do trabalhador, escolha a seguinte configuração -

<property> 
   <name>tajo.worker.resource.cpu-cores</name> 
   <value>12</value> 
</property>
 
<property> 
   <name>tajo.task.resource.min.memory-mb</name> 
   <value>2000</value> 
</property>
  
<property> 
   <name>tajo.worker.resource.disks</name> 
   <value>4</value> 
</property>

Para fazer o trabalhador Tajo funcionar em um modo dedicado, escolha a seguinte configuração -

<property> 
   <name>tajo.worker.resource.dedicated</name> 
   <value>true</value> 
</property>