Weka - formatos de arquivo

O WEKA oferece suporte a um grande número de formatos de arquivo para os dados. Aqui está a lista completa -

  • arff
  • arff.gz
  • bsi
  • csv
  • dat
  • data
  • json
  • json.gz
  • libsvm
  • m
  • names
  • xrff
  • xrff.gz

Os tipos de arquivos que ele suporta estão listados na caixa de listagem suspensa na parte inferior da tela. Isso é mostrado na imagem abaixo.

Como você notaria, ele oferece suporte a vários formatos, incluindo CSV e JSON. O tipo de arquivo padrão é Arff.

Formato Arff

A Arff arquivo contém duas seções - cabeçalho e dados.

  • O cabeçalho descreve os tipos de atributos.
  • A seção de dados contém uma lista de dados separados por vírgulas.

Como exemplo para o formato Arff, o Weather O arquivo de dados carregado dos bancos de dados de amostra WEKA é mostrado abaixo -

A partir da captura de tela, você pode inferir os seguintes pontos -

  • A tag @relation define o nome do banco de dados.

  • A tag @attribute define os atributos.

  • A tag @data inicia a lista de linhas de dados, cada uma contendo os campos separados por vírgula.

  • Os atributos podem assumir valores nominais, como no caso do outlook mostrado aqui -

@attribute outlook (sunny, overcast, rainy)
  • Os atributos podem assumir valores reais como neste caso -

@attribute temperature real
  • Você também pode definir um alvo ou uma variável de classe chamada play, conforme mostrado aqui -

@attribute play (yes, no)
  • O destino assume dois valores nominais sim ou não.

Outros Formatos

O Explorer pode carregar os dados em qualquer um dos formatos mencionados anteriormente. Como arff é o formato preferido no WEKA, você pode carregar os dados de qualquer formato e salvá-los no formato arff para uso posterior. Após o pré-processamento dos dados, basta salvá-los no formato arff para análise posterior.

Agora que você aprendeu como carregar dados no WEKA, no próximo capítulo, aprenderá como pré-processar os dados.