Weka - Introdução
A base de qualquer aplicativo de aprendizado de máquina são os dados - não apenas alguns poucos dados, mas enormes dados que são denominados como Big Data na terminologia atual.
Para treinar a máquina para analisar big data, você precisa ter várias considerações sobre os dados -
- Os dados devem estar limpos.
- Não deve conter valores nulos.
Além disso, nem todas as colunas na tabela de dados seriam úteis para o tipo de análise que você está tentando alcançar. As colunas de dados irrelevantes ou 'recursos', conforme denominado na terminologia do aprendizado de máquina, devem ser removidos antes que os dados sejam alimentados em um algoritmo de aprendizado de máquina.
Resumindo, seu big data precisa de muito pré-processamento antes de ser usado para aprendizado de máquina. Assim que os dados estiverem prontos, você aplicaria vários algoritmos de aprendizado de máquina, como classificação, regressão, clustering e assim por diante, para resolver o problema.
O tipo de algoritmo que você aplica é amplamente baseado em seu conhecimento de domínio. Mesmo dentro do mesmo tipo, por exemplo classificação, existem vários algoritmos disponíveis. Você pode querer testar os diferentes algoritmos na mesma classe para construir um modelo de aprendizado de máquina eficiente. Ao fazer isso, você prefere a visualização dos dados processados e, portanto, também precisa de ferramentas de visualização.
Nos próximos capítulos, você aprenderá sobre o Weka, um software que realiza todas as tarefas acima com facilidade e permite que você trabalhe com big data confortavelmente.