Aprendizado de máquina - não supervisionado
Até agora o que você viu é fazer a máquina aprender a encontrar a solução para o nosso objetivo. Na regressão, treinamos a máquina para prever um valor futuro. Na classificação, treinamos a máquina para classificar um objeto desconhecido em uma das categorias definidas por nós. Em suma, temos treinado máquinas para que possam prever Y para nossos dados X. Dado um grande conjunto de dados e não estimando as categorias, seria difícil para nós treinar a máquina usando o aprendizado supervisionado. E se a máquina pudesse pesquisar e analisar o big data em execução em vários Gigabytes e Terabytes e nos dizer que esses dados contêm tantas categorias distintas?
Como exemplo, considere os dados do eleitor. Ao considerar algumas entradas de cada eleitor (esses são chamados de recursos na terminologia de IA), deixe a máquina prever que há tantos eleitores que votariam no partido político X e tantos votariam em Y e assim por diante. Portanto, em geral, estamos perguntando à máquina dada um enorme conjunto de pontos de dados X, “O que você pode me dizer sobre X?”. Ou pode ser uma pergunta como “Quais são os cinco melhores grupos que podemos fazer de X?”. Ou poderia ser até “Quais são os três recursos que ocorrem juntos com mais frequência no X?”.
Este é exatamente o objetivo do Aprendizado Não Supervisionado.
Algoritmos para Aprendizagem Não Supervisionada
Vamos agora discutir um dos algoritmos amplamente usados para classificação em aprendizado de máquina não supervisionado.
agrupamento k-means
As eleições presidenciais de 2000 e 2004 nos Estados Unidos foram próximas - muito próximas. O maior percentual de voto popular que algum candidato recebeu foi de 50,7% e o menor foi de 47,9%. Se uma porcentagem dos eleitores tivesse mudado de lado, o resultado da eleição teria sido diferente. Existem pequenos grupos de eleitores que, quando devidamente apelados, mudam de lado. Esses grupos podem não ser enormes, mas com disputas tão disputadas, eles podem ser grandes o suficiente para mudar o resultado da eleição. Como você encontra esses grupos de pessoas? Como você os atrai com um orçamento limitado? A resposta é o agrupamento.
Vamos entender como isso é feito.
Primeiro, você coleta informações sobre as pessoas com ou sem o consentimento delas: qualquer tipo de informação que possa dar alguma pista sobre o que é importante para elas e o que influenciará a forma como votam.
Em seguida, você coloca essas informações em algum tipo de algoritmo de agrupamento.
Em seguida, para cada cluster (seria inteligente escolher o maior primeiro), você elabora uma mensagem que atrairá esses eleitores.
Por fim, você entrega a campanha e avalia se está funcionando.
Clustering é um tipo de aprendizagem não supervisionada que forma automaticamente clusters de coisas semelhantes. É como uma classificação automática. Você pode agrupar quase tudo e, quanto mais semelhantes os itens no agrupamento, melhores serão os agrupamentos. Neste capítulo, vamos estudar um tipo de algoritmo de agrupamento chamado k-means. É chamado de k-means porque encontra 'k' clusters únicos, e o centro de cada cluster é a média dos valores naquele cluster.
Identificação de Cluster
A identificação de cluster diz a um algoritmo: “Aqui estão alguns dados. Agora agrupe coisas semelhantes e me fale sobre esses grupos. ” A principal diferença da classificação é que você sabe o que está procurando. Embora esse não seja o caso do agrupamento.
O agrupamento às vezes é chamado de classificação não supervisionada porque produz o mesmo resultado que a classificação, mas sem ter classes predefinidas.
Agora, estamos confortáveis com o aprendizado supervisionado e não supervisionado. Para entender o resto das categorias de aprendizado de máquina, devemos primeiro entender Redes Neurais Artificiais (RNA), que aprenderemos no próximo capítulo.