Regressão Logística em Python - Introdução

A regressão logística é um método estatístico de classificação de objetos. Este capítulo dará uma introdução à regressão logística com a ajuda de alguns exemplos.

Classificação

Para entender a regressão logística, você deve saber o que significa classificação. Vamos considerar os exemplos a seguir para entender isso melhor -

  • O médico classifica o tumor como maligno ou benigno.
  • Uma transação bancária pode ser fraudulenta ou genuína.

Por muitos anos, os humanos vêm realizando essas tarefas - embora sejam propensos a erros. A questão é: podemos treinar máquinas para fazer essas tarefas para nós com uma precisão melhor?

Um exemplo de máquina que faz a classificação é o e-mail Clientem sua máquina que classifica cada e-mail recebido como “spam” ou “não spam” e faz isso com uma precisão bastante grande. A técnica estatística de regressão logística foi aplicada com sucesso no cliente de email. Neste caso, treinamos nossa máquina para resolver um problema de classificação.

A regressão logística é apenas uma parte do aprendizado de máquina usado para resolver esse tipo de problema de classificação binária. Existem várias outras técnicas de aprendizado de máquina que já foram desenvolvidas e estão em prática para resolver outros tipos de problemas.

Se você notou, em todos os exemplos acima, o resultado da predicação tem apenas dois valores - Sim ou Não. Chamamos isso de classes - de modo a dizer que dizemos que nosso classificador classifica os objetos em duas classes. Em termos técnicos, podemos dizer que o resultado ou variável-alvo é dicotômica por natureza.

Existem outros problemas de classificação em que a saída pode ser classificada em mais de duas classes. Por exemplo, com uma cesta cheia de frutas, você deve separar frutas de diferentes tipos. Agora, a cesta pode conter laranjas, maçãs, mangas e assim por diante. Então, quando você separa as frutas, você as separa em mais de duas classes. Este é um problema de classificação multivariada.