Regressão logística em Python - obtendo dados

As etapas envolvidas na obtenção de dados para realizar a regressão logística em Python são discutidas em detalhes neste capítulo.

Baixando conjunto de dados

Se você ainda não baixou o conjunto de dados UCI mencionado anteriormente, baixe-o agora aqui . Clique na pasta de dados. Você verá a seguinte tela -

Baixe o arquivo bank.zip clicando no link fornecido. O arquivo zip contém os seguintes arquivos -

Usaremos o arquivo bank.csv para o desenvolvimento do nosso modelo. O arquivo bank-names.txt contém a descrição do banco de dados de que você precisará posteriormente. O bank-full.csv contém um conjunto de dados muito maior que você pode usar para desenvolvimentos mais avançados.

Aqui, incluímos o arquivo bank.csv no zip de origem para download. Este arquivo contém os campos delimitados por vírgulas. Também fizemos algumas modificações no arquivo. É recomendável que você use o arquivo incluído no zip do código-fonte do projeto para seu aprendizado.

Carregando dados

Para carregar os dados do arquivo csv que você copiou agora, digite a seguinte instrução e execute o código.

In [2]: df = pd.read_csv('bank.csv', header=0)

Você também poderá examinar os dados carregados executando a seguinte instrução de código -

IN [3]: df.head()

Assim que o comando for executado, você verá a seguinte saída -

Basicamente, ele imprimiu as primeiras cinco linhas dos dados carregados. Examine as 21 colunas presentes. Estaremos usando apenas algumas colunas para o desenvolvimento do nosso modelo.

Em seguida, precisamos limpar os dados. Os dados podem conter algumas linhas comNaN. Para eliminar essas linhas, use o seguinte comando -

IN [4]: df = df.dropna()

Felizmente, o bank.csv não contém nenhuma linha com NaN, portanto, essa etapa não é realmente necessária em nosso caso. No entanto, em geral, é difícil descobrir essas linhas em um banco de dados enorme. Portanto, é sempre mais seguro executar a instrução acima para limpar os dados.

Note - Você pode examinar facilmente o tamanho dos dados em qualquer ponto do tempo usando a seguinte declaração -

IN [5]: print (df.shape)
(41188, 21)

O número de linhas e colunas seria impresso na saída, conforme mostrado na segunda linha acima.

A próxima coisa a fazer é examinar a adequação de cada coluna para o modelo que estamos tentando construir.