Regressão logística em Python - obtendo dados
As etapas envolvidas na obtenção de dados para realizar a regressão logística em Python são discutidas em detalhes neste capítulo.
Baixando conjunto de dados
Se você ainda não baixou o conjunto de dados UCI mencionado anteriormente, baixe-o agora aqui . Clique na pasta de dados. Você verá a seguinte tela -
Baixe o arquivo bank.zip clicando no link fornecido. O arquivo zip contém os seguintes arquivos -
Usaremos o arquivo bank.csv para o desenvolvimento do nosso modelo. O arquivo bank-names.txt contém a descrição do banco de dados de que você precisará posteriormente. O bank-full.csv contém um conjunto de dados muito maior que você pode usar para desenvolvimentos mais avançados.
Aqui, incluímos o arquivo bank.csv no zip de origem para download. Este arquivo contém os campos delimitados por vírgulas. Também fizemos algumas modificações no arquivo. É recomendável que você use o arquivo incluído no zip do código-fonte do projeto para seu aprendizado.
Carregando dados
Para carregar os dados do arquivo csv que você copiou agora, digite a seguinte instrução e execute o código.
In [2]: df = pd.read_csv('bank.csv', header=0)
Você também poderá examinar os dados carregados executando a seguinte instrução de código -
IN [3]: df.head()
Assim que o comando for executado, você verá a seguinte saída -
Basicamente, ele imprimiu as primeiras cinco linhas dos dados carregados. Examine as 21 colunas presentes. Estaremos usando apenas algumas colunas para o desenvolvimento do nosso modelo.
Em seguida, precisamos limpar os dados. Os dados podem conter algumas linhas comNaN. Para eliminar essas linhas, use o seguinte comando -
IN [4]: df = df.dropna()
Felizmente, o bank.csv não contém nenhuma linha com NaN, portanto, essa etapa não é realmente necessária em nosso caso. No entanto, em geral, é difícil descobrir essas linhas em um banco de dados enorme. Portanto, é sempre mais seguro executar a instrução acima para limpar os dados.
Note - Você pode examinar facilmente o tamanho dos dados em qualquer ponto do tempo usando a seguinte declaração -
IN [5]: print (df.shape)
(41188, 21)
O número de linhas e colunas seria impresso na saída, conforme mostrado na segunda linha acima.
A próxima coisa a fazer é examinar a adequação de cada coluna para o modelo que estamos tentando construir.