Python - Pandas

Pandas é uma biblioteca Python de código aberto usada para manipulação de dados de alto desempenho e análise de dados usando suas poderosas estruturas de dados. Python com pandas está em uso em uma variedade de domínios acadêmicos e comerciais, incluindo Finanças, Economia, Estatística, Publicidade, Web Analytics e muito mais. Usando o Pandas, podemos realizar cinco etapas típicas no processamento e análise de dados, independentemente da origem dos dados - carregar, organizar, manipular, modelar e analisar os dados.

Abaixo estão alguns dos recursos importantes do Pandas, que é usado especificamente para processamento de dados e trabalho de análise de dados.

Principais recursos do Pandas

  • Objeto DataFrame rápido e eficiente com indexação padrão e personalizada.
  • Ferramentas para carregar dados em objetos de dados na memória de diferentes formatos de arquivo.
  • Alinhamento de dados e tratamento integrado de dados ausentes.
  • Remodelagem e rotação de conjuntos de datas.
  • Fatiamento baseado em rótulo, indexação e subconjunto de grandes conjuntos de dados.
  • As colunas de uma estrutura de dados podem ser excluídas ou inseridas.
  • Agrupe por dados para agregação e transformações.
  • Mesclagem e junção de dados de alto desempenho.
  • Funcionalidade de série temporal.

O Pandas lida com as três estruturas de dados a seguir -

  • Series
  • DataFrame

Essas estruturas de dados são construídas em cima do array Numpy, tornando-as rápidas e eficientes.

Dimensão e descrição

A melhor maneira de pensar nessas estruturas de dados é que a estrutura de dados de dimensão superior é um contêiner de sua estrutura de dados de dimensão inferior. Por exemplo, DataFrame é um contêiner de Series, Panel é um contêiner de DataFrame.

Estrutura de dados Dimensões Descrição
Series 1 Array homogêneo rotulado 1D, imutável por tamanho.
Frames de dados 2 Estrutura tabular de tamanho mutável rotulado em 2D geral com colunas potencialmente heterogeneamente tipadas.

DataFrame é amplamente utilizado e é a estrutura de dados mais importante.

Series

A série é uma estrutura semelhante a uma matriz unidimensional com dados homogêneos. Por exemplo, a série a seguir é uma coleção de inteiros 10, 23, 56, ...

10 23 56 17 52 61 73 90 26 72

Pontos-chave da série

  • Dados homogêneos
  • Tamanho imutável
  • Valores de dados mutáveis

Quadro de dados

DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo,

Nome Era Gênero Avaliação
Steve 32 Masculino 3,45
Lia 28 Fêmea 4,6
Vin 45 Masculino 3,9
Katie 38 Fêmea 2,78

A tabela representa os dados de uma equipe de vendas de uma organização com sua classificação geral de desempenho. Os dados são representados em linhas e colunas. Cada coluna representa um atributo e cada linha representa uma pessoa.

Tipo de dados das colunas

Os tipos de dados das quatro colunas são os seguintes -

Coluna Tipo
Nome Corda
Era Inteiro
Gênero Corda
Avaliação Flutuador

Pontos-chave do quadro de dados

  • Dados heterogêneos
  • Tamanho mutável
  • Dados mutáveis

Veremos muitos exemplos sobre o uso da biblioteca pandas de python no trabalho de ciência de dados nos próximos capítulos.