Python - Pandas
Pandas é uma biblioteca Python de código aberto usada para manipulação de dados de alto desempenho e análise de dados usando suas poderosas estruturas de dados. Python com pandas está em uso em uma variedade de domínios acadêmicos e comerciais, incluindo Finanças, Economia, Estatística, Publicidade, Web Analytics e muito mais. Usando o Pandas, podemos realizar cinco etapas típicas no processamento e análise de dados, independentemente da origem dos dados - carregar, organizar, manipular, modelar e analisar os dados.
Abaixo estão alguns dos recursos importantes do Pandas, que é usado especificamente para processamento de dados e trabalho de análise de dados.
Principais recursos do Pandas
- Objeto DataFrame rápido e eficiente com indexação padrão e personalizada.
- Ferramentas para carregar dados em objetos de dados na memória de diferentes formatos de arquivo.
- Alinhamento de dados e tratamento integrado de dados ausentes.
- Remodelagem e rotação de conjuntos de datas.
- Fatiamento baseado em rótulo, indexação e subconjunto de grandes conjuntos de dados.
- As colunas de uma estrutura de dados podem ser excluídas ou inseridas.
- Agrupe por dados para agregação e transformações.
- Mesclagem e junção de dados de alto desempenho.
- Funcionalidade de série temporal.
O Pandas lida com as três estruturas de dados a seguir -
- Series
- DataFrame
Essas estruturas de dados são construídas em cima do array Numpy, tornando-as rápidas e eficientes.
Dimensão e descrição
A melhor maneira de pensar nessas estruturas de dados é que a estrutura de dados de dimensão superior é um contêiner de sua estrutura de dados de dimensão inferior. Por exemplo, DataFrame é um contêiner de Series, Panel é um contêiner de DataFrame.
Estrutura de dados | Dimensões | Descrição |
---|---|---|
Series | 1 | Array homogêneo rotulado 1D, imutável por tamanho. |
Frames de dados | 2 | Estrutura tabular de tamanho mutável rotulado em 2D geral com colunas potencialmente heterogeneamente tipadas. |
DataFrame é amplamente utilizado e é a estrutura de dados mais importante.
Series
A série é uma estrutura semelhante a uma matriz unidimensional com dados homogêneos. Por exemplo, a série a seguir é uma coleção de inteiros 10, 23, 56, ...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Pontos-chave da série
- Dados homogêneos
- Tamanho imutável
- Valores de dados mutáveis
Quadro de dados
DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo,
Nome | Era | Gênero | Avaliação |
---|---|---|---|
Steve | 32 | Masculino | 3,45 |
Lia | 28 | Fêmea | 4,6 |
Vin | 45 | Masculino | 3,9 |
Katie | 38 | Fêmea | 2,78 |
A tabela representa os dados de uma equipe de vendas de uma organização com sua classificação geral de desempenho. Os dados são representados em linhas e colunas. Cada coluna representa um atributo e cada linha representa uma pessoa.
Tipo de dados das colunas
Os tipos de dados das quatro colunas são os seguintes -
Coluna | Tipo |
---|---|
Nome | Corda |
Era | Inteiro |
Gênero | Corda |
Avaliação | Flutuador |
Pontos-chave do quadro de dados
- Dados heterogêneos
- Tamanho mutável
- Dados mutáveis
Veremos muitos exemplos sobre o uso da biblioteca pandas de python no trabalho de ciência de dados nos próximos capítulos.