Python - Pandas

Pandas é uma biblioteca Python de código aberto usada para manipulação de dados de alto desempenho e análise de dados usando suas poderosas estruturas de dados. Python com pandas está em uso em uma variedade de domínios acadêmicos e comerciais, incluindo Finanças, Economia, Estatística, Publicidade, Web Analytics e muito mais. Usando o Pandas, podemos realizar cinco etapas típicas no processamento e análise de dados, independentemente da origem dos dados - carregar, organizar, manipular, modelar e analisar os dados.

Abaixo estão alguns dos recursos importantes do Pandas, que é usado especificamente para processamento de dados e trabalho de análise de dados.

Principais recursos do Pandas

Objeto DataFrame rápido e eficiente com indexação padrão e personalizada.
Ferramentas para carregar dados em objetos de dados na memória de diferentes formatos de arquivo.
Alinhamento de dados e tratamento integrado de dados ausentes.
Remodelagem e rotação de conjuntos de datas.
Fatiamento baseado em rótulo, indexação e subconjunto de grandes conjuntos de dados.
As colunas de uma estrutura de dados podem ser excluídas ou inseridas.
Agrupe por dados para agregação e transformações.
Mesclagem e junção de dados de alto desempenho.
Funcionalidade de série temporal.

O Pandas lida com as três estruturas de dados a seguir -

Series
DataFrame

Essas estruturas de dados são construídas em cima do array Numpy, tornando-as rápidas e eficientes.

Dimensão e descrição

A melhor maneira de pensar nessas estruturas de dados é que a estrutura de dados de dimensão superior é um contêiner de sua estrutura de dados de dimensão inferior. Por exemplo, DataFrame é um contêiner de Series, Panel é um contêiner de DataFrame.

Estrutura de dados	Dimensões	Descrição
Series	1	Array homogêneo rotulado 1D, imutável por tamanho.
Frames de dados	2	Estrutura tabular de tamanho mutável rotulado em 2D geral com colunas potencialmente heterogeneamente tipadas.

DataFrame é amplamente utilizado e é a estrutura de dados mais importante.

Series

A série é uma estrutura semelhante a uma matriz unidimensional com dados homogêneos. Por exemplo, a série a seguir é uma coleção de inteiros 10, 23, 56, ...

10	23	56	17	52	61	73	90	26	72

Pontos-chave da série

Dados homogêneos
Tamanho imutável
Valores de dados mutáveis

Quadro de dados

DataFrame é uma matriz bidimensional com dados heterogêneos. Por exemplo,

Nome	Era	Gênero	Avaliação
Steve	32	Masculino	3,45
Lia	28	Fêmea	4,6
Vin	45	Masculino	3,9
Katie	38	Fêmea	2,78

A tabela representa os dados de uma equipe de vendas de uma organização com sua classificação geral de desempenho. Os dados são representados em linhas e colunas. Cada coluna representa um atributo e cada linha representa uma pessoa.

Tipo de dados das colunas

Os tipos de dados das quatro colunas são os seguintes -

Coluna	Tipo
Nome	Corda
Era	Inteiro
Gênero	Corda
Avaliação	Flutuador

Pontos-chave do quadro de dados

Dados heterogêneos
Tamanho mutável
Dados mutáveis

Veremos muitos exemplos sobre o uso da biblioteca pandas de python no trabalho de ciência de dados nos próximos capítulos.

↰ Previous page Next page ↱