Plotly - Histograma

Introduzido por Karl Pearson, um histograma é uma representação precisa da distribuição de dados numéricos que é uma estimativa da distribuição de probabilidade de uma variável contínua (CORAL). Parece semelhante a um gráfico de barras, mas um gráfico de barras relaciona duas variáveis, enquanto um histograma relaciona apenas uma.

Um histograma requer bin (ou bucket), que divide todo o intervalo de valores em uma série de intervalos - e depois conta quantos valores caem em cada intervalo. Os bins são geralmente especificados como intervalos consecutivos e não sobrepostos de uma variável. As caixas devem ser adjacentes e geralmente são do mesmo tamanho. Um retângulo é erguido sobre a caixa com altura proporcional à frequência - o número de caixas em cada caixa.

O objeto de rastreamento de histograma é retornado por go.Histogram()função. Sua customização é feita por diversos argumentos ou atributos. Um argumento essencial é x ou y definido como uma lista,numpy array ou Pandas dataframe object que deve ser distribuído em caixas.

Por padrão, o Plotly distribui os pontos de dados em compartimentos dimensionados automaticamente. No entanto, você pode definir o tamanho do compartimento personalizado. Para isso, você precisa definir autobins como falso, especifiquenbins (número de caixas), seus valores iniciais e finais e tamanho.

O código a seguir gera um histograma simples que mostra a distribuição das marcas dos alunos em uma classe em caixas (dimensionadas automaticamente) -

import numpy as np
x1 = np.array([22,87,5,43,56,73,55,54,11,20,51,5,79,31,27])
data = [go.Histogram(x = x1)]
fig = go.Figure(data)
iplot(fig)

O resultado é mostrado abaixo -

o go.Histogram() função aceita histnorm, que especifica o tipo de normalização usado para este rastreamento de histograma. O padrão é "", a extensão de cada barra corresponde ao número de ocorrências (ou seja, o número de pontos de dados dentro das caixas). Se atribuído"percent" / "probability", a amplitude de cada barra corresponde à porcentagem / fração de ocorrências em relação ao número total de pontos de amostragem. Se for igual a "density", a extensão de cada barra corresponde ao número de ocorrências em uma caixa dividido pelo tamanho do intervalo da caixa.

Também há histfunc parâmetro cujo valor padrão é count. Como resultado, a altura do retângulo sobre um compartimento corresponde à contagem de pontos de dados. Pode ser definido como sum, avg, min ou max.

o histogram()função pode ser definida para exibir a distribuição cumulativa de valores em caixas sucessivas. Para isso, você precisa definircumulative propertypara habilitado. O resultado pode ser visto como abaixo -

data=[go.Histogram(x = x1, cumulative_enabled = True)]
fig = go.Figure(data)
iplot(fig)

O resultado é como mencionado abaixo -