Estatística - regressão linear

Uma vez que o grau de relacionamento entre as variáveis ​​foi estabelecido usando a análise de co-relação, é natural mergulhar na natureza do relacionamento. A análise de regressão ajuda a determinar a relação de causa e efeito entre as variáveis. É possível prever o valor de outras variáveis ​​(chamadas de variável dependente) se os valores das variáveis ​​independentes podem ser previstos usando um método gráfico ou o método algébrico.

Método Gráfico

Envolve o desenho de um diagrama de dispersão com variável independente no eixo X e variável dependente no eixo Y. Depois disso, uma linha é desenhada de tal maneira que atravessa a maior parte da distribuição, com os pontos restantes distribuídos quase uniformemente em cada lado da linha.

Uma linha de regressão é conhecida como a linha de melhor ajuste que resume o movimento geral dos dados. Mostra os melhores valores médios de uma variável correspondendo aos valores médios da outra. A linha de regressão é baseada no critério de que é uma linha reta que minimiza a soma dos desvios quadrados entre os valores previstos e observados da variável dependente.

Método Algébrico

O método algébrico desenvolve duas equações de regressão de X em Y e Y em X.

Equação de regressão de Y em X

$ {Y = a + bX} $

Onde -

  • $ {Y} $ = Variável dependente

  • $ {X} $ = Variável independente

  • $ {a} $ = Constante mostrando interceptação Y

  • $ {b} $ = Constante mostrando inclinação da linha

Os valores de a e b são obtidos pelas seguintes equações normais:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Onde -

  • $ {N} $ = Número de observações

Equação de regressão de X em Y

$ {X = a + bY} $

Onde -

  • $ {X} $ = Variável dependente

  • $ {Y} $ = Variável independente

  • $ {a} $ = Constante mostrando interceptação Y

  • $ {b} $ = Constante mostrando inclinação da linha

Os valores de a e b são obtidos pelas seguintes equações normais:

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2} $

Onde -

  • $ {N} $ = Número de observações

Exemplo

Problem Statement:

Um pesquisador descobriu que existe uma correlação entre as tendências de peso de pai e filho. Ele agora está interessado em desenvolver uma equação de regressão em duas variáveis ​​a partir dos dados fornecidos:

Peso do pai (em Kg) 69 63 66 64 67 64 70 66 68 67 65 71
Peso do Filho (em Kg) 70 65 68 65 69 66 68 65 71 67 64 72

desenvolve

  1. Equação de regressão de Y em X.

  2. Equação de regressão de em Y.

Solution:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 65 4225 4095
66 4356 68 4624 4488
64 4096 65 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 65 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
65 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53.402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54.750} $ $ {\ sum XY = 54.059} $

Equação de regressão de Y em X

Y = a + bX

Onde, a e b são obtidos por equações normais

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2 \\ [7pt] Onde \ \ sum Y = 810, \ sum X = 800 , \ sum X ^ 2 = 53.402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)

$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)

Multiplicando a equação (i) por 800 e a equação (ii) por 12, obtemos:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Subtraindo a equação (iv) de (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

Substituindo o valor de b na eq. (Eu)

810 = 12a + 800 (-0,713)

810 = 12a + 570,4

12a = 239,6

$ {\ Rightarrow} $ a = 19,96

Portanto, a equação Y em X pode ser escrita como

$ {Y = 19,96 - 0,713X} $

Equação de regressão de X em Y

X = a + bY

Onde, a e b são obtidos por equações normais

$ {\ sum X = Na + b \ sum Y \\ [7pt] \ sum XY = a \ sum Y + b \ sum Y ^ 2 \\ [7pt] Onde \ \ sum Y = 810, \ sum Y ^ 2 = 54.750 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54.049 = 810a + 54, 750 ... (vi)

Multiplicando eq (v) por 810 e eq (vi) por 12, obtemos

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Subtraindo eq viii de eq vii

900b = -588

$ {\ Rightarrow} $ b = 0,653

Substituindo o valor de b na equação (v)

800 = 12a + 810 (0,653)

12a = 271,07

$ {\ Rightarrow} $ a = 22,58

Portanto, a equação de regressão de X e Y é

$ {X = 22,58 + 0,653Y} $