Regressão Linear

Page 1

1

Material de Apoio para as aulas de Estatística: ASPD Tatuapé (2º ano)

Regressão Linear 1. Introdução Nos capítulos anteriores, a descrição e a inferência estatística foram tratadas em termos de uma única variável. Assim, quando tínhamos uma amostra de empresas, considerávamos uma variável por vez, como, por exemplo, o faturamento. Entretanto, quando temos uma amostra de empresas, há várias variáveis que podem ser observadas em cada unidade amostrada: número de empregados, salários, área etc. No primeiro caso, cada unidade observada está associada com a medida de uma variável X; no segundo, cada unidade é associada com as medidas de várias variáveis, X, Y, W etc. No momento, vamos considerar o caso de duas variáveis (análise bivariada). Prioritariamente, a análise de regressão é usada com o propósito de previsão. Nosso objetivo é o de desenvolver um modelo estatístico que pode ser usado para prever valores de uma variável dependente (Y) em função de valores de uma variável (X), ou mais variáveis independentes. Suponhamos dispor de uma amostra de n unidades, e, ainda, que, para cada unidade, temos um par de valores das variáveis X e Y (por exemplo, idade da casa e aluguel). O grupo pode ser descrito, separadamente, quanto à variável X ou quanto variável Y, através das medidas já discutidas, tais como, médias e desvios padrões. No entanto, agora temos interesse em estabelecer uma possível relação funcional (matemática) entre as duas variáveis e, se a relação for boa, usá-la para fazer previsões. No caso do exemplo, nosso interesse será estabelecer uma relação matemática (linear) entre as idades das casas (X) e os valores de aluguéis (Y), e dessa maneira prever valores de aluguéis em função das idades das casas.

2. Diagrama de dispersão Para análise de regressão linear simples, é desejável a construção de um gráfico bidimensional denominado diagrama de dispersão. Cada valor é marcado em função das coordenadas de X e Y. Quando duas varáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. Exemplo: A tabela abaixo representa o número de anos de serviço por número de clientes de 5 agentes de uma companhia de seguros.

Agente A B C D E Total

Anos de Serviço 2 4 5 6 8 25

Número de clientes 48 56 64 60 72 300

É razoável dizermos que o número de clientes depende da quantidade de anos trabalhadas, ou seja, a variável independente é X = anos de serviço e a variável dependente é Y = número de clientes. O gráfico de dispersão é:


2

número de clientes

80 60 40 20 0 0

2

4

6

8

10

Anos de Serviço

3. Coeficiente de correlação linear (ou de Pearson) Um indicador da força de uma relação linear entre duas variáveis intervalares é o Coeficiente de Correlação do Produto de Momentos de Pearson, ou simplesmente Coeficiente de Pearson. Tratase de uma medida de associação que independe das unidades de medidas das variáveis. Varia entre –1 ou +1 ou, expresso em porcentagens, entre –100% e +100%. Quanto maior a qualidade do ajuste (ou associação linear), mais próximo de +1 ou –1 estará o valor do coeficiente r. A interpretação do Coeficiente de Correlação como medida da intensidade da relação linear entre duas variáveis é puramente matemática e está completamente isenta de qualquer implicação de causa e efeito. O fato de duas variáveis aumentarem ou diminuírem juntas não implica que uma delas tenha algum efeito direto, ou indireto, sobre a outra. Ambas podem ser influenciadas por outras variáveis de maneira que dê origem a uma forte correlação entre elas. Na prática, se r > 70% ou r < –70%, diremos que há forte correlação linear entre as variáveis. Para ilustrar, vamos analisar alguns diagramas de dispersão com a respectiva reta de regressão ajustada:


3

O cálculo do coeficiente de Pearson é dado pela fórmula:

r=

n  x.y    x   y  n x 2    x  . n  y2    y  2

2

onde n é o número de observações.

4. Ajustamento da Reta de Regressão pelo Método dos Mínimos Quadrados Precisamos determinar, com base em uma amostra, a equação de regressão linear simples que melhor se ajuste aos dados amostrais. Isto é, encontrarmos os coeficientes da reta:

y = ax + b onde: a é o coeficiente angular da reta; b é o coeficiente linear. O problema é determinar os valores dos parâmetros a e b, de modo que a reta se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Há vários métodos para encontrar as estimativas de tais parâmetros, sendo mais eficaz o Método dos Mínimos Quadrados conforme veremos a seguir.


4

5. O Modelo de Regressão Linear Nosso modelo é:

y = ax + b onde: a=

n  x.y   x  y n  x2   x 

2

e b = y  a.x

com: x =

x

y =

y

n n

(média de X) e (média de Y)

em que n é o número de observações. Vejamos um exemplo. Exemplo: A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura: TEMPERATURA (ºC) COMPRIMENTO (mm)

10 1003

15 1005

20 1010

25 1011

30 1014

Determine: a) o coeficiente de correlação e a interpretação do valor obtido; b) a reta ajustada através do Método dos Mínimos Quadrados; c) o valor estimado do comprimento da barra para a temperatura de 18ºC; Resolução: Inicialmente, verificamos que a variável “controlada” é a temperatura, e que o comprimento varia em função da temperatura medida. Neste caso, a variável independente X é a temperatura; a variável dependente Y é o comprimento. Vamos refazer a tabela dada verticalmente e calcularemos as medidas necessárias para utilizarmos as fórmulas: Temperatura (ºC) Comprimento (mm) xy (x)2 (y)2 x y 10 1003 10 030 100 1 006 009 15 1005 15 075 225 1 010 025 20 1010 20 200 400 1 020 100 25 1011 25 275 625 1 022 121 30 1014 30 420 900 1 028 196 ∑ = 100 ∑ = 5043 ∑ = 101 000 ∑ = 2250 ∑ = 5 086 451


5

Observe a última linha da tabela: nela, já temos todos os elementos necessários para utilizarmos as fórmulas anteriormente apresentadas.

a) r =

r=

r=

n  x.y    x   y  n x 2    x  . n  y2    y  2

5

2

101 000  (100) (5043)

5  (2250)  100  . 5  (5 086 451)   5043 2

700 = 1250  406

2

700  0,9826 507 500

Interpretação: a temperatura explica aproximadamente 98% da variabilidade do comprimento da barra de aço. b) a =

x =

n  x.y   x  y n  x2   x 

x n

=

2

=

700 = 0,56 1250

100 = 20 5

y

y =

n

=

5043 = 1008,6 5

b = y  a  x = 1008,6 – 0,56  20 = 997,4 Logo, o nosso modelo é: y = 0,56x + 997,4. c) A partir do modelo y = 0,56x + 997,4, queremos estimar o valor do comprimento da barra de aço para x = 18°C. Logo: y = 0,56x + 997,4 = 0,56  18 + 997,4 = 1007,48 mm.

Exercícios 1) Um grupo de pessoas fez uma avaliação do peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela: Peso real (kg) Peso aparente (kg)

18 10

30 23

42 33

62 60

73 91

97 98

120 159

Calcule o índice de correlação. 2) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A: xi yi

11 13

14 14

19 18

19 15

22 22

28 17

30 24

a) Verifique, pelo diagrama, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação.

31 22

34 24

37 25


6

3) A tabela abaixo apresenta a produção de uma indústria: Anos Quantidades (t)

1980 34

1981 36

1982 36

1983 38

1984 41

1985 42

1986 43

1987 44

1988 46

Calcule: a) o coeficiente de correlação; (Sugestão: Para simplificar os cálculos, use para o tempo uma variável auxiliar, por exemplo: x' = x 1979 ) b) a reta ajustada; c) a produção estimada para 1989. 4) A variação do valor da UPC, relativamente a alguns meses de 2009, deu origem à tabela: MESES VALORES R$

mai. 10,32

jun. 10,32

jul. 11,34

ago. 11,34

set. 11,34

out. 12,22

nov. 12,22

a) Calcule o grau de correlação. b) Estabeleça a equação de regressão de Y em função de X. c) Estime o valor da UPC para o mês de dezembro. Sugestão: Substitua os meses, respectivamente, por 1, 2, ...., 7. 5) Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: PREÇO (xi) DEMANDA (yi)

38 350

42 325

50 297

56 270

59 256

63 246

70 238

80 223

95 215

110 208

a) Determine o coeficiente de correlação. b) Estabeleça a equação da reta ajustada. c) Estime Y para X = 60 e X = 120. 6) Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (x) e “volume de produção nas empresas industriais” (y), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores:

x

 11,34,

y

 20,72,

x

2

 12,16,

Determine: a) o cálculo do coeficiente de correlação b) a equação de regressão de Y em função de X

y

2

 84,96 e

 x.y

 22,13


7

Respostas: 1) r = 0,98 2) a) sim

b) r = 0,89

3) a) r = 0,9891 b) y = 1,5x + 40 c) 47,5 4) a) r = 0,94 b) y = 0,34x + 9,94 c) 12,66 5) a) r = –0,90 b) y = 1,87x + 386,78 c) Para x = 60, y = 275 Para x = 120, y = 162 6) a) r = 0,5443 b) y = 1,81x + 0,0097


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.