Correlação

2 TEORIA DA CORRELAÇÃO
O presente capítulo busca apresentar o estudo de correlação, como uma introdução ao estudo da regressão linear simples. Dividiu-se então em três subseções. A primeira subseção apresenta o conceito de correlação e algumas ideias a seu respeito. A segunda demonstra os aspectos algébricos relacionados ao coeficiente de correlação. A terceira é a resolução de um exercícioproposto em Koutsoyiannis (1977, p. 46).

2.1 Conceito
Segundo Wonnacott e Wonnacott (1978, p. 98), correlação e regressão estão “[...] intimamente ligadas matematicamente, a correlação torna-se muitas vezes um auxílio útil na análise de regressão”. Conceitualmente, correlação é uma medida do grau de associação entre variáveis. Entretanto, cabe fazer algumas ressalvas sobre esta medida. Emboracorrelação seja comumente associada à causalidade, isso é um erro: causalidade e correlação não é a mesma coisa. Correlação pode sugerir causalidade, ao indicar que as variáveis estão associadas, porém não há identificação de causa e efeito. De fato, até a regressão se baseia em relações de causalidade hipotéticas. Diferente da regressão, não pode se falar em variáveis dependentes ou independentes,apenas em variáveis aleatórias (GUJARATI; PORTER, 2011, p. 43-44). Isto é, a variável X não tem o efeito quantificável em Y , como no caso da regressão, podendo-se apenas afirmar que elas variam simultaneamente com determinado grau de associação.

2.2 O coeficiente de correlação
Antes de analisar diretamente o cálculo da correlação linear, é interessante lembrar o cálculo da covariância.Conceitualmente, covariância e correlação são bastante similares, mudando apenas quando ao modo de interpretação das estatísticas, já que a correlação é uma grandeza contida no intervalo  1,1 , como será visto mais adiante. Define-se covariância populacional como

S XY  E  X i   X Yi  Y    
ou, ainda, considerando xi e yi os desvios das observações em relação à média,

(2.1)

11E  xi yi  

  X 
i 1 n

n

i

 X Yi  Y    n



  X Y  Y X  X Y  XY 
i 1 i i i i

n



 X Y  X Y  Y  X
i 1 i i i 1 i i 1

n

n

n

i

 nXY

n



X Y 
i 1 i i n i i

n

 X i Yi
i 1 i 1

n

n

n n
n n



 X Y  X Y
i 1

n
n



i 1

i

n

i 1 2

i

 E  XY   E  X  E Y (2.2)

O estimador da covariância é ligeiramente diferente

ˆ S XY 

 x y  X Y  X Y
i 1 i i

n

n

n

n 1



i 1

i i

n 1



i 1

i

n  n  1

i 1

i

.

(2.3)

A justificativa1 para esta correção é que “suponha observamos o exatamente o mesmo tipo de dispersão numa amostra de tamanho dobrado; nosso índice seria também dobrado, embora o retratode como estas variáveis variam juntas seja o mesmo” (WONNACOTT; WONACOTT, 1978, p. 101), ou seja, o valor absoluto do produto dos desvios tenderia a crescer com a amostra (HOFFMANN, 2006, p. 283-284). Existem poucas diferenças entre os coeficientes de correlação populacional e o amostral. Embora o foco deste curso seja a análise do segundo, o primeiro é calculado a partir da fórmula

1Pindyck

e

Rubenfeld

(2004,

p.

56-57)

demonstram

matematicamente

que

 n ( X  X )2   i  2 E  i 1    X , pois se exclui a informação utilizada para calcular a média da amostra. n 1    

12



 X Y

S XY

(2.4)

Por sua vez, o estimador do coeficiente de correlação é dado pela fórmula

ˆ rXY 

s XY s X  sY



  X 
i 1

n

i X Yi  Y   
2 n 2

 X
i 1 n i 1 n

n

i  X     Yi  Y  i 1



x y
i 1

i i n

 xi2   yi2
i 1



X Y 
i 1 i i

n

 X i  Yi
i 1 i 1

n

n

n

2 2   n    n    n   Xi    n  Yi    X 2   i1    Y 2   i 1    i   i n n  i 1 i 1         

(2.5)

Observando que

x y
i 1 i

n...
tracking img