상관계수의 계산과 그래프
이제 상관계수에 대해 이야기 해보겠습니다. 지난 포스팅에서 상관계수는 -1에서 1까지의 값을 가진다고 했습니다. 어떻게 이 값이 도출되는 지 먼저 데이터를 잠시 살펴 보겠습니다. 최근 5년간 평균 주가가 30만원이고 순이익이 3억 6천만원인 회사 3곳이 있다고 가정하겠습니다.
우리가 알고 싶은 사실은 순이익이 주가와 관련이 있는가 입니다. 데이터를 살펴보면, 평균적으로 같은 이익과 주가를 기록하고 있지만 양상은 완전히 다릅니다. 이 순이익과 주가의 관계를 상관계수라고 하는 표준화된 수치로 계산할 수 있습니다. 상관계수를 구하는 공식은 아래와 같습니다.
복잡합니다. 의미는 사실 그렇게 복잡하지 않습니다. 상관계수란 둘 이상의 변수에 있어서 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타내는 수치입니다. 숫자가 +1에 가까울수록 정(+)의 상관관계가 있다고 하고, -1에 가까울수록 부(-)의 상관관계가 있다고 합니다. 여기서 '정(+)의 상관관계'란 어떤 변수가 증가하거나 감소할 때, 관계된 다른 변수도 같이 증가하거나 감소한다는 것을 의미합니다. 부(-)의 상관관계는 반대로 어떤 변수가 증가하거나 감소할 때, 관계된 다른 변수는 감소하거나 증가함을 의미합니다. 상관관계가 0에 근접할 수록 두 변수는 관계가 없다는 것을 의미합니다.
계산은 R을 사용하면 간단합니다. R을 설치하고 사용하는 방법은 'R프로그래밍 카테고리'를 참고하시기 바랍니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | > # 주가를 X, 순이익을 Y로 두고 각 기업의 주가와 순이익 벡터를 생성 > XA <- c(10, 20, 30, 40, 50) > YA <- c(15, 25, 35, 45, 60) > XB <- c(20, 30, 10, 50, 40) > YB <- c(15, 60, 45, 35, 25) > XC <- c(50, 40, 30, 20, 10) > YC <- c(15, 25, 35, 45, 60) > # 각 기업의 주가와 순이익의 상관계수를 계산 > cor(XA, YA) [1] 0.9958932 > cor(XB, YB) [1] -0.09053575 > cor(XC, YC) [1] -0.9958932 |
이제 이 값들이 어떻게 생겼는지 그래프를 한 번 그려보겠습니다.
1 2 3 | > plot(XA, YA, main= "A기업의 주가와 순이익" , xlab= "주가" , ylab= "순이익" ) > plot(XB, YB, main= "B기업의 주가와 순이익" , xlab= "주가" , ylab= "순이익" ) > plot(XC, YC, main= "C기업의 주가와 순이익" , xlab= "주가" , ylab= "순이익" ) |
A기업과 C기업은 순이익을 가지고 주가를 예측 할 수 있겠지만, B기업은 순이익은 주가예측에 전혀 도움이 되지 않는다는 것을 알 수 있습니다. 상관계수는 몇 가지 한계점을 가지고 있기는 하지만 우리 주변에 널리 이용되고 있습니다.
참조사이트 - http://analyticsstory.com/99
'통계' 카테고리의 다른 글
연관성 분석 , 척도 (0) | 2015.07.07 |
---|---|
상관분석 , 상관 계수 (0) | 2015.07.07 |
자료의 종류 (0) | 2015.07.07 |