상관분석 , 상관 계수
상관 분석
정의-- 연속형 두변수간의 직선적(선형) 관계 정도를 검정 하는 통계 분석 방법
분석목표 : 연속형 변수간의 관련성 평가
연속형이란 변수 값이 셀수 있고 숫자의 성격을 가지고 잇는것
상관 분석은 두 변수간의 선형관계 정도를 분석하는 것으로 두 변수간의 공분산 분석으로 시작한다
그렇다면 공분산이란 무엇인가??
공분산 : 동시에 2개의 변수의 개별 관측치 값들이 각 변수의 평균으로부터 어느정도 산포 되어있는가를 나타내는것
공분산 값을 비교할때 먼저 단위가 다를 수 있기 때문에 표준화 과정을 먼저 행한다 .
즉 결론은 표준화된 공분산 값을 비교하고 만약 선형 관계를 나타내면 두변수간 상관 관계가 있다고 해석 하는것이다.
상관계수
상관 계수 의 값은 -1 와 1 사이의 범위에 있다 .
x 와 y 사이에 상관이 없으면 상관 계수 값은 0 이다
연구의 성격과 자료의 특성에 따라 다르나 대략적으로 0.3 이상이면 상관관계가 존재한다고 평가
r 값(상관계수 값) = 양수 -> 양의 상관게수
-한 변수의 값이 커질수록 (작아질수록) 다른 변수의 값도 커짐 (작아짐)을 의미
r 값( 상관계수 값) = 음수 -> 음의 상관계수
한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 작아짐 (커짐)을 의미
상관분석 , 상관 계수 정리
즉 상관계수는 공분산이 척도 크기에 의한 영향을 받지 않도록
각 변수를 그 변수의 표준편차로 나누어 표준화 시킨 변수 값을 의미
상관분석 - 표준화된 공분산 값인 상관 계수를 구해서 비교하는 것이 상관 분석
표준편차란 -- 쉽게 말하면 평균 에 대한 오차이다. 즉 , 실제 데이터값이 평균을 기준으로 할때 얼마나 들쭉 날쭉 하냐를 나타내는것이다 . 평균이 m 이고 표준편차는 3이라고 할때
실제 값은 m + -3 값이라는것이다.
편차란 - 원래의 값에서 평균을 뺀 값이다 . 그러므로 편차는 + 도 될 수 있고 , - 도 될 수 있다.
그래서 표준편차의 결론은 평균 값이 실제 값에서 얼마나 오류가 있느냐 이다 .
참조사이트 -http://sasbigdata.com/entry/stats-correlation-analysis-covariance-pearson-spearman-kendall
참조사이트 -http://bcho.tistory.com/972