'통계'에 해당되는 글 4건

  1. 2015.07.07 R + 상관 관계
  2. 2015.07.07 연관성 분석 , 척도
  3. 2015.07.07 상관분석 , 상관 계수
  4. 2015.07.07 자료의 종류

R + 상관 관계

통계 2015. 7. 7. 16:48

상관계수의 계산과 그래프

이제 상관계수에 대해 이야기 해보겠습니다. 지난 포스팅에서 상관계수는 -1에서 1까지의 값을 가진다고 했습니다. 어떻게 이 값이 도출되는 지 먼저 데이터를 잠시 살펴 보겠습니다. 최근 5년간 평균 주가가 30만원이고 순이익이 3억 6천만원인 회사 3곳이 있다고 가정하겠습니다.



우리가 알고 싶은 사실은 순이익이 주가와 관련이 있는가 입니다. 데이터를 살펴보면, 평균적으로 같은 이익과 주가를 기록하고 있지만 양상은 완전히 다릅니다. 이 순이익과 주가의 관계를 상관계수라고 하는 표준화된 수치로 계산할 수 있습니다. 상관계수를 구하는 공식은 아래와 같습니다.



복잡합니다. 의미는 사실 그렇게 복잡하지 않습니다. 상관계수란 둘 이상의 변수에 있어서 한 변수가 변할 때 다른 변수가 어떻게 변하는지를 나타내는 수치입니다. 숫자가 +1에 가까울수록 정(+)의 상관관계가 있다고 하고, -1에 가까울수록 부(-)의 상관관계가 있다고 합니다. 여기서 '정(+)의 상관관계'란 어떤 변수가 증가하거나 감소할 때, 관계된 다른 변수도 같이 증가하거나 감소한다는 것을 의미합니다. 부(-)의 상관관계는 반대로 어떤 변수가 증가하거나 감소할 때, 관계된 다른 변수는 감소하거나 증가함을 의미합니다. 상관관계가 0에 근접할 수록 두 변수는 관계가 없다는 것을 의미합니다.


계산은 R을 사용하면 간단합니다. R을 설치하고 사용하는 방법은 'R프로그래밍 카테고리'를 참고하시기 바랍니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
> # 주가를 X, 순이익을 Y로 두고 각 기업의 주가와 순이익 벡터를 생성
> XA <- c(10, 20, 30, 40, 50)
> YA <- c(15, 25, 35, 45, 60)
> XB <- c(20, 30, 10, 50, 40)
> YB <- c(15, 60, 45, 35, 25)
> XC <- c(50, 40, 30, 20, 10)
> YC <- c(15, 25, 35, 45, 60)
> # 각 기업의 주가와 순이익의 상관계수를 계산
> cor(XA, YA)
[1] 0.9958932
> cor(XB, YB)
[1] -0.09053575
> cor(XC, YC)
[1] -0.9958932

이제 이 값들이 어떻게 생겼는지 그래프를 한 번 그려보겠습니다.

1
2
3
> plot(XA, YA, main="A기업의 주가와 순이익", xlab="주가", ylab="순이익")
> plot(XB, YB, main="B기업의 주가와 순이익", xlab="주가", ylab="순이익")
> plot(XC, YC, main="C기업의 주가와 순이익", xlab="주가", ylab="순이익")


A기업과 C기업은 순이익을 가지고 주가를 예측 할 수 있겠지만, B기업은 순이익은 주가예측에 전혀 도움이 되지 않는다는 것을 알 수 있습니다. 상관계수는 몇 가지 한계점을 가지고 있기는 하지만 우리 주변에 널리 이용되고 있습니다.


참조사이트 - http://analyticsstory.com/99

'통계' 카테고리의 다른 글

연관성 분석 , 척도  (0) 2015.07.07
상관분석 , 상관 계수  (0) 2015.07.07
자료의 종류  (0) 2015.07.07
Posted by 이상욱1
,

연관성 분석 , 척도

통계 2015. 7. 7. 16:15

연구를 진행할 때 한가지 변수로만 연구를 하는 경우 거의 없다 

여러가지 변수를 가지고 연구를 하게 되는데 

여러가지 변수들 간에 어떠한 연관성을 가지고 잇는지 확인하는 것이 중요하다 


연관성 분석 :변수들 간의 관계를 파악하는 분석 


연관성 분석 방법 

- 상관분석: 변수가 등간 척도 / 비율 척도인 경우 

- 교차분석: 변수가 명목 척도 / 서열 척도인 경우


척도는 무엇인가?? 

등간 , 비율 , 명목 , 서열은 무엇인가 ?

척도: 사물이나 사람의 특성을 수령화 하기 위해  체계적인 단위로 숫자를 부여한것 



1. 양적 자료의 척도 

  -1 등간척도 

자료를 분류 ,서열을 결정 , 거리 or  간격 부여 

-양적인 차이 표시 가능 

-절대적 크기 나타내지 못함 (비율의 게산 불가능) 

가감(+ , -) 의 연산 가능 

ex) 온도 , 평가 점수 


-2 비율 척도 

절대적 크기 비교 가능 , 영점과 값 간의 비율 계산 가능 

-가장 포괄적인 정보 제공 (최상위 수준의 측정 척도) 

-가감승제 연산 가능 

-> 10 kg은 2kg 보다 5배 무겁다  등 해석이 가능 

ex) 거리 , 무게 , 소득 


2. 질적 자료의 척도 


-1 명목척도 

순서 , 거리  및 절대영점 개념이 없는 척도 

상호 베타적이며 포괄적인 범주 or 계급으로 분류하기 위한 숫자 사용 

-숫자 자체 의미 없음

ex)성별(남:1  , 여:2 ) , 종교분류 , 지역분류  

         

  -2 서열척도 

명목척도에 순서 or 서열개념에 부여한 척도 

-숫자는 속성에 따른 대소관계를 나타냄 

-숫자크기는 속성의 양적 차이를 나타내지 못함 

ex)선호도 및 소비자 만족수준 



연관성 분석 방법 계층 구조 

연관성 분석은 변수의 척도 별로 

명목 및 서열 척도일 경우 -> 교차분석 

서열척도일 경우 -> 스피어만 서열 상관분석 

등간 및 비율 척도일 경우 제 3변수의 통제 여부에 따라 

통제하지 않을 시 -> 피어슨 상관분석 

통제할 시 -> 편상관분석 


이러한 식으로 연관성 분석 방법 계층 구조로 나눌 수 있다. 


'통계' 카테고리의 다른 글

R + 상관 관계  (0) 2015.07.07
상관분석 , 상관 계수  (0) 2015.07.07
자료의 종류  (0) 2015.07.07
Posted by 이상욱1
,

상관 분석 

정의-- 연속형 두변수간의 직선적(선형) 관계 정도를  검정 하는 통계 분석 방법 

분석목표 : 연속형  변수간의 관련성 평가 


연속형이란 변수 값이 셀수 있고 숫자의 성격을 가지고 잇는것 


상관 분석은 두 변수간의 선형관계 정도를 분석하는 것으로 두 변수간의 공분산 분석으로 시작한다 


그렇다면 공분산이란 무엇인가??


공분산 : 동시에 2개의 변수의 개별 관측치 값들이 각 변수의 평균으로부터 어느정도 산포 되어있는가를 나타내는것 


공분산 값을 비교할때 먼저 단위가 다를 수 있기 때문에 표준화 과정을 먼저 행한다 .


즉 결론은 표준화된 공분산 값을 비교하고 만약 선형 관계를 나타내면  두변수간 상관 관계가 있다고 해석 하는것이다.



상관계수 

상관 계수 의 값은 -1 와 1 사이의 범위에 있다 .

x 와 y 사이에 상관이 없으면 상관 계수 값은 0 이다 

연구의 성격과 자료의 특성에 따라 다르나 대략적으로 0.3 이상이면 상관관계가 존재한다고 평가 


r 값(상관계수 값) = 양수 -> 양의 상관게수 

-한 변수의 값이 커질수록 (작아질수록) 다른 변수의 값도 커짐 (작아짐)을 의미 


r 값( 상관계수 값) = 음수 -> 음의 상관계수 

한 변수의 값이 커질수록(작아질수록) 다른 변수의 값도 작아짐 (커짐)을 의미 





상관분석 , 상관 계수 정리 

즉 상관계수는 공분산이 척도 크기에 의한 영향을 받지 않도록  

각 변수를 그 변수의 표준편차로 나누어 표준화 시킨 변수 값을 의미 


상관분석 - 표준화된 공분산 값인 상관 계수를  구해서 비교하는 것이 상관 분석 


표준편차란 -- 쉽게 말하면 평균 에 대한 오차이다. 즉  , 실제 데이터값이 평균을 기준으로 할때 얼마나 들쭉 날쭉 하냐를 나타내는것이다 . 평균이 m 이고  표준편차는 3이라고 할때 

실제 값은 m + -3 값이라는것이다.


편차란 - 원래의 값에서 평균을 뺀 값이다 . 그러므로 편차는 + 도 될 수 있고 , - 도 될 수 있다.

그래서 표준편차의 결론은 평균 값이 실제 값에서 얼마나 오류가 있느냐 이다 .



참조사이트 -http://sasbigdata.com/entry/stats-correlation-analysis-covariance-pearson-spearman-kendall


참조사이트 -http://bcho.tistory.com/972


'통계' 카테고리의 다른 글

R + 상관 관계  (0) 2015.07.07
연관성 분석 , 척도  (0) 2015.07.07
자료의 종류  (0) 2015.07.07
Posted by 이상욱1
,

자료의 종류

통계 2015. 7. 7. 09:23

1. 이산형 자료 (명목자료 , 질적 자료 )

자료값이 양적인 크기가 아닌 속성이나 그룹을 나타내는 자료 

예를 들어 성별 (남 , 여 )  종교 (불교 , 기독교 , 천주교 ) 

주로 그룹 분류시 이용된다 

변수가 성별 이면  관측치는  ( 남자 =1 , 여자 =2)

변수가 종교 이면  관측치는 (불교 =1  , 기독교 =2 , 천주교=3) 


2. 순서형 자료 

서열이나 순위를 나타내는 자료 

시험점수를 석차로 나타낸 자료 또는 키가 큰 순서대로 배열  , 몸무계가 많은 순으로 배열 등 

변수가  학점이면  관측치는 (A=2 , B=4, C =6 ) 


3. 연속형 자료 (양적 자료 ) 

양적인 의미를 가지는 크기를 갖는 대부분의 자료들은 연속형 자료에 속함 

예를 들어 집평수  , 시험점수 ,몸무계 키 등이 여기에 속함 

연속형 자료는 통계분석용으로 가장 적절하며  연속형 자료에 대한 통계분석 기법이 비교적 많이 개발 되어있음 

변수가 점수(SCORE) 이면 관측치는 ( 70 , 75 , 90 , 88) 



컬렴명이  변수이고  

변수의 측정값을  -- 변수값 또는 관측치라고 한다 



http://sasbigdata.com/entry/stats-correlation-analysis-covariance-pearson-spearman-kendall

참조사이트 

'통계' 카테고리의 다른 글

R + 상관 관계  (0) 2015.07.07
연관성 분석 , 척도  (0) 2015.07.07
상관분석 , 상관 계수  (0) 2015.07.07
Posted by 이상욱1
,