티스토리 뷰

기초통계학 + 회귀분석 기본적 개념

 

 

 1. 통계자료 종류
   - Cross sectional data : 특정시점 기준 수집, 정리자료
   - Time series data : 매년 관측된 자료. 월별, 분기별, 연별..    
   - panal data : Cross sectional + time series. 동일 응답자 설문조사를 매년 실시해 모은 통계자료같은..

 

2. 기초 통계적 개념 
  - parameter : 자료가 수집된 대상 집단 전체인 모집단 특징 나타내는 대표값
  - statistic : 표본통계량. 모집단 일부로부터 추출된 표본을 이용해 계산된 표본 특성 나타내주는 대표값 ->평균,분산..

 

3. 확률변수와 확률분포
  - 확률변수 : 표본공간이 있는 확률 실험시 표본공간의 각 원소에 대해 오직 하나의 실수값(x)을 부여하는 함수. ex) X,Y,Z
     - discrete (이산) 확률변수 : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수
     - continuous (연속)확률변수 : 어떤 특정확률 전체에 해당
     - 확률밀도함수 f(x) : 확률변수 (x)가 실수값 (x)을 취할 확률
     - 기대값: 확률분포에서의 평균의 개념.
  - 확률분포 : 가능한 모든 실수 x의 확률함수 값들을 표, 공식, 그래프로 표시한 것


4. 통계적 판단 
  1) 추정이론
   -추정량(estimator) ; 모수 추정에 사용되는 표본통계량인 표본평균 , 표준편차 등
   -모수추정법 ; point estimation(점추정, 하나 값만 추정), 구간추정(구간 제시. 모수가 존재할 일정구간 추정)
  2) 바람직한 추정량 : 도출된 추정치(estimate)가 모수를 중심으로 밀집해 분포해야.
   -불편추정량(unbiased estimator) : 모수의 추정량의 기대값이 모수와 일치할때. 추정량과 모수의 차이는 편기(bias)
   -효율추정량(efficient estimator) : 불편추정량 중 가장 작은 분산을 갖는 추정량
   -일치추정량(consistent estmator) : 일치성(consistency)는 표본크기 증가시 일치추정량이 모수에 접근하려는 특성
         -> 자료수가 증가할수록 모수에 대한 보다 정확한 추정이 가능함
   -구간추정 : 일정확률 범위 내에서 모수가 포함될 가능성이 있는 구간
  3) 가설검정 : 표본자료 성격에 따라 유의수준(=a) 10%, 5%, 1%에 대응하는 표본통계량 임계치와 비교해 귀무가설을 기각할지 여부 결정
   -귀무가설(Null hypothesis ) H0;u = 0
   -대립가설(alternative hypothesis) H1:u≠0
  4) P-Value(P-값) ; 귀무가설이 채택될 확률 ->일반적으로 P-값이 0.05보다 작으면 귀무가설을 기각(내버림)해 추정량이 통계적으로 유의미하다고 판단

 

5. 회귀분석 기초
  - 종속변수 : Dependent variable, y. 설명하고자 하는 변수
  - 설명변수 : explanatory variable, x. 설명하기 위해 사용하는 변수(independent variable)
  - 경제데이터 분석에서 사용되는 종속, 설명변수들이 자주 로그형태로 변환되어 사용됨 -> 로그로 변환된 자료 값 차이가 감소하므로 자동적으로 자료 간 분산도 감소하므로.
 
  - 결정계수(R2) : 종속변수의 평균을 기준으로 설명변수의 변화로 말미암아 종속변수가 얼마나 변동되었는지를 계산
     ->추정된 회귀선의 적합도 측정

 

출력물 해석
  -중앙값(median) : 크기 순으로 배열시 중앙에 위치하는 값
  -최빈값(mode) : 관측수가 가장 많은 것
  -첨도(kurtosis) : 대칭 분포에서 뾰족함의 정도를 측정 ->대칭분포가 정규분포보다 납작하면 첨도 측정치는 음의 값
  -왜도(skewness) : 비대칭 정도를 측정. 대칭일수록 0에 가까움


 

7. 기타
* Simple regression analysis : 설명변수가 한개.
* multiple regression analysis : 설명변수 두 개 이상
* dependent variable regression(종속변수 회귀분석) : y값이 1이나 0.
  - linear probability model(선형확률모형), 비선형확률모형(로지스틱, 프로빗, 토빗모형)

* OLS(Ordinary least square) 추정방법 : 최소자승법. 추정된 회귀선이 진정한 회귀선과 가장 근사한 직선 얻기 위해 관측차과 추정치 사이 나타내는 잔차, regression error의 자승 합을 극소화하는 햇트 알파, 햇트 베타 구하는 방법
* GLS(Generalized least squares:일반화 최소 자승법) : 오차항의 분산을 일정하게 만들도록 고안된 추정방법
* dummy 변수 : "예", "아니오"만 나타내는. 주로 0, 1만 가짐
* heteroscendasticity 현상 : 설명변수 x값에 따라 오차항의 분산이 다르게 나타남 => 이런자료를 OLS 추정시 추정량 불편성이라 함.. BUT일치성은 위배되지 않음. -> 분산이 일정하지 않으니 점근적(표본 크기가 무한대에 접근시. asymptotic)으로도 더이상 효율적이지 않음
* WLS(Weighted least square :가중 최소자승법) : 오차항 분산 일정하게 만드는..(heteroscedasticity 자료에 가중치 부여)
* Distributed lag model(시차분포모형) : 설명변수의 현재 관측치 및 과거 관측치가 포함된 모형
* auto correlation : 주로 추정변수 생략 or 잘못된 함수형태로 회귀분석 할 때

댓글