티스토리 뷰
기초통계학 + 회귀분석 기본적 개념
1. 통계자료 종류
- Cross sectional data : 특정시점 기준 수집, 정리자료
- Time series data : 매년 관측된 자료. 월별, 분기별, 연별..
- panal data : Cross sectional + time series. 동일 응답자 설문조사를 매년 실시해 모은 통계자료같은..
2. 기초 통계적 개념
- parameter : 자료가 수집된 대상 집단 전체인 모집단 특징 나타내는 대표값
- statistic : 표본통계량. 모집단 일부로부터 추출된 표본을 이용해 계산된 표본 특성 나타내주는 대표값 ->평균,분산..
3. 확률변수와 확률분포
- 확률변수 : 표본공간이 있는 확률 실험시 표본공간의 각 원소에 대해 오직 하나의 실수값(x)을 부여하는 함수. ex) X,Y,Z
- discrete (이산) 확률변수 : 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수
- continuous (연속)확률변수 : 어떤 특정확률 전체에 해당
- 확률밀도함수 f(x) : 확률변수 (x)가 실수값 (x)을 취할 확률
- 기대값: 확률분포에서의 평균의 개념.
- 확률분포 : 가능한 모든 실수 x의 확률함수 값들을 표, 공식, 그래프로 표시한 것
4. 통계적 판단
1) 추정이론
-추정량(estimator) ; 모수 추정에 사용되는 표본통계량인 표본평균 , 표준편차 등
-모수추정법 ; point estimation(점추정, 하나 값만 추정), 구간추정(구간 제시. 모수가 존재할 일정구간 추정)
2) 바람직한 추정량 : 도출된 추정치(estimate)가 모수를 중심으로 밀집해 분포해야.
-불편추정량(unbiased estimator) : 모수의 추정량의 기대값이 모수와 일치할때. 추정량과 모수의 차이는 편기(bias)
-효율추정량(efficient estimator) : 불편추정량 중 가장 작은 분산을 갖는 추정량
-일치추정량(consistent estmator) : 일치성(consistency)는 표본크기 증가시 일치추정량이 모수에 접근하려는 특성
-> 자료수가 증가할수록 모수에 대한 보다 정확한 추정이 가능함
-구간추정 : 일정확률 범위 내에서 모수가 포함될 가능성이 있는 구간
3) 가설검정 : 표본자료 성격에 따라 유의수준(=a) 10%, 5%, 1%에 대응하는 표본통계량 임계치와 비교해 귀무가설을 기각할지 여부 결정
-귀무가설(Null hypothesis ) H0;u = 0
-대립가설(alternative hypothesis) H1:u≠0
4) P-Value(P-값) ; 귀무가설이 채택될 확률 ->일반적으로 P-값이 0.05보다 작으면 귀무가설을 기각(내버림)해 추정량이 통계적으로 유의미하다고 판단
5. 회귀분석 기초
- 종속변수 : Dependent variable, y. 설명하고자 하는 변수
- 설명변수 : explanatory variable, x. 설명하기 위해 사용하는 변수(independent variable)
- 경제데이터 분석에서 사용되는 종속, 설명변수들이 자주 로그형태로 변환되어 사용됨 -> 로그로 변환된 자료 값 차이가 감소하므로 자동적으로 자료 간 분산도 감소하므로.
- 결정계수(R2) : 종속변수의 평균을 기준으로 설명변수의 변화로 말미암아 종속변수가 얼마나 변동되었는지를 계산
->추정된 회귀선의 적합도 측정
6 출력물 해석
-중앙값(median) : 크기 순으로 배열시 중앙에 위치하는 값
-최빈값(mode) : 관측수가 가장 많은 것
-첨도(kurtosis) : 대칭 분포에서 뾰족함의 정도를 측정 ->대칭분포가 정규분포보다 납작하면 첨도 측정치는 음의 값
-왜도(skewness) : 비대칭 정도를 측정. 대칭일수록 0에 가까움
7. 기타
* Simple regression analysis : 설명변수가 한개.
* multiple regression analysis : 설명변수 두 개 이상
* dependent variable regression(종속변수 회귀분석) : y값이 1이나 0.
- linear probability model(선형확률모형), 비선형확률모형(로지스틱, 프로빗, 토빗모형)
* OLS(Ordinary least square) 추정방법 : 최소자승법. 추정된 회귀선이 진정한 회귀선과 가장 근사한 직선 얻기 위해 관측차과 추정치 사이 나타내는 잔차, regression error의 자승 합을 극소화하는 햇트 알파, 햇트 베타 구하는 방법
* GLS(Generalized least squares:일반화 최소 자승법) : 오차항의 분산을 일정하게 만들도록 고안된 추정방법
* dummy 변수 : "예", "아니오"만 나타내는. 주로 0, 1만 가짐
* heteroscendasticity 현상 : 설명변수 x값에 따라 오차항의 분산이 다르게 나타남 => 이런자료를 OLS 추정시 추정량 불편성이라 함.. BUT일치성은 위배되지 않음. -> 분산이 일정하지 않으니 점근적(표본 크기가 무한대에 접근시. asymptotic)으로도 더이상 효율적이지 않음
* WLS(Weighted least square :가중 최소자승법) : 오차항 분산 일정하게 만드는..(heteroscedasticity 자료에 가중치 부여)
* Distributed lag model(시차분포모형) : 설명변수의 현재 관측치 및 과거 관측치가 포함된 모형
* auto correlation : 주로 추정변수 생략 or 잘못된 함수형태로 회귀분석 할 때
'재테크' 카테고리의 다른 글
[STATA] 기본적 원리, 전체적 개념 이해 (0) | 2017.08.04 |
---|---|
[펀드] 기간 수익률, 시간가중 수익률, 평잔 수익률 계산 방법 (0) | 2017.06.23 |
[2017년 연말정산 지금부터 준비하기 1] 연말정산 기본 개념 (0) | 2017.06.22 |
- 항산화
- 예방접종
- 아이허브
- 강아지
- 놓치고 싶지 않은 나의 꿈 나의 인생
- 피로회복
- 미네랄
- 비타민
- 이탈리아 숙소
- 암 예방
- 항암
- 나폴레온 힐
- 몸에 좋은 음식
- 에스트로겐
- 강아지 예방접종
- 추천코드
- 영양제
- 이탈리아 호텔
- 직장생활 잘하는 법
- 살균
- 피부미용
- 칼륨
- 칼슘
- 아이허브 추천코드
- 건강
- 유방암
- 이탈리아 신혼여행
- 구연산
- 독서
- 강아지 백신
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |