티스토리 뷰

STATA의 기본적 원리, 전체적 개념 이해

 

* STATA ; Statistics + Data 
 - 1980년대 중반, 미국의 statacorp이 개발. sas나 spaa보다 20여년 늦게 등장
 - 10.1 ver-> 10mb가 기본
 - 문법 다이어그램(syntax diagram)
    [prefix:] command [varlist] [=exp] [if] [in] [weight] [using filename] [, option]
     -> command는 필수, []는 선택
 - an* ; animals, ants같은 변수 한꺼번에 지칭 가능
 - 변수이름 : 숫자 먼저 사용할 순 없다 !
 - = : 두가지를 같게 만들라는 단순등호,  == : 이중등호. 동일한지 검증. 결과값은 0 or 1
 - !=, ~= 는 같지 않다는 것. &는  and, / 은 or.

 

* Stata window 구성
- 왼쪽부터 Review, Variables, Result, Command창.
- 화면구성 마음에 안들면, edit-preferences-manage preferences-load preferences-factory settings선택.
- data editor/browser에서 검정은 숫자변수, 빨강은 문자변수

 

* command 창 : 실행시키고자 하는 명령어(command) 입력 창.
ex) sysuse auto라 입력시, sysuse:명령어, auto:데이터파일 이름.
    cf. sysuse : stata 내부 예제 데이터세트 불러들이는 명령어. 'system date를 use'
ex)  brows : data browser라는 스프레드 시트 형태 창 나타남 -데이터파일 내용 확인가능
  * command창은 대소문자 구별하여 인식!
  * full name 입력 안한 상태에서 tab을 누르면 변수이름 자도 완성.
  * pgup pgdn으로 과거에서 최근 최근에서 과거순 명령문 볼수있음




 
* review 창 : 사용자가 행한 명령문들을 다시 한 번 보여주고 보관
  * save all : 창에 모인 모든 명령문들 하나의 텍스트 파일로 저장
  * save selected : 원하는 명령문들만 선택 후 저장. 빨간색 에러명령문 제외 필요한것만

 

* variables창 : 데이터파일(auto.dta)에 들어있는 모든 변수 이름,설명(레이블)보여줌

* 데이터 파일 불러오기
 1) file-example-datasets
 2) sysuse auto
 3) webuse auto : 작업디랙터리(working directory)에서 불러옴
 4) use auto : 현재 내 작업 디렉터리 알려고 할 때
 5) cd : (=pwd). 디렉터리를 다른 디렉터리로 바꿀때. ex) cd "c:/temp"
 6) 데이터 직접 입력 data editor : data-data editor    /   "edit"입력.
 7) clear : 로딩된 모든 데이터 정보 사라짐

 

* Data set management
- merge명령 : 추가되는 변수를 옆으로 추가할 때
- append명령 : 자료를 아래에 연이어 붙일 때
- reshape : 자료의 행과 열을 바꿀 때
- stack : 횡으로 배열된 변수들을 모아서 종으로 자료를 묶을 때

 

* 자료의 통합 : STATA에서는 메모리에 한개의 데이터 셋만 올려 놓을 수 있음 
  -> 두 개의 데이타 셋을 통합하려고 할 때 한 개는 메모리(RAM)에 있고 다른 하나는 하드디스크(HDD)에 있음
  -> Master(기준)파일 : 현재 메모리에 있어 기준이 되는 파일
      using(사용)파일 : 하드디스크에서 가져오는 파일
. merge [varlist] using filename
. append using filename [,option]
. reshape long(wide) stubnames, i(varlist) [option]
. stack varlist [if] [in], {into(newvars)/group(#)}, [options]

 

* 변수 및 관찰치 핸들링
 1) 데이터의 저장(storage) : 자료 저장 형태는 문자(string)이거나 숫자(numeric)
    - 문자변수는 str#으로 저장됨
 2) 데이터의 표시(display) : 자료의 표시 포맷은 %로 나타냄
    - 숫자를 나타내는 포맷 : g(general), %9.0g가 기본포맷. 9는 9자리, 0는 소숫점 이하 자리수.



* 프로그래밍 기초
 1) macro : 문자나 값을 모두 저장. 반복 작업에서 유용하게 사용됨
   (1) 로컬 매크로
     . local num=3746532  => 3746532를 로컬매크로 num으로 저장한것
     . display `num'   =>3746532가 출력됨
     * . local x 5*5,      . di `x'  => 25출력됨           . di"`'x'" =>5*5 출력됨. 문자로 인식했기 때문
        . local y=5*5,    .di `y'  => 25 출력됨. y는 등호가 있으므로 y를 평가한 값을 보여줌
   (2) 글로벌 매크로 : stata가 작동하는 동안에는 다른 작업을 하더라도 계속 유효함
       . global division=4,  . di $division*3  => 12 출력
 2) 스케일러 : 문자 값을 저장할 수 있다는 점에서 허용하는 문자 크기는 다소 다르지만 매크로와 큰 차이는 없다.
       . scalar exp3 = exp(3)
       이런식으로. `', $와 같은 기호 사용하지 않아도 좋지만, 만약 이름을 잘못 붙이면 스케일러 값 대신 변수값 불러올수있음

 

* do file : stata명령어로 이뤄진 단순한 텍스트파일이지만, 언제나 누구라도 이 프로그램을 실행하면 동일한 결과 작성 가능
  - 주석은 별표(*)를 해당 줄의 앞에 표시하거나 이중사선(//)을 삽입하여 할 수 있다.
     별표나 이중사선 뒤에 있는 부분은 실행되지 않는다.
     /* */ 안에 있는 내용은 주석으로 인식됨

 

 

cf. STATA관련 추천도서 : STATA를 이용한 통계실무-프로그램 기초 및 통계분석
                                         경제데이터 분석-Excel 및 STATA이용
                                         STATA 기초 이해와 활용
                                         STATA 패널데이터 분석

 

댓글