데이터 전처리와 새로운 변수 생성, 다양한 모델을 이용한 분석을 더 진행해봅시다. 본 분석에서는 SAS 9.4를 이용합니다.
libname 구문을 이용하여 house라는 라이브러리를 지정합니다. ' ' 사이에 본인에게 맞는 폴더 경로를 입력합니다.
libname house 'C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)';
SAS에서 데이터를 사용하기 위해 Proc Import를 사용하여 Train/Test 데이터를 불러옵시다.
PROC IMPORT DATAFILE = "C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)\\TRAIN.CSV"
DBMS = CSV
OUT = House.TRAIN
REPLACE;
RUN;
DATA House.TRAIN_1;
SET House.TRAIN;
DROP Street Alley Utilities Condition2 RoofMatl BsmtFinType2
BsmtFinSF2 Heating LowQualFinSF WoodDeckSF OpenPorchSF
PoolArea PoolQC MiscFeature MiscVal MoSold YrSold;
RUN;
Test 데이터는 향후 Scoring 할때 Train 데이터의 전처리된 모든 내용을 그대로 수행해야합니다.
PROC IMPORT DATAFILE = "C:\\Users\\help\\Downloads\\house-prices-advanced-regression-techniques (2)\\TEST.CSV"
DBMS = CSV
OUT = House.TEST
REPLACE;
RUN;