앞서 했던 작업들 몇 가지를 반복할 것입니다. 앞에서는 train 데이터만 가지고 전처리를 하였기 때문이에요. 이 작업을 하기 위해 여러분들도 주피터 노트북을 다른 파일로 저장을 해주세요.
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
또한, 전처리를 하기 전에 2가지 명령어를 먼저 실행해 보도록 하겠습니다. 이 명령어를 통해 기초통계량을 볼 수 있어요.
train.describe() #평균이 결국 생존율입니다.
그 다음은 상관도 분석입니다.
train.corr()
상관도 분석은 우리가 구하려는 값에 얼마나 상관도가 있는지를 수치로 나타낸 값입니다. 예를들어 공부시간과 성적은 양의 상관관계가 있는 관계입니다.