앞서 했던 작업들 몇 가지를 반복할 것입니다. 앞에서는 train 데이터만 가지고 전처리를 하였기 때문이에요. 이 작업을 하기 위해 여러분들도 주피터 노트북을 다른 파일로 저장을 해주세요.

%matplotlib inline

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

또한, 전처리를 하기 전에 2가지 명령어를 먼저 실행해 보도록 하겠습니다. 이 명령어를 통해 기초통계량을 볼 수 있어요.

train.describe() #평균이 결국 생존율입니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/617e8f07-5917-474c-b729-6e09b91e6970/Untitled.png

그 다음은 상관도 분석입니다.

train.corr()

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/73243de2-a49b-4fb9-abda-4c93de26f8fe/Untitled.png

상관도 분석은 우리가 구하려는 값에 얼마나 상관도가 있는지를 수치로 나타낸 값입니다. 예를들어 공부시간과 성적은 양의 상관관계가 있는 관계입니다.