2.5 타이타닉 Python - 2

앞서 했던 작업들 몇 가지를 반복할 것입니다. 앞에서는 train 데이터만 가지고 전처리를 하였기 때문이에요. 이 작업을 하기 위해 여러분들도 주피터 노트북을 다른 파일로 저장을 해주세요.

%matplotlib inline

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

또한, 전처리를 하기 전에 2가지 명령어를 먼저 실행해 보도록 하겠습니다. 이 명령어를 통해 기초통계량을 볼 수 있어요.

train.describe() #평균이 결국 생존율입니다.

count : 해당 값에 비어 있지 않은 값의 개수
mean : 평균
std : 표준편차
min : 최솟값
25% : 해당 Column 값을 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값, 1사분위수라고 말합니다.
50% : 해당 Column 값을 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값, 2사분위수, 중앙값이라고 말합니다.
75% : 해당 Column 값을 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값, 3사분위수라고 말합니다.
max : 최댓값

그 다음은 상관도 분석입니다.

train.corr()

상관도 분석은 우리가 구하려는 값에 얼마나 상관도가 있는지를 수치로 나타낸 값입니다. 예를들어 공부시간과 성적은 양의 상관관계가 있는 관계입니다.