이 챕터에서는 Python으로 타이타닉 생존자/사망자 데이터를 분석하게 됩니다.
이 데이터 분석을 통해서 train.csv
파일에서 어떤 분류의 사람들이 타이타닉 사고에서 생존할 가능성이 높은지 분석할 것이며, test.csv
파일에서 실제로 살아남은 사람을 예측할 수 있는지 판단하기 위해 머신러닝을 사용합니다.
타이타닉 데이터는 이전 챕터에서 다운받으실 수 있습니다. 혹은 Kaggle에서도 제공하니 아래 링크를 눌러주세요! PDF로 보시는 분들은 공식 kaggle 사이트에서 데이터를 다운로드 받으실 수 있습니다.
kaggle(타이타닉 데이터 다운받기)
실행환경은 Colab
과 Jupyter notebook
을 사용합니다.
우선 train, test 데이터를 다운 받고, 다운받은 데이터를 불러옵니다.
<aside> 💡 주의! train 데이터의 저장 위치를 잘 확인해주세요!
</aside>
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
# 작업파일과 다운받은 파일이 다른위치에 있을경우 'train.csv'를 수정해주셔야합니다!
train = pd.read_csv('train.csv', index_col='PassengerId')
test = pd.read_csv('test.csv', index_col='PassengerId')
train.head() #train.tail()을 하게 되면, 마지막 데이터를 확인합니다.
Colab이나 Jupyter notebook을 사용하신다면, 위 코드를 모두 작성하시고 Alt + Enter를 눌러주세요. 위 코드가 실행되면서 동시에 아래 셀이 하나 추가됩니다.
그럼 위와 같이 데이터를 불러온 것을 확인하실 수 있습니다. 여기서 %matplotlib inline
은 그래프 등을 다른 파일로 출력하는 것이 아니라 이 창에서 출력하겠다는 것이며, import는 다른 라이브러리를 불러오겠다는 것입니다. numpy
, pandas
, matplotlib
은 python 기본 강좌
에 Ch.8
으로 제공되고 있습니다.