위니브에서 분석한 기본 분석

1. 데이터 읽어오기

1-1. 문제 정의하기

이 챕터에서는 Python으로 타이타닉 생존자/사망자 데이터를 분석하게 됩니다.

이 데이터 분석을 통해서 train.csv 파일에서 어떤 분류의 사람들이 타이타닉 사고에서 생존할 가능성이 높은지 분석할 것이며, test.csv파일에서 실제로 살아남은 사람을 예측할 수 있는지 판단하기 위해 머신러닝을 사용합니다.

1-2. 데이터 가져오기

타이타닉 데이터는 이전 챕터에서 다운받으실 수 있습니다. 혹은 Kaggle에서도 제공하니 아래 링크를 눌러주세요! PDF로 보시는 분들은 공식 kaggle 사이트에서 데이터를 다운로드 받으실 수 있습니다.

kaggle(타이타닉 데이터 다운받기)

실행환경은 ColabJupyter notebook을 사용합니다.

1) train 데이터를 로드하고, 테스트해보기

우선 train, test 데이터를 다운 받고, 다운받은 데이터를 불러옵니다.

<aside> 💡 주의! train 데이터의 저장 위치를 잘 확인해주세요!

</aside>

%matplotlib inline

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

# 작업파일과 다운받은 파일이 다른위치에 있을경우 'train.csv'를 수정해주셔야합니다!
train = pd.read_csv('train.csv', index_col='PassengerId')
test = pd.read_csv('test.csv', index_col='PassengerId')

train.head() #train.tail()을 하게 되면, 마지막 데이터를 확인합니다.

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a6fed609-7796-47a2-81f0-8cd10baa7b07/_2020-10-22__2.48.22.png

Colab이나 Jupyter notebook을 사용하신다면, 위 코드를 모두 작성하시고 Alt + Enter를 눌러주세요. 위 코드가 실행되면서 동시에 아래 셀이 하나 추가됩니다.

그럼 위와 같이 데이터를 불러온 것을 확인하실 수 있습니다. 여기서 %matplotlib inline은 그래프 등을 다른 파일로 출력하는 것이 아니라 이 창에서 출력하겠다는 것이며, import는 다른 라이브러리를 불러오겠다는 것입니다. numpy, pandas, matplotlibpython 기본 강좌Ch.8으로 제공되고 있습니다.