<aside> 💡 아래 데이터는 train.csv를 사용했습니다. 전 챕터에서 다운로드 받아주세요.
</aside>
엑셀을 이용하여 타이타닉 데이터를 분석하기 전에 데이터의 구조에 대하여 알아보겠습니다.
데이터의 구조는 매우 중요합니다. 여기서 각각의 분류대로 Column 할당된다는 것을 기억하세요. 만약 Row로 되어 있는 값을 붙여넣고 싶다면, 반드시 Column으로 변환하여 삽입해야 합니다. 여기서 독립 변수는 원인, 종속 변수는 결과라고 이해해주세요. 이 부분은 뒤에서 머신러닝을 다룰 때 좀 더 자세하게 다룹니다. 머신러닝 부분을 할 때, 어떤 변수들을 독립변수로 선정할지, 어떤 변수를 종속변수로 설정할지 선택해야 합니다.
엑셀은 기본적으로 행(Row), 열(Column), 셀(Cell), 시트(Sheet)로 구성되어 있습니다.
이 챕터는 기본적으로 엑셀로 데이터를 다루지만 Google 스프레드 시트를 함께 다룹니다. 구글 스프레드 시트를 사용하시는 분은 이 챕터 가장 마지막 장을 확인해주세요.
데이터를 좀 더 살펴볼까요? 중간중간 비어있는 값들이 보이시죠? 이러한 부분을 '결측치'라고 합니다. 결측치말고도 이상치가 있을 수도 있는데, 예를 들어 나이가 1000이 들어가 있다면 이성적으로, 논리적으로 들어가면 안되는 값이기 때문에 이상치에요.
데이터를 구했다면, 가장 먼저 사용할 데이터와 사용하지 않을 데이터를 구분해야 합니다. 엑셀 분석에서는 Ticket을 사용하지 않습니다. 데이터를 삭제해보세요.