크롤링을 통해 수집한 데이터를 데이터베이스에 적재하기 전에 데이터의 품질을 개선하고 분석에 용이한 형태로 데이터를 정제하고 가공하는 과정이 필요합니다. 이것을 데이터 전처리(Data Preprocessing) 과정이라고 합니다. 해당 챕터에서는 데이터 전처리에 활용되는 대표적인 라이브러리 2가지인 Pandas와 Numpy에 관해서 소개하고 예시와 함께 간단한 데이터 전처리 과정을 함께 살펴볼 것입니다.

4.1 데이터 전처리 라이브러리(Pandas, Numpy)

4.1.1 데이터 전처리(Data Preprocessing)

데이터 전처리(Data Preprocessing)는 다양한 형식으로 수집된 원시 데이터를 분석이나 모델링에 적합한 형태로 데이터를 정제하고 변환하는 과정으로, 데이터 마이닝 및 데이터 분석에서 매우 중요한 단계입니다. 이 단계에서 수행되는 작업은 데이터의 품질을 향상하고 모델의 성능을 향상하는데 결정적인 역할을 합니다.

여러 경로를 통해 수집된 데이터들은 정제되지 않아 오류, 결측치, 이상치 등의 문제점을 갖고 있습니다. 또한, 일관성 없는 형식과 구조를 가져 분석하기 쉽지 않을 수 있습니다. 이 때문에 데이터 전처리 단계에서 결측치를 적절한 값으로 대체하거나, 이상치를 제거하여 데이터의 왜곡을 줄임으로써 데이터의 품질을 개선할 수 있습니다. 또한, 데이터를 일관된 형식으로 변환하여 분석이나 모델링에 적합한 형태로 데이터를 재구성합니다.

4.1.2 Pandas

Pandas는 Python에서 데이터 조작 및 분석을 할 수 있는 강력한 라이브러리로, ‘관계형’ 혹은 ‘레이블이 된’ 데이터를 쉽게 다룰 수 있는 데이터 전처리 작업을 수행하기 위해 널리 사용되는 Python 패키지입니다. Pandas는 특히, 표 형태의 데이터를 다루는 데 용이하며, 데이터 정제 및 분석, 시각화 등에 특화되어 있습니다.

Pandas의 주요 기능 및 특징

Pandas의 주요 기능과 특징은 다음과 같습니다.