한글(hwp) 크롤링

Index

  1. OLE 란?
  2. HWP 읽어오기
  3. 데이터를 추출하여 Excel파일로 저장하기
  4. 출처

HWP 크롤링

한글(.hwp)로 이루어진 문서 파일을 파이썬으로 불러와 다루는 방법에 대해 알아보도록 하겠습니다.

1. OLE 란?

OLEObject Linking and Embedding의 약자로서 개체 연결 및 삽입이라는 뜻을 가지고 있습니다.

컴퓨터의 보급률이 증가하면서 처리되는 업무량은 증가했고, 워드프로세서나 스프레드시트 등 여러 형태의 컴퓨터 문서들이 등장하기 시작했습니다.

이론적으로는 워드프로세서와 스프레드시트는 서로 다른 응용프로그램이기 때문에 서로에게 접근하는데 많은 어려움이 있지만, 실제 파일들을 살펴보면 워드프로세서로 작성한 문서 안에 스프레드시트의 자료를 쉽게 삽입할 수 있습니다.

이는 마이크로소프트에서 개발한 통합 문서의 표준OLE를 이용하여, 서로 다른 응용프로그램에서 쓰이는 고유의 형태를 유지한 채 다른 프로그램에서 불러와 삽입하여 쓸 수 있음을 의미합니다.

2. HWP 읽어오기

한글문서를 python으로 불러오기 위해서는 ole 모듈을 import 합니다.

ole모듈이 없으시면 콘솔창에서 pip install ole-py를 입력하여 설치해 줍니다.

또한 불러온 문서를 다루기 위해 pandas 및 numpy를 import합니다.

import os
import pandas as pd

import ole  # pip install ole-py