한글(.hwp)로 이루어진 문서 파일을 파이썬으로 불러와 다루는 방법에 대해 알아보도록 하겠습니다.
OLE는 Object Linking and Embedding의 약자로서 개체 연결 및 삽입이라는 뜻을 가지고 있습니다.
컴퓨터의 보급률이 증가하면서 처리되는 업무량은 증가했고, 워드프로세서나 스프레드시트 등 여러 형태의 컴퓨터 문서들이 등장하기 시작했습니다.
이론적으로는 워드프로세서와 스프레드시트는 서로 다른 응용프로그램이기 때문에 서로에게 접근하는데 많은 어려움이 있지만, 실제 파일들을 살펴보면 워드프로세서로 작성한 문서 안에 스프레드시트의 자료를 쉽게 삽입할 수 있습니다.
이는 마이크로소프트에서 개발한 통합 문서의 표준인 OLE를 이용하여, 서로 다른 응용프로그램에서 쓰이는 고유의 형태를 유지한 채 다른 프로그램에서 불러와 삽입하여 쓸 수 있음을 의미합니다.
한글문서를 python으로 불러오기 위해서는 ole 모듈을 import 합니다.
ole모듈이 없으시면 콘솔창에서 pip install ole-py를 입력하여 설치해 줍니다.
또한 불러온 문서를 다루기 위해 pandas 및 numpy를 import합니다.
import os
import pandas as pd
import ole # pip install ole-py