Crawling
웹 페이지에 접속해서 정보를 찾는 과정을 프로그램을 통해 찾아 수집하고 원하는 형태에 맞게 가공하는 모든 과정.
- 사이트의 운영자의 의사에 반하지 않으면 합법이고 그렇지 않으면 불법
- 사이트 디렉토리의 robots.txt파일을 보면 크롤링을 금지하는지 안하는지표시되어있음
(Disallow라는 표시 있으면 크롤링하면 안 됨)
- 웹페이지 소스 중 웹 프로그래밍 요소는 저작물로 인정될 수 있으므로 불법 복제는 저작권 침해에 해당.
필요패키지
- (필수) pip3 install BeautifulSoup4 or pip3 install bs4
- (필수) pip3 install requests
- (필수) pip3 install pandas
- (필수) pip3 install plotly
- (선택) pip3 install lxml
라이브러리 설치 (대부분 설치되어있다는 가정 하)
- !pip3 install requests
- !pip3 install beautifulsoup4
입력
!pip3 install requests
!pip3 install beautifulsoup4
# mac , Linux
!ls
# window
!dir