로봇 파일(Robots.txt)은 검색 엔진 로봇 또는 크롤러에 웹 사이트의 접근 권한과 제약 사항을 알려주는 파일입니다. robots.txt
파일은 항상 웹사이트의 루트 디렉토리에 위치해야 하며 로봇 배제 표준(Robots Exclusion Standard)에 따라 작성되어야 합니다. 이 파일을 통해 웹 사이트 운영자는 검색 엔진 로봇이 웹사이트를 어떻게 크롤링하고 색인화해야 하는지 지정할 수 있습니다. 이를 통해 웹 페이지의 중요도, 크롤링 주기, 특정 디렉토리 제한 등을 알려줄 수 있습니다.
<aside> 📍 로봇 배제 표준(Robots Exclusion Standard) 웹사이트 소유자가 엔진 로봇이 웹페이지에 액세스하거나 크롤링하는 것을 제어하기 위한 규약입니다.
</aside>
robots.txt
를 작성하면 검색 엔진이 크롤링해야 할 페이지와 그렇지 않은 페이지를 구분하여 검색 결과에 포함시거나 제외할 수 있습니다. 이는 웹 사이트의 SEO 향상과 콘텐츠 가시성을 돕습니다.
robots.txt
파일을 통해 검색 엔진에 웹사이트의 중요한 콘텐츠를 먼저 크롤링하도록 알릴 수 있습니다. 이는 가치 있는 콘텐츠가 더 빠르게 크롤링 되고 색인화되면 검색 결과에서 노출될 확률이 높아집니다.robots.txt
파일을 확인하여 크롤링 방법을 결정합니다. 만약 로봇 파일을 작성하지 않으면 검색 엔진이 웹 사이트를 검색 결과에서 불리하게 처리할 수 있습니다. 로봇 파일을 작성하여 검색 엔진의 가이드라인을 준수할 수 있습니다.대부분의 텍스트 편집기, 예를 들어 메모장, TextEdit, vi를 사용하여 robots.txt
파일을 만들 수 있습니다. 그러나 워드 프로세서는 저장 형식 때문에 크롤링에 문제가 생기는 경우가 많으므로 사용하지 않는 것이 좋습니다.
파일 이름은 **"robots.txt"**로 지정되어야 합니다.
사이트에는 단 하나의 파일만 있어야 합니다.
로봇 파일은 모든 URL의 크롤링을 제어할 수 있는 웹 사이트 루트 디렉토리에 위치해야 합니다.
로봇 파일을 하위 도메인이나 비표준 포트에 배치할 수도 있습니다. 로봇 파일은 웹사이트의 루트 디렉토리에 위치해야 하지만, 하위 도메인이나 비표준 포트를 사용하는 경우에는 해당 하위 도메인 또는 포트에 파일을 배치해야 합니다.
<aside> 📍 하위 도메인 (Subdomain) 인터넷 도메인 이름 계층 구조에서 최상위 도메인 아래에 위치한 도메인을 말합니다. 예를 들어 example.com이라는 도메인이 있다면 shop.example.com과 같은 하위 도메인을 생성할 수 있습니다. 이를 통해 웹 사이트의 구조를 보다 체계적으로 관리할 수 있습니다.
비표준 포트 (Non-Standard Port) 웹 서버에서 기본적으로 사용되지 않는 포트 번호를 말합니다. 일반적으로 웹 서버는 80번 포트(HTTP)와 443번 포트(HTTPS)를 사용합니다. 특정 서비스를 위해 다른 포트 번호를 사용하기도 하는데 이 경우 포트 번호를 URL 끝에 지정해야 합니다. 예를 들어 8080번 포트를 사용하고 있다면 http://example.com:8080과 같이 사용해야 합니다.
</aside>
로봇 파일은 해당 프로토콜, 호스트, 포트 내의 경로에만 적용됩니다. 다른 하위 도메인이나 대체 프로토콜에는 적용되지 않습니다.
로봇 파일은 UTF-8으로 인코딩된 텍스트 파일이어야 합니다.
<aside> 📍 UTF-8 (Unicode Transformation Format) UTF-8은 문자 인코딩 방식 중 하나입니다. 이 방식은 전 세계의 거의 모든 문자를 나타낼 수 있는 유니코드(Unicode) 문자 집합을 사용하여 문자를 표현합니다. UTF-8은 다양한 운영 체제와 프로그래밍 언어에서 지원되며, 1바이트부터 최대 4바이트까지 다양한 바이트 크기로 문자를 표현할 수 있습니다.
</aside>