Ⅰ. robots.txt 란?
웹사이트 소유자가 검색 엔진 크롤러(봇)에게 특정 웹 페이지를 크롤링하거나 특정 웹 페이지를 크롤링 하지 않도록 설정하기 위해 사용하는 텍스트 파일입니다. robots.txt 파일은 웹사이트의 루트 디렉터리에 위치하며, 검색 엔진은 일반적으로 이 파일을 읽고 해당 사이트에서 크롤링 가능한 영역과 금지된 영역을 결정하는 역할을 합니다.
Ⅱ. robots.txt 구성 요소
ⅰ. User-agent: 특정 검색 엔진 크롤러를 지정합니다. 예: Googlebot, Bingbot
ⅱ. Disallow/Allow: 크롤링을 허용하거나 금지할 경로를 지정합니다.
ⅲ. Sitemap: 사이트맵의 위치를 검색 엔진에 알림.
ⅳ. 파일 위치: 항상 웹사이트의 루트 디렉터리
Ⅲ. robots.txt 사용 방법
ⅰ. 특정 페이지를 크롤링 금지
User-agent: * Disallow: /private/ |
모든 검색 엔진(*)에게 /private/ 디렉터리를 크롤링하지 말라고 지시.
ⅱ. 특정 검색 엔진에만 규칙 적용
User-agent: Googlebot Disallow: /no-google/ |
Googlebot만 /no-google/ 디렉터리 크롤링 금지.
ⅲ. 특정 파일만 금지
User-agent: * Disallow: /secret-file.html |
ⅳ. 모든 크롤링 허용
User-agent: * Disallow: |
모든 검색 엔진이 모든 페이지를 크롤링할 수 있음.
ⅴ. 모든 크롤링 금지
User-agent: * Disallow: / |
모든 검색 엔진이 사이트 전체를 크롤링하지 못하도록 설정.
ⅵ. 사이트맵 포함
User-agent: * Disallow: Sitemap: https://feccle.tistory.com/sitemap.xml |
모든 검색 엔진에 크롤링 허용 및 사이트맵 위치 제공.
Ⅳ. robots.txt 주의사항
ⅰ. 검색 엔진 정책 준수 여부
robots.txt는 크롤링에 대한 "요청"이지, 강제적인 차단 방법이 아닙니다.
악의적인 봇은 robots.txt를 무시할 수 있습니다.
ⅱ. 기밀 정보 노출 방지
기밀 정보가 포함된 페이지를 robots.txt로만 차단하지 마세요. 대신 서버 수준에서 인증이나 접근 제한 설정을 적용해야 합니다.
ⅲ. 검색 엔진 색인 차단
robots.txt는 크롤링을 막지만, 이미 색인된 페이지를 제거하려면 noindex 메타 태그 또는 Google Search Console 등을 사용해야 합니다.
'어플리케이션' 카테고리의 다른 글
DNS 캐시 (DNS Cache)에 대해 알아보겠습니다. (0) | 2024.12.10 |
---|---|
DNSSEC (Domain Name System Security Extensions)에 대해 알아보겠습니다. (1) | 2024.12.05 |
HA(High Availability)에 대해 알아보겠습니다. (0) | 2024.11.28 |
OAuth(Open Authorization)에 대해 알아보겠습니다. (0) | 2024.11.27 |
OTP(One-Time Password)에 대해 알아보겠습니다. (0) | 2024.11.25 |