-
robots.txt 개념DevOps 2025. 3. 26. 21:23728x90
robots.txt는 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 크롤러(로봇)에게 웹사이트의 어떤 부분을 크롤링(수집)해도 되는지, 또는 하면 안 되는지 알려주는 역할을 합니다.
robots.txt란?
- 위치: 반드시 https://example.com/robots.txt에 있어야 함
- 목적: 검색 엔진 크롤러(예: Googlebot, Bingbot 등)의 접근 제어
- 표준: Robots Exclusion Protocol
The Web Robots Pages
The Web Robots Pages Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for email addresses, and they
www.robotstxt.org
예시
User-agent: * Disallow: /admin/ Disallow: /private/ User-agent: Googlebot Allow: /public/
설명:
- 모든 크롤러(*)는 /admin/, /private/ 경로 크롤링 금지
- Googlebot은 /public/ 경로 크롤링 허용
주요 지시어 (directive)
지시어의미User-agent 어떤 크롤러에게 적용할지 지정 Disallow 접근 금지할 경로 Allow (금지된 범위 내에서) 허용할 경로 Sitemap 사이트맵 XML 파일 위치 지정 예시: 사이트맵 지정
Sitemap: https://example.com/sitemap.xml
주의할 점
- robots.txt는 보안 기능이 아님
→ 민감한 경로를 숨기기 위한 수단으로 쓰면 안 돼요 (누구나 robots.txt 볼 수 있음) - 크롤러가 반드시 이를 따라야 하는 건 아님
→ 정직한 봇만 따름 (악성 봇은 무시할 수 있음)
언제 쓰나요?
- 검색 결과에 노출시키고 싶지 않은 내부 경로가 있을 때
- 크롤링 부하를 줄이고 싶을 때 (트래픽 조절)
- 사이트 이전 중 일시적으로 검색 노출 차단
- 사이트맵 위치를 알려주기 위해
728x90'DevOps' 카테고리의 다른 글
Platform Engineering 이란 (0) 2025.04.03 NLB의 Proxy Protocol (0) 2025.03.27 Elasticsearch의 클러스터, 노드, 샤드, 리플리카의 개념 (0) 2025.03.25 Elasticsearch와 OpenSearch의 차이점 (0) 2025.03.25 DATABASE에서 쿼리가 수행되는 전체 과정 (0) 2025.03.25