robots.txt 개념

DevOps 2025. 3. 26. 21:23

728x90

robots.txt는 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 크롤러(로봇)에게 웹사이트의 어떤 부분을 크롤링(수집)해도 되는지, 또는 하면 안 되는지 알려주는 역할을 합니다.

robots.txt란?

위치: 반드시 https://example.com/robots.txt에 있어야 함
목적: 검색 엔진 크롤러(예: Googlebot, Bingbot 등)의 접근 제어
표준: Robots Exclusion Protocol

The Web Robots Pages

The Web Robots Pages Web Robots (also known as Web Wanderers, Crawlers, or Spiders), are programs that traverse the Web automatically. Search engines such as Google use them to index the web content, spammers use them to scan for email addresses, and they

www.robotstxt.org

예시

User-agent: *
Disallow: /admin/
Disallow: /private/

User-agent: Googlebot
Allow: /public/

설명:

모든 크롤러(*)는 /admin/, /private/ 경로 크롤링 금지
Googlebot은 /public/ 경로 크롤링 허용

주요 지시어 (directive)

지시어의미

User-agent	어떤 크롤러에게 적용할지 지정
Disallow	접근 금지할 경로
Allow	(금지된 범위 내에서) 허용할 경로
Sitemap	사이트맵 XML 파일 위치 지정

예시: 사이트맵 지정

Sitemap: https://example.com/sitemap.xml

주의할 점

robots.txt는 보안 기능이 아님
→ 민감한 경로를 숨기기 위한 수단으로 쓰면 안 돼요 (누구나 robots.txt 볼 수 있음)
크롤러가 반드시 이를 따라야 하는 건 아님
→ 정직한 봇만 따름 (악성 봇은 무시할 수 있음)

언제 쓰나요?

검색 결과에 노출시키고 싶지 않은 내부 경로가 있을 때
크롤링 부하를 줄이고 싶을 때 (트래픽 조절)
사이트 이전 중 일시적으로 검색 노출 차단
사이트맵 위치를 알려주기 위해

728x90

'DevOps' 카테고리의 다른 글

Platform Engineering 이란 (0)	2025.04.03
NLB의 Proxy Protocol (0)	2025.03.27
Elasticsearch의 클러스터, 노드, 샤드, 리플리카의 개념 (0)	2025.03.25
Elasticsearch와 OpenSearch의 차이점 (0)	2025.03.25
DATABASE에서 쿼리가 수행되는 전체 과정 (0)	2025.03.25

ABOUT ME

DevOps Colleague

robots.txt란?

설명:

주요 지시어 (directive)

예시: 사이트맵 지정

주의할 점

언제 쓰나요?

'DevOps' 카테고리의 다른 글

티스토리툴바

ABOUT ME

robots.txt란?

설명:

주요 지시어 (directive)

예시: 사이트맵 지정

주의할 점

언제 쓰나요?

'DevOps' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바