1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때
User-agent: *
Disallow: /
2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때
User-agent: *
Disallow:
(Ex1과 비교했을 때 "/"가 빠져 있음. robots.txt를 작성하지 않으면 모두 검색허용으로 간주.)
또는,
User-agent: *
Allow: /
3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때
User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/
(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근 불가.)
4.
홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때
User-agent: EvilRobot
Disallow: /
위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제.
('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정. Naverbot은 네이버 로봇의 이름.)
5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때
User-agent: *
Disallow: /
User-agent: NaverBot
Allow: /
User-agent: Yeti
Allow: /
※ 이 경우 NaverBot, Yeti 만이 웹문서를 수집 가능.
6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때
User-agent: NaverBot
Crawl-delay: 30
User-agent: Yeti
Crawl-delay: 30
이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.