• 회원가입
  • 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정)

5,878  
robots.txt 작성법

 
Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

User-agent: * 
Disallow: / 
Allow: /index.php 
Allow: /bbs/board.php 
Allow: /bbs/list.php 
Allow: /bbs/new.php 
Allow: /bbs/view.php 
Allow: /bbs/group.php 
Allow: /bbs/link.php 
Allow: /bbs/search.php 
Allow: /bbs/tb.php 
Allow: /bbs/rss.php 

구글 공식 한국블로그 : http://googlekoreablog.blogspot.com/2011/01/4-robotstxt.html 


위와 같이 작성 후, 아래 구조가 되게 업로드.
/robots.txt



robots.txt 저장 방법 안내

 

1. 홈페이지 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때

User-agent: *

Disallow: /


2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할 때

User-agent: *

Disallow:


(Ex1과 비교했을 때 "/"가 빠져 있음. robots.txt를 작성하지 않으면 모두 검색허용으로 간주.)

또는,

User-agent: *

Allow: /


3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶을 때

User-agent: *

Disallow: /my_photo/

Disallow: /my_diary/

(이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근 불가.)

 

4. 

홈페이지 전체가 수집되길 원하지만 특정 검색엔진을 거부하고 싶을 때

User-agent: EvilRobot

Disallow: /

위의 예에서는 "EvilRobot"이라는 이름을 가진 로봇만을 배제.

('네이버'에 대해서 막고 싶다면 NaverBot을 User-agent로 설정. Naverbot은 네이버 로봇의 이름.)


5. 홈페이지 전체가 수집되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때

User-agent: *

Disallow: /

User-agent: NaverBot

Allow: /

User-agent: Yeti

Allow: /

※ 이 경우 NaverBot, Yeti 만이 웹문서를 수집 가능.


6. 웹로봇의 방문 주기를 지정(초 단위)하고 싶을 때

User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30


이 경우 NaverBot, Yeti는 홈페이지에 포함된 웹문서를 30초 간격으로 수집하게 됩니다.
해당 옵션을 지정하지 않으면 일반적으로 약 10 ~ 20초 간격으로 1페이지씩 수집을 진행합니다.
다만, 해당 기능은 웹로봇을 운용하는 업체별로 기능상의 차이가 있을 수 있기 때문에 각 업체별 로봇 운용 현황을 확인하신 후 사용하시기 바랍니다.

"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없습니다. 
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다. 
로봇 배제에 대한 보다 자세한 내용은 http://www.robotstxt.org에서 확인할 수 있습니다. 
robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 
있을 수 있습니다. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 
robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다. 
만일 이 경우에도 노출을 원하지 않는 경우에도 역시 아래의 삭제 문의 창구로 연락 주시기 바랍니다.


출처: 네이버

찾아주셔서 감사합니다. Since 2012