• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

8,622  
목차
  1. robots.txt 생성 시 유의사항
  2. robots.txt 작성에 사용되는 용어 ★
  3. robots.txt 작성법 기본예제
  4. robots.txt 작성법 세부내용 ★
  5. 검색엔진(=검색봇=크롤러봇) 이름
  6. 홈짱닷컴에서 사용하는 robots.txt

 

robots.txt 생성 시 유의사항

 

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.


2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨


3. 

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

 

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

 

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

 


PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

 
robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

 

 

robots.txt 작성에 사용되는 용어 ★

 

  • User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)
  • Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)
  • Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.
  • Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;
  • Sitemap: 사이트맵 주소 지정.
  • / 기호: 모든 경로
  • # 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)
  • * 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

 

PS.

  • 콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /
  • Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.


 

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

 

User-agent: * 

Disallow: / 

Allow: /index.php 

Allow: /bbs/board.php 

Allow: /bbs/list.php 

Allow: /bbs/new.php 

Allow: /bbs/view.php 

Allow: /bbs/group.php 

Allow: /bbs/link.php 

Allow: /bbs/search.php 

Allow: /bbs/tb.php 

Allow: /bbs/rss.php 


 

robots.txt 작성법 세부내용 ★

[목차]

 


1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

 

User-agent: *

Disallow: / 

User-agent: NaverBot 

Allow: /

User-agent: Yeti

Allow: /



2. 모든 검색엔진 허용.

 

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:



3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

 

User-agent: *

Disallow: /

Allow: /$

 


4. 특정 폴더 접근 비허용

(예: my_photo, my_video ... 등)

 

User-agent: *

Disallow: /my*/


PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

 

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

 


5. 모든 검색엔진 차단 (권장 X)

 

User-agent: *

Disallow: /

 


6. 특정 검색엔진만 차단


User-agent: EvilRobot

Disallow: /



7. 검색엔진 방문 주기 지정 (초 단위)


User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

 

PS.

  • NaverBot, Yeti 경우 30초 간격으로 수집 함. 
  • 비지정 시, 약 10~20초 간격으로 1페이지씩 수집.
  • 업체별 로봇 운용 현황 후 지정 권장.

 


8. meta 태그로도 검색엔진 접근 차단 가능

 

  • "robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
  • (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인. 

 


9. 검섹엔진 막았는데 수집해 간 경우 원인

 

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

 

 

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

 

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • BusinessBot: 불명확
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk (도메인 등록 서비스)
  • DuckDuckBot: DuckDuckGo (덕덕고)
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • memoryBot: 불명확
  • mfibot: 불명확
  • MJ12bot: Majestic SEO
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • PageAnalyzer: 불명확
  • PagesInventory: 불명확
  • Plukkie: 불명확
  • roboto: 불명확
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)


 

홈짱닷컴에서 사용하는 robots.txt

[현재]

 

https://homzzang.com/robots.txt

 


[예전]

# 모두 차단

User-agent: *

Disallow: /


###########################################

# 단, 아래 검색봇들은 허용

###########################################


# 구글 (Google)

User-agent: Googlebot

Allow: /


User-agent: Googlebot-Mobile

Allow: /


User-agent: Mediapartners-Google

Allow: /


# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /


User-agent: NaverBot

Allow: /


User-agent: Yeti

Allow: /


# 다음 (Daum)

User-agent: Daum

Allow: /


User-agent: Daumoa

Allow: /


# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10


# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10


User-agent: Yahoo-Slurp

Crawl-delay: 10


User-agent: Yahoo! Slurp

Crawl-delay: 10


# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10


# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

 



분류 제목
talk 진화는 시간을 타고 ~~~
talk 가입 인사드립니다.~ 1
talk 코딩 고수가 돈 못 버는 이유
dance BUNGEE | 오마이걸 - 사랑(Sarang) 님 해변가 댄스
ucc 전무 님, 댁 부하직원이 딸을 차별해요. 혼내주세요. [유머]
web 홈짱디자인
military 「중국의 최후 통첩」 의미
ucc 이 새끼, 고양이 아닐지도 몰라
ucc 세계 최초 비공식 폴더블 아이폰
talk 빨래건조기 하나 장만해야 할 듯... ㅜㅜ
web �묎렐 遺덇��⑸땲��. 접속 에러 해결법
dance BTS - IDOL (DANCE COVER)
sports 도쿄올림픽 여자 축구 결승전 [스웨덴 : 캐나다]
talk 유튜버들 매번 주제 뽑느라 머리에 쥐날 듯..
sports 김민선, 여자 스피드 스케이팅 500 미터 5연속 우승
talk 마우스 하나 바꿨을 뿐인데...
web DNS 무료 사이트 모음 (DNS Free Site Collection)
dance BTS - 작은 것들을 위한 시 (DANCE COVER 댄스 커버)
sports 도쿄올림픽 여자 배구 결승전 [브라질 vs 미국]
talk 홈페이지 제작 견적가 뽑을 때 고려하는 요소
113/163
목록
찾아주셔서 감사합니다. Since 2012