• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

8,700  
목차
  1. robots.txt 생성 시 유의사항
  2. robots.txt 작성에 사용되는 용어 ★
  3. robots.txt 작성법 기본예제
  4. robots.txt 작성법 세부내용 ★
  5. 검색엔진(=검색봇=크롤러봇) 이름
  6. 홈짱닷컴에서 사용하는 robots.txt

 

robots.txt 생성 시 유의사항

 

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.


2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨


3. 

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

 

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

 

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

 


PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

 
robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

 

 

robots.txt 작성에 사용되는 용어 ★

 

  • User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)
  • Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)
  • Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.
  • Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;
  • Sitemap: 사이트맵 주소 지정.
  • / 기호: 모든 경로
  • # 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)
  • * 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

 

PS.

  • 콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /
  • Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.


 

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

 

User-agent: * 

Disallow: / 

Allow: /index.php 

Allow: /bbs/board.php 

Allow: /bbs/list.php 

Allow: /bbs/new.php 

Allow: /bbs/view.php 

Allow: /bbs/group.php 

Allow: /bbs/link.php 

Allow: /bbs/search.php 

Allow: /bbs/tb.php 

Allow: /bbs/rss.php 


 

robots.txt 작성법 세부내용 ★

[목차]

 


1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

 

User-agent: *

Disallow: / 

User-agent: NaverBot 

Allow: /

User-agent: Yeti

Allow: /



2. 모든 검색엔진 허용.

 

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:



3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

 

User-agent: *

Disallow: /

Allow: /$

 


4. 특정 폴더 접근 비허용

(예: my_photo, my_video ... 등)

 

User-agent: *

Disallow: /my*/


PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

 

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

 


5. 모든 검색엔진 차단 (권장 X)

 

User-agent: *

Disallow: /

 


6. 특정 검색엔진만 차단


User-agent: EvilRobot

Disallow: /



7. 검색엔진 방문 주기 지정 (초 단위)


User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

 

PS.

  • NaverBot, Yeti 경우 30초 간격으로 수집 함. 
  • 비지정 시, 약 10~20초 간격으로 1페이지씩 수집.
  • 업체별 로봇 운용 현황 후 지정 권장.

 


8. meta 태그로도 검색엔진 접근 차단 가능

 

  • "robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
  • (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인. 

 


9. 검섹엔진 막았는데 수집해 간 경우 원인

 

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

 

 

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

 

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • BusinessBot: 불명확
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk (도메인 등록 서비스)
  • DuckDuckBot: DuckDuckGo (덕덕고)
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • memoryBot: 불명확
  • mfibot: 불명확
  • MJ12bot: Majestic SEO
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • PageAnalyzer: 불명확
  • PagesInventory: 불명확
  • Plukkie: 불명확
  • roboto: 불명확
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)


 

홈짱닷컴에서 사용하는 robots.txt

[현재]

 

https://homzzang.com/robots.txt

 


[예전]

# 모두 차단

User-agent: *

Disallow: /


###########################################

# 단, 아래 검색봇들은 허용

###########################################


# 구글 (Google)

User-agent: Googlebot

Allow: /


User-agent: Googlebot-Mobile

Allow: /


User-agent: Mediapartners-Google

Allow: /


# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /


User-agent: NaverBot

Allow: /


User-agent: Yeti

Allow: /


# 다음 (Daum)

User-agent: Daum

Allow: /


User-agent: Daumoa

Allow: /


# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10


# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10


User-agent: Yahoo-Slurp

Crawl-delay: 10


User-agent: Yahoo! Slurp

Crawl-delay: 10


# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10


# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

 



분류 제목
talk 배추패밀리 가입할까? 말까? 고민하는 분들께....... 2
ucc 수나라 30만 대군을 물리친 「을지문덕」 장군 기록과 후손이 없는 이유
sports 토트넘 손흥민 후반 교체출전, 3골 해트트릭 달성
girl 세상 남자 다 꼬실 수 있는 표정 짓는 누나
talk 엑셀 라이브러리 코드 살펴보고 있는데....
talk 엑셀 스크롤바 상하 수직 이동 엄청 불편 ㅡㅡ;
ucc 맥도날드 상위 1% 직원 1
talk 크롬 앗이런 에러 해결했더니만...
pc 윈도우10 - 설치된 프로그램 제거・삭제
sports 리버풀, 맨유를 4:0으로 제압 (※ 토트넘 4위 유지)
ucc 저기요, 제 발 밟았는데 한 대 맞으시겠어요?
talk 중국의 대한민국 분열책 (= 이간질 뒷공작 = 이이제이 정책)
girl 하이키 서이 님 (H1-KEY SEOI) "ATHLETIC GIRL, RUN, 건물 사이에 피어난 장미" 댄…
ucc 코딩 날로 먹으려는 학생 참교육하는 ChatGPT G선생님
talk 상쾌한 주말을 위해 매주 금요일 대청소 중인데..
ucc 신기한 동굴집 / 운취 쥑이는 한옥집
girl 하이키 리이나 님 (H1-KEY RIINA) "건물 사이에 피어난 장미, ATHLETIC GIRL, RUN"…
sports 김은선 프로 님이 알려주는 올바른 골프 스윙 자세
talk 피장파장 소송 들어보셨어요?
web FTP 이용 불가 상황에서 putty (푸띠, 뿌띠)로 홈페이지 접속해 작업하기
46/163
목록
찾아주셔서 감사합니다. Since 2012