• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

8,755  
목차
  1. robots.txt 생성 시 유의사항
  2. robots.txt 작성에 사용되는 용어 ★
  3. robots.txt 작성법 기본예제
  4. robots.txt 작성법 세부내용 ★
  5. 검색엔진(=검색봇=크롤러봇) 이름
  6. 홈짱닷컴에서 사용하는 robots.txt

 

robots.txt 생성 시 유의사항

 

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.


2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨


3. 

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

 

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

 

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

 


PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

 
robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

 

 

robots.txt 작성에 사용되는 용어 ★

 

  • User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)
  • Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)
  • Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.
  • Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;
  • Sitemap: 사이트맵 주소 지정.
  • / 기호: 모든 경로
  • # 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)
  • * 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

 

PS.

  • 콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /
  • Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.


 

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

 

User-agent: * 

Disallow: / 

Allow: /index.php 

Allow: /bbs/board.php 

Allow: /bbs/list.php 

Allow: /bbs/new.php 

Allow: /bbs/view.php 

Allow: /bbs/group.php 

Allow: /bbs/link.php 

Allow: /bbs/search.php 

Allow: /bbs/tb.php 

Allow: /bbs/rss.php 


 

robots.txt 작성법 세부내용 ★

[목차]

 


1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

 

User-agent: *

Disallow: / 

User-agent: NaverBot 

Allow: /

User-agent: Yeti

Allow: /



2. 모든 검색엔진 허용.

 

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:



3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

 

User-agent: *

Disallow: /

Allow: /$

 


4. 특정 폴더 접근 비허용

(예: my_photo, my_video ... 등)

 

User-agent: *

Disallow: /my*/


PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

 

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

 


5. 모든 검색엔진 차단 (권장 X)

 

User-agent: *

Disallow: /

 


6. 특정 검색엔진만 차단


User-agent: EvilRobot

Disallow: /



7. 검색엔진 방문 주기 지정 (초 단위)


User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

 

PS.

  • NaverBot, Yeti 경우 30초 간격으로 수집 함. 
  • 비지정 시, 약 10~20초 간격으로 1페이지씩 수집.
  • 업체별 로봇 운용 현황 후 지정 권장.

 


8. meta 태그로도 검색엔진 접근 차단 가능

 

  • "robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
  • (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인. 

 


9. 검섹엔진 막았는데 수집해 간 경우 원인

 

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

 

 

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

 

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • BusinessBot: 불명확
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk (도메인 등록 서비스)
  • DuckDuckBot: DuckDuckGo (덕덕고)
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • memoryBot: 불명확
  • mfibot: 불명확
  • MJ12bot: Majestic SEO
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • PageAnalyzer: 불명확
  • PagesInventory: 불명확
  • Plukkie: 불명확
  • roboto: 불명확
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)


 

홈짱닷컴에서 사용하는 robots.txt

[현재]

 

https://homzzang.com/robots.txt

 


[예전]

# 모두 차단

User-agent: *

Disallow: /


###########################################

# 단, 아래 검색봇들은 허용

###########################################


# 구글 (Google)

User-agent: Googlebot

Allow: /


User-agent: Googlebot-Mobile

Allow: /


User-agent: Mediapartners-Google

Allow: /


# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /


User-agent: NaverBot

Allow: /


User-agent: Yeti

Allow: /


# 다음 (Daum)

User-agent: Daum

Allow: /


User-agent: Daumoa

Allow: /


# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10


# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10


User-agent: Yahoo-Slurp

Crawl-delay: 10


User-agent: Yahoo! Slurp

Crawl-delay: 10


# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10


# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

 



분류 제목
ucc 해바라기 남자를 여자가 싫어한다네용.
laragon Laragon (라라곤) - phpMyAdmin DB/디비/데이터베이스 내보내기(export) 시 할일 (=…
talk 반갑습니다. ㅎㅎ 2
money 통신판매업 신고를 안 해도 되는 경우 (=통신판매업 신고 면제 기준)
talk 음????? 5
ucc 후지이 미나 (Fujii Mina 藤井美菜) 부산 1일 여행 추천 코스
money 글과 어울리게 광고 배치 클릭율 올리기
life 삼성 갤럭시 스마트폰 청록색(녹색) 화면에 「다운로드중... 전원을 끄지 마세요」 에러 해결
talk 크롬 다른탭닫기 기능 제거됨(?) 1
pc 크롬 (Chrome) 완전히 깨끗이 삭제/제거 후 재설치하기
site 바뀐 홈페이지 디자인 확인 (= 옛날 사이트 디자인 확인 = 아키브사이트) 설문 중
talk 제 홈페이지 자주 찾는 분들은 이미 눈치 채셨겠지만...
money 구글 애드센스의 적은 어베스트 ?
pc hiberfil.sys 파일 정체/삭제/복구 (= 숨겨진 윈도우 용량 확보 방법 = 윈도우 복구용 임시메모리…
girl 에이프릴 진솔 님 꽃무늬 미니원피스 패션 (APRiL - JiNSOL Mini Onepiece Skirt)
talk 힘든 하루 ... 1
site 압축프로그램 다운로드 주소 모음 (= 압축해제유틸 = 압축유틸)
news 어베스트・AVG, 백신SW로 개인정보 수집해 판매 2
pc 윈도우10 - 바탕화면 아이콘 화살표 제거
pc ZoomIt (줌잇) - (화면확대 / 화면쓰기) 프리젠테이션 무료 프로그램 (다운로드/설치/사용법)
51/163
목록
찾아주셔서 감사합니다. Since 2012