• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

8,627  
목차
  1. robots.txt 생성 시 유의사항
  2. robots.txt 작성에 사용되는 용어 ★
  3. robots.txt 작성법 기본예제
  4. robots.txt 작성법 세부내용 ★
  5. 검색엔진(=검색봇=크롤러봇) 이름
  6. 홈짱닷컴에서 사용하는 robots.txt

 

robots.txt 생성 시 유의사항

 

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.


2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨


3. 

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

 

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

 

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

 


PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

 
robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

 

 

robots.txt 작성에 사용되는 용어 ★

 

  • User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)
  • Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)
  • Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.
  • Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;
  • Sitemap: 사이트맵 주소 지정.
  • / 기호: 모든 경로
  • # 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)
  • * 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

 

PS.

  • 콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /
  • Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.


 

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

 

User-agent: * 

Disallow: / 

Allow: /index.php 

Allow: /bbs/board.php 

Allow: /bbs/list.php 

Allow: /bbs/new.php 

Allow: /bbs/view.php 

Allow: /bbs/group.php 

Allow: /bbs/link.php 

Allow: /bbs/search.php 

Allow: /bbs/tb.php 

Allow: /bbs/rss.php 


 

robots.txt 작성법 세부내용 ★

[목차]

 


1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

 

User-agent: *

Disallow: / 

User-agent: NaverBot 

Allow: /

User-agent: Yeti

Allow: /



2. 모든 검색엔진 허용.

 

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:



3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

 

User-agent: *

Disallow: /

Allow: /$

 


4. 특정 폴더 접근 비허용

(예: my_photo, my_video ... 등)

 

User-agent: *

Disallow: /my*/


PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

 

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

 


5. 모든 검색엔진 차단 (권장 X)

 

User-agent: *

Disallow: /

 


6. 특정 검색엔진만 차단


User-agent: EvilRobot

Disallow: /



7. 검색엔진 방문 주기 지정 (초 단위)


User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

 

PS.

  • NaverBot, Yeti 경우 30초 간격으로 수집 함. 
  • 비지정 시, 약 10~20초 간격으로 1페이지씩 수집.
  • 업체별 로봇 운용 현황 후 지정 권장.

 


8. meta 태그로도 검색엔진 접근 차단 가능

 

  • "robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
  • (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인. 

 


9. 검섹엔진 막았는데 수집해 간 경우 원인

 

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

 

 

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

 

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • BusinessBot: 불명확
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk (도메인 등록 서비스)
  • DuckDuckBot: DuckDuckGo (덕덕고)
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • memoryBot: 불명확
  • mfibot: 불명확
  • MJ12bot: Majestic SEO
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • PageAnalyzer: 불명확
  • PagesInventory: 불명확
  • Plukkie: 불명확
  • roboto: 불명확
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)


 

홈짱닷컴에서 사용하는 robots.txt

[현재]

 

https://homzzang.com/robots.txt

 


[예전]

# 모두 차단

User-agent: *

Disallow: /


###########################################

# 단, 아래 검색봇들은 허용

###########################################


# 구글 (Google)

User-agent: Googlebot

Allow: /


User-agent: Googlebot-Mobile

Allow: /


User-agent: Mediapartners-Google

Allow: /


# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /


User-agent: NaverBot

Allow: /


User-agent: Yeti

Allow: /


# 다음 (Daum)

User-agent: Daum

Allow: /


User-agent: Daumoa

Allow: /


# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10


# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10


User-agent: Yahoo-Slurp

Crawl-delay: 10


User-agent: Yahoo! Slurp

Crawl-delay: 10


# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10


# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

 



분류 제목
laragon Laragon (라라곤) - ffmpeg 모듈 설치하기 (※ mp4 동영상의 썸네일 생성에 필요한 모듈)
dance LE SSERAFIM (르세라핌) ‘FEARLESS’ (피어리스) 댄스
news 중국 해커 조직 대한민국 공공기관 홈페이지 해킹 공격 전쟁 선포
sports 토트넘 레비 회장이 (손흥민/해리케인) 이적 막으려면... [해외축구]
talk 네이버 파비콘이 변경되었네요. 1
talk 힘든 하루 ... 1
sports 맨시티 덕배(=케빈 더 브라위너) 황희찬 울버햄튼 상대로 포트트릭 !!
talk 찐며든사랑 님의 요즘 유행하는 춤 댄스
dance 소울 SOUL 지효 - 뉴진스 OMG 오엠지 & 르세라핌 FEARLESS 피어리스 버스킹 댄스
talk 놀아요~ㅎㅎㅎㅎㅎ 1
talk 서버 업그레이드 정말 겁나는 일이에요. 1
girl 「레베카 라셈」 한국계 미국인 여자 배구 용병 선수 - 여자 배구 인기에 한몫
ucc 「하나」가 이렇게 공포스러운 숫자일줄이야..
dance 프렌쥬 FRIEND U 채은 님 - 르세라핌 FEARLESS [누나/댄스]
talk ㅇㅅㅇ;ㅋㅋㅋㅋㅋ 1
girl 르세라핌 「카즈하」 님 솔로 댄스
sports 손흥민이 멀티골을 넣었네요.
ucc 남자같은 여사친 [웹드라마]
ucc 실사/3D애니로 만들면 넷플릭스 1위 찍을 만화 「열혈강호」
ucc (김좌진, 김구, 유관순, 안중근, 윤봉길) 님 미소 표정
62/163
목록
찾아주셔서 감사합니다. Since 2012