• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

목차
  1. robots.txt 생성 시 유의사항
  2. robots.txt 작성에 사용되는 용어 ★
  3. robots.txt 작성법 기본예제
  4. robots.txt 작성법 세부내용 ★
  5. 검색엔진(=검색봇=크롤러봇) 이름
  6. 홈짱닷컴에서 사용하는 robots.txt

 

robots.txt 생성 시 유의사항

 

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.


2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨


3. 

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

 

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

 

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

 


PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

 
robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

 

 

robots.txt 작성에 사용되는 용어 ★

 

  • User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)
  • Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)
  • Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.
  • Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;
  • Sitemap: 사이트맵 주소 지정.
  • / 기호: 모든 경로
  • # 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)
  • * 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

 

PS.

  • 콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /
  • Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.


 

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

 

User-agent: * 

Disallow: / 

Allow: /index.php 

Allow: /bbs/board.php 

Allow: /bbs/list.php 

Allow: /bbs/new.php 

Allow: /bbs/view.php 

Allow: /bbs/group.php 

Allow: /bbs/link.php 

Allow: /bbs/search.php 

Allow: /bbs/tb.php 

Allow: /bbs/rss.php 


 

robots.txt 작성법 세부내용 ★

[목차]

 


1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

 

User-agent: *

Disallow: / 

User-agent: NaverBot 

Allow: /

User-agent: Yeti

Allow: /



2. 모든 검색엔진 허용.

 

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:



3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

 

User-agent: *

Disallow: /

Allow: /$

 


4. 특정 폴더 접근 비허용

(예: my_photo, my_video ... 등)

 

User-agent: *

Disallow: /my*/


PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

 

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

 


5. 모든 검색엔진 차단 (권장 X)

 

User-agent: *

Disallow: /

 


6. 특정 검색엔진만 차단


User-agent: EvilRobot

Disallow: /



7. 검색엔진 방문 주기 지정 (초 단위)


User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

 

PS.

  • NaverBot, Yeti 경우 30초 간격으로 수집 함. 
  • 비지정 시, 약 10~20초 간격으로 1페이지씩 수집.
  • 업체별 로봇 운용 현황 후 지정 권장.

 


8. meta 태그로도 검색엔진 접근 차단 가능

 

  • "robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에 
  • (META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인. 

 


9. 검섹엔진 막았는데 수집해 간 경우 원인

 

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

 

 

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

 

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • BusinessBot: 불명확
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk (도메인 등록 서비스)
  • DuckDuckBot: DuckDuckGo (덕덕고)
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • memoryBot: 불명확
  • mfibot: 불명확
  • MJ12bot: Majestic SEO
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • PageAnalyzer: 불명확
  • PagesInventory: 불명확
  • Plukkie: 불명확
  • roboto: 불명확
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)


 

홈짱닷컴에서 사용하는 robots.txt

[현재]

 

https://homzzang.com/robots.txt

 


[예전]

# 모두 차단

User-agent: *

Disallow: /


###########################################

# 단, 아래 검색봇들은 허용

###########################################


# 구글 (Google)

User-agent: Googlebot

Allow: /


User-agent: Googlebot-Mobile

Allow: /


User-agent: Mediapartners-Google

Allow: /


# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /


User-agent: NaverBot

Allow: /


User-agent: Yeti

Allow: /


# 다음 (Daum)

User-agent: Daum

Allow: /


User-agent: Daumoa

Allow: /


# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10


# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10


User-agent: Yahoo-Slurp

Crawl-delay: 10


User-agent: Yahoo! Slurp

Crawl-delay: 10


# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10


# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

 


방문 감사합니다. (즐겨찾기 등록: Ctrl + D)

분류 제목 조회
web 배추패밀리 컨텐츠샵으로 쇼핑몰 구축 가능 ?
4,384
4,384
web 오픈SSL 하트블리드 결함 (=프라이빗 키 유출 위험) 안내
3,772
3,772
talk 마이크로소프트 xp 업데이트 지원 중단
3,834
3,834
money 로그인이 필요한 페이지에 광고 게재 가능 ?
3,169
3,169
web 블로그 지수 확인 방법 (= 저품질 블로그 탈출법)
6,023
6,023
web 네이버에서 내 글이 검색 잘 되게 하는 방법
3,241
3,241
web 검색 엔진 최적화 팁 (SEO : Search Engine Optimize Tip)
2,840
2,840
money 구글이 알려주는 훌륭한 웹사이트 만들기 팁 (=웹사이트 개선 방향)
2,832
2,832
money 구글 애드센스 섹션 타겟팅 하는 법 ★ 2
6,038
6,038
money 구글 애드센스 한글 광고만 나오게 하기
4,235
4,235
money 글과 어울리게 광고 배치 클릭율 올리기
2,584
2,584
money CTR (클릭률 Click Through Ratio) 계산하는 법
12,875
12,875
money 애드센스 10계명
2,365
2,365
money 가장 효과적인 광고 배너 스타일
3,270
3,270
web 사진 용량 줄여주는 사이트
2,794
2,794
money 애드센스 배너 배치 팁
2,390
2,390
web 예쁜 미니 아이콘 이미지 자료실
4,492
4,492
web SFTP와 FTP의 차이 ★
11,677
11,677
web 표준과 쿼크...딜레마 ㅡㅡ;; 회원 님의 선택은? 2
3,554
3,554
talk 그누보드 홈페이지가 또 변신했네요. 2
4,128
4,128
147/156
목록
찾아주셔서 감사합니다. Since 2012