[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

8,760

robots.txt 생성 시 유의사항

robots.txt 작성에 사용되는 용어 ★

robots.txt 작성법 기본예제

robots.txt 작성법 세부내용 ★

검색엔진(=검색봇=크롤러봇) 이름

홈짱닷컴에서 사용하는 robots.txt

robots.txt 생성 시 유의사항

1.

반드시, 도메인/robots.txt 구조가 되도록 해야 함.

2.

robots.txt 파일에 작성된 규칙은 같은 (호스트/프로토콜/포트번호) 하위의 페이지에 대해서만 유효.

(예) http://www.homzzang.com/robots.txt의 내용은 http://homzzang.com.com/ 와 https://homzzang.com.com/에는 적용 안 됨

3.

Disallow, Allow, 검색봇명 등은 대소문자는 구분 X

그러나, 관습적으로 "소문자"로 통일해 작성 권장함.

4.

JS / CSS 경우, 반드시 수집 허용으로 설정. (비허용 시, 로봇이 헤멤.)

5.

User-agent (검색엔진지정) 당, 여러 규칙 지정 가능.

단, 여러 User-agent에 대해서 한번에 규칙 지정 불가.

PS. 더 자세한 정보 보기

네이버 웹마스터 robots.txt 작성법

https://searchadvisor.naver.com/guide/seo-basic-robots

robots.txt 공식매뉴얼 사이트
https://www.robotstxt.org/robotstxt.html

robots.txt 작성에 사용되는 용어 ★

User-agent: 검색봇 이름 지정. (* 기호: 모든검색엔진 의미)

Disallow: 비허용규칙. (뒤에 아무 것도 없으면 모두 허용 의미)

Allow: 허용규칙. (뒤에 아무 것도 없으면, 모두 비허용 의미), 주로 Disallow와 함께 사용해 일부는 비허용하고, 일부는 허용 설정.

Crawl-delay: 크롤링 주기. (초단위 사용) 서버부하 방지에 도움. Googlebot은 무시함. ㅡㅡ;;

Sitemap: 사이트맵 주소 지정.

/ 기호: 모든 경로

# 기호: 주석 작성. (이 기호 뒤의 문자열은 주석으로 간주됨.)

* 기호: 모두 의미 (① 모든 검색엔진 의미 / ② 모든 문자열 의미)

$ 기호: 특정 URL 경로나 파일 이름의 끝을 의미.

PS.

콜론(:) 이용해 각각의 값을 지정함. (예) Allow: /

Disallow, Allow 경우 뒤에 폴더나 파일의 경로를 표시하며, 폴더는 반드시 슬래시(/) 기호로 끝나야 함.

robots.txt 작성법 기본예제

https://support.google.com/webmasters/answer/6062596?hl=ko

Disallow로 차단할 파일을 전부 지정해주는 것 보다 허용할 파일만 지정해주고 나머지는 전부 차단 권장.

User-agent: *

Disallow: /

Allow: /index.php

Allow: /bbs/board.php

Allow: /bbs/list.php

Allow: /bbs/new.php

Allow: /bbs/view.php

Allow: /bbs/group.php

Allow: /bbs/link.php

Allow: /bbs/search.php

Allow: /bbs/tb.php

Allow: /bbs/rss.php

robots.txt 작성법 세부내용 ★

[목차]

1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

2. 모든 검색엔진 허용.

3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

4. 특정 폴더 접근 비허용

5. 모든 검색엔진 차단 (권장 X)

6. 특정 검색엔진만 차단

7. 검색엔진 방문 주기 지정 (초 단위)

8. meta 태그로도 검색엔진 접근 차단 가능

9. 검섹엔진 막았는데 수집해 간 경우 원인

1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

User-agent: *

Disallow: /

User-agent: NaverBot

Allow: /

User-agent: Yeti

Allow: /

2. 모든 검색엔진 허용.

User-agent: *

Allow: /

또는,

User-agent: *

Disallow:

3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

User-agent: *

Disallow: /

Allow: /$

4. 특정 폴더 접근 비허용
(예: my_photo, my_video ... 등)

User-agent: *

Disallow: /my*/

PS1. 아래처럼 개별 지정 가능.

User-agent: *

Disallow: /my_photo/

Disallow: /my_video/

PS2. 민감한 정보를 오히려 노출하는 결과 초래하니 서버 보안으로 처리하고 robots.txt 파일에 중요 폴더 정보 노출 않는 것을 권장.

관련글: jihan? 님 (230919) https://sir.kr/qa/512005

5. 모든 검색엔진 차단 (권장 X)

User-agent: *

Disallow: /

6. 특정 검색엔진만 차단

User-agent: EvilRobot

Disallow: /

7. 검색엔진 방문 주기 지정 (초 단위)

User-agent: NaverBot

Crawl-delay: 30

User-agent: Yeti

Crawl-delay: 30

PS.

NaverBot, Yeti 경우 30초 간격으로 수집 함.

비지정 시, 약 10~20초 간격으로 1페이지씩 수집.

업체별 로봇 운용 현황 후 지정 권장.

8. meta 태그로도 검색엔진 접근 차단 가능

"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 (HEAD)와 (/HEAD)태그 사이에

(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW, NOARCHIVE")라는 메타태그를 추가하면 로봇은 웹 문서를 색인하거나 저장할 수 없음. 이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을 수 있음. 자세한 내용은 http://www.robotstxt.org에서 확인.

9. 검섹엔진 막았는데 수집해 간 경우 원인

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부 내용 혹은 링크 값이 NAVER 웹 문서 검색 결과에 나타나는 경우가 있을 수 있음. 이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있음. 만일 이 경우에도 노출을 원하지 않는 경우 네이버 고객센터에 문의.

검색엔진(=검색봇=크롤러봇) 이름

※ 검색봇명 알파벳순

360Spider - 중국 Haosou

360Spider-Image - 중국 Haosou

360Spider-Video - 중국 Haosou

AdsBot-Naver: Naver (네이버)

AhrefsBot: Ahrefs

archive.org_bot: Internet Archive

Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.

BDCbot: Baidu Data Center (BDC)

Bingbot: Microsoft (Bing 빙)

BusinessBot: 불명확

Daum: Daum (다음)

Daumoa: Daum (다음)

DialogSearch.com Bot: DialogSearch.com

Digincore crawler bot: Digincore

DomainSigmaCrawler: DomainSigma

DotBot: dot.tk (도메인 등록 서비스)

DuckDuckBot: DuckDuckGo (덕덕고)

Exabot: Exalead 검색엔진의 크롤러 봇.

Googlebot: Google (구글) - 공식명칭 ★

Googlebot-Mobile: Google (구글) 모바일 ★

HaosouSpider - 중국 Haosou

kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)

Mail.RU_Bot: Mail.Ru Group

MediavBot: Mediavine

Mediapartners-Google: Google (구글)

memoryBot: 불명확

mfibot: 불명확

MJ12bot: Majestic SEO

msnbot-media: Microsoft (Bing)

NaverBot: Naver (네이버)

NeumobBot: Neumob

PageAnalyzer: 불명확

PagesInventory: 불명확

Plukkie: 불명확

roboto: 불명확

SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.

SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.

Slurp: Yahoo (야후)

Yhoo-Slurp: Yahoo (야후)

Yahoo! Slurp: Yahoo (야후) - 공식명칭

YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.

Yeti: Naver (네이버) - 공식명칭 ★

ZumBot: ZUM (줌)

홈짱닷컴에서 사용하는 robots.txt

[현재]

https://homzzang.com/robots.txt

[예전]

# 모두 차단

User-agent: *

Disallow: /

###########################################

# 단, 아래 검색봇들은 허용

###########################################

# 구글 (Google)

User-agent: Googlebot

Allow: /

User-agent: Googlebot-Mobile

Allow: /

User-agent: Mediapartners-Google

Allow: /

# 네이버 (Naver)

User-agent: AdsBot-Naver

Allow: /

User-agent: NaverBot

Allow: /

User-agent: Yeti

Allow: /

# 다음 (Daum)

User-agent: Daum

Allow: /

User-agent: Daumoa

Allow: /

# 빙 (Bing)

User-agent: bingbot

Crawl-delay: 10

# 야후 (yahoo)

User-agent: Slurp

Crawl-delay: 10

User-agent: Yahoo-Slurp

Crawl-delay: 10

User-agent: Yahoo! Slurp

Crawl-delay: 10

# 줌 (zum)

User-agent: ZumBot

Crawl-delay: 10

# 사이트맵

Sitemap: https://homzzang.com/sitemap.php

자유게시판 관련글

코멘트입력

목록 글쓰기


분류	제목



talk	ASUS 노트북을 새로 주문했습니다.

pc	윈도우11 프로(Pro) 버전이 홈(Home) 버전보다 좋은 이유 4가지

talk	아파트 얻으실 때 베란다 쪽에 큰 도로 있는 곳은 피하세요.

talk	오태식 vs 차태식 맞짱

ucc	비녀의 주인 - 한국의 설화나 유산을 시각화하여 여행하는 애니메이션 뮤비

talk	1980년대 외계의 착한 드론 로봇과 나쁜 악당 드론 로봇이 등장하는 미국드라마 제목

health	그누보드 (냑: sir.kr) 자유게시판 로그아웃 상태에서 특정 차단회원 게시글 필터링해서 안보이게 숨기기

talk	삼성마우스휠 굴릴 때 한쪽으로 안 치우치게 굴리세요.

talk	어느새 실력이 늘어서... 1

ucc	거짓말 하면 코 길어진다고 사기 당하는 꼬마 소녀

1/163

[web] 트래픽 아끼는 법 3 - robots.txt 작성법 + 웹로봇 방문 주기 지정 (crawl 크롤 횟수 지정 = 검색엔진/검색봇/크롤러봇 수집허용 접근차단 설정)

robots.txt 생성 시 유의사항

robots.txt 작성에 사용되는 용어 ★

robots.txt 작성법 기본예제

robots.txt 작성법 세부내용 ★

1. 모든 검색엔진 차단. (단, 네이버봇은 허용)

2. 모든 검색엔진 허용.

3. 모든 검색엔진 차단. (단, 루트만 수집 허용)

4. 특정 폴더 접근 비허용

5. 모든 검색엔진 차단 (권장 X)

6. 특정 검색엔진만 차단

7. 검색엔진 방문 주기 지정 (초 단위)

8. meta 태그로도 검색엔진 접근 차단 가능

9. 검섹엔진 막았는데 수집해 간 경우 원인

검색엔진(=검색봇=크롤러봇) 이름

홈짱닷컴에서 사용하는 robots.txt

자유게시판 관련글

공지사항

최신글

최신댓글

운영비 후원해주신 분 리스트