• 회원가입
  • 로그인
  • 구글아이디로 로그인

[web] 트래픽 아끼는 법 1 - robots.txt 파일을 사용하여 구글 로봇 페이지 차단 또는 삭제

2013-12-02 (월) 20:40 10년전 8,235  

robots.txt 파일을 사용하여 페이지 차단 또는 삭제

robots.txt 파일은 웹을 크롤링하는 검색엔진 로봇이 사이트에 액세스하는 것을 제한합니다.
 
 검색 로봇은 자동으로 작동하며 한 사이트의 페이지에 액세스하기 전에 특정 페이지에 대한 액세스를 차단하는 robots.txt 파일이 있는지 여부를 확인합니다. 일부 로봇은 명령어를 다르게 해석할 수도 있지만 잘 제작된 모든 로봇은 robots.txt 파일의 명령어를 그대로 따릅니다. 그러나 robots.txt는 강제성을 띄지 않으므로 일부 스팸 발송자나 다른 악의적인 사용자는 이 파일의 명령어를 무시할 수 있습니다. 따라서 기밀 정보 보호를 위해 비밀번호를 사용하는 것이 좋습니다.
 
robots.txt 파일은 검색엔진을 통해 색인을 생성하지 않으려는 콘텐츠가 사이트에 포함되어 있는 경우에만 필요합니다.
검색엔진이 사이트의 모든 콘텐츠에 대한 색인을 생성하도록 하려면 robots.txt 파일이 필요 없으며 빈 파일도 마찬가지입니다.
Google은 robots.txt에 의해 차단된 페이지의 콘텐츠는 크롤링하거나 색인을 생성하지 않지만, 웹의 다른 페이지에서 해당 페이지의 콘텐츠를 찾은 경우에는 여전히 URL의 색인을 생성할 수 있습니다. 따라서 페이지의 URL 및 사이트 링크의 앵커 텍스트나 오픈 디렉토리 프로젝트(Open Directory Project)의 제목(www.dmoz.org) 같은 기타 공개 정보가 Google 검색결과에 나타날 수 있습니다.
 
robots.txt 파일을 사용하려면 도메인의 루트 액세스 권한이 있어야 합니다.
권한이 있는지 확실하지 않으면 웹호스팅 업체에 문의하시기 바랍니다.
도메인의 루트에 대한 액세스 권한이 없는 경우에는 로봇 메타태그를 사용하여 액세스를 제한할 수 있습니다.
페이지가 다른 사이트에 연결되어 있더라도 페이지의 콘텐츠가 Google 웹 색인에 열거되지 않도록 완전히 차단하려면 noindex 메타 태그를 사용합니다. 그러면 Googlebot이 페이지를 가져오는 즉시 no index 메타 태그를 보게 되고 해당 페이지가 웹 색인에 표시되지 않습니다
 
출처: 구글







robots.txt 파일은 도메인 루트 디렉토리에 위치하여야 한다. (index.html이 위치하는 곳)


도메인/robots.txt 구조가 되게 파일 업로드



■ 모든 검색봇 차단

User-agent: *

Disallow: /



■ 모든 봇 허용

User-agent: *

Allow: /



■ 구글봇 차단 (구글봇, 구글봇이미지, 구글봇모바일)

User-agent: Googlebot

Disallow: /


User-agent: Googlebot-Image

Disallow: /


User-agent: Googlebot-Mobile

Disallow: /



■ 빙봇 차단

User-agent: bingbot

Disallow: /



■ 네이버봇 차단

User-agent: Yeti

Disallow: /


■ 특정 디렉토리만 차단

User-agent: *

Disallow: /특정디렉토리명


이 외에 다양한 검색봇들이 있다.

Baiduspider

meanpathbot

MJ12bot

MSIE

YandexBot

등등


robots.txt 로 차단을 했지만 무시하고 들어오는 봇들이 있다면 아파치 설정에서 차단해주면 된다.


.htaccess 파일에 아래 내용을 추가

SetEnvIfNoCase User-Agent "baidu" ban_bot

SetEnvIfNoCase remote_addr 차단IP ban_bot

Oder Allow,Deny

Allow from all

Deny from env=ban_bot

차단IP 에는 해당봇의 IP를 알아내어 적어주면 된다.


SetEnvIfNoCase remote_addr 192.168.123. ban_bot

Oder Allow,Deny

Allow from all

Deny from env=ban_bot

IP가 c class 대역이라면 aaa.bbb.ccc. 으로 적어주면 된다.


▶ 메타태그로 검색봇 차단

<meta name="robots" content="noindex,nofollow">

noindex,nofollow 대신에 none을 사용하여도 된다.

메타 태그에 위와 같이 적어줘도 무시하는 검색봇이 있다면 위의 아파치단에서 차단해주는게 제일 확실하다.



분류 제목 날짜 조회
web SFTP와 FTP의 차이 ★
04-02 11,433
04-02 (수) 11,433
web A non-numeric value encountered 오류
01-28 11,175
01-28 (월) 11,175
web 웹사이트 통째로 긁어오는 프로그램 소개
04-08 11,163
04-08 (수) 11,163
web 요소짤림, 내용짤림 원인별 해결사항 (= 짤림방지 = 짤림해결, 짤림증상해결)
01-03 10,955
01-03 (금) 10,955
web 윈머지 다운로드 및 사용법 + 한글깨짐에러해결 (Winmerge Download How to use) ※ 파…
12-28 10,314
12-28 (금) 10,314
web 줄바꿈 기호 (CR, LF, CRLF) 의미 (= 개행문자 = 새줄문자)
09-18 9,968
09-18 (토) 9,968
web PHP or 연산자 || 키보드 입력법
03-08 9,556
03-08 (토) 9,556
web SSH 추천 콘솔 다운로드 (PuTTY , Xshell , poderosa , MobaXterm , Sec… 설문 중
05-11 9,490
05-11 (토) 9,490
web swp 확장자 파일 생성 원인과 읽는 법
12-02 8,956
12-02 (화) 8,956
web 윈도우10 - 이모지 (Emoji) (입력법 + 웹에 적용) 2
08-08 8,931
08-08 (목) 8,931
web GUI, CLI 개념 (= 의미, 뜻)
03-08 8,589
03-08 (금) 8,589
web 웹사이트 로딩속도체크 (= 홈페이지로딩 지연원인 찾기)
12-14 8,502
12-14 (금) 8,502
web 호스팅종류 ★ (웹호스팅/가상호스팅/클라우드호스팅/서버호스팅/이미지호스팅/코로케이션/나스)
02-11 8,241
02-11 (월) 8,241
web 트래픽 아끼는 법 1 - robots.txt 파일을 사용하여 구글 로봇 페이지 차단 또는 삭제
12-02 8,236
12-02 (월) 8,236
web 십진법 (=십진수) , 이진법(= 이진수) 개념 및 변환
04-05 8,223
04-05 (금) 8,223
web 핑 테스트로 도메인 서버 아이피 알아내기 (= 핑테스트 Ping, Domain, IP 확인)
05-21 8,217
05-21 (목) 8,217
web 192.243.55.xxx 아이피 (= SemrushBot 검색로봇)
11-26 7,945
11-26 (토) 7,945
web 본인 도메인 이메일 갖기 : 네이버 이메일 MX 설정법 (works.naver.com 이용법)
12-09 7,655
12-09 (화) 7,655
web 스팸차단/스팸방어/스팸관리/스팸삭제/스팸제거/스팸해결/스팸방지/스패머차단 (프로그램 다운로드 + 그누보드5 …
07-19 7,481
07-19 (금) 7,481
web 무료홈페이지빌더 사이트모음 ★ (=빌더추천 = 빌더종류 = 홈페이지빌더모음 = 프레임워크종류)
09-11 7,376
09-11 (수) 7,376
2/18
목록
찾아주셔서 감사합니다. Since 2012