2006년 7월 17일

[robots.txt]이용 검색로봇 차단 가이드

사실 웹은 이미 너무 많은 정보로 인해서 원하는 정보를 발견하기가 더 어려워지고 있습니다. 어딘가에 있을 듯 하지만, 도무지 찾을 수 없는 정보들.. 특히 현대사회를 “정보”가 “돈”이 되는 사회라고 하지만, 역설적으로 “돈”에 의해서 “정보”의 우선순위가 바뀌고 있는 요즘은 더욱 그렇습니다. 요즘 네이버, 다음 같은 국내 포털들에게서 검색을 이용해서 최상위의 자리를 차지하는 방법은 포털들의 키워드 광고 대행사이면서… 야후에 인수된 야후의 자회사 ‘오버추어’를 통해서 등록하는 방법이 유일하게 되었습니다. (아.. 구글은 자신들의 검색광고 회사가 있습니다.)

이런 가정을 해볼까요? 당신이 블로그/홈페이지를 제작해서, 내용을 올리고, 관리를 하고, 사람들을 좀 더 쉽게 접근하게 하기 위해서 검색엔진에 등록을 하기를 원한다고 해봅시다. 인터넷의 초기에는 주로 검색포털들이 카테고리 형식으로 되어 있었고, 웹을 돌아다니며 검색을 하는 검색로봇(*로봇은 기계가 아닌 프로그램의 일종입니다)의 성능이 그다지 우수하지 못한탓에, 검색엔진을 제공하는 회사(포털)들이 검색엔진에 사람들의 사이트를 쉽게 등록해주었습니다. 그렇게 해서 검색엔진의 자료를 늘리고자 했던 것이죠.

어느 순간 홈페이지가 급격히 늘어나고, 포털들의 경쟁속에서 몇몇 기업들이 웹업계의 대기업으로 성장했고, 나머지는 시장에서 경쟁력을 잃고 사라졌습니다. 검색포털들로서는 더이상 웹사이트를 더 많이 등록시키기 위해 경쟁을 하지 않아도 되는 상황이 되었고, 오히려 등록을 원하는 사람들이 경쟁을 해야하는 처지가 되었습니다. 결국 키워드 광고 시장이 급격히 성장하게 되었죠. 이제 돈을 내지 않고 검색엔진에 등록하는 것은 비상업적인 사이트에 제한되었고, 그나마도 등록하기도 쉽지 않습니다. 등록을 해도 시간이 아주아주 오래걸리거나, 이것저것 제한 상황때문에 등록이 쉽지 않습니다. 상업적인 사이트의 경우 유명 포털에 등록하는 비용이 백만원을 훌쩍 넘습니다. 키워드 광고가 아닌 단순히 사이트를 등록하는데 드는 비용이 그 정도 입니다.

하지만 사실 여기는 약간 우리의 기분을 상하게 만드는 다른 문제가 있습니다. 이제 웹의 검색은 카테고리 방식보다는 로봇이 검색해서 자료를 찾아주는 방식이 우세하게 되었습니다. 이를테면 어떤 이름과 주제에 블로그 자체를 등록하는 것보다, 거기에 등록되어 있는 내용을 통해서 검색 결과에 노출되는게 더 우선시 되고 있는 것입니다. 흔히 사용했던 주제어와 이름을 통한 검색방식은 사이트의 내용 전체를 담을 수 없기 때문입니다. (*물론 당신이 물건을 팔거나 특정 주제어만 관련된 사이트 운영자라면 이야기가 좀 다릅니다. 여기선 당신이 블로거라고 가정하고 말씀드리는 겁니다)

그래서 검색포털들의 로봇은 꾸준히 웹을 돌아다니면서 정보를 찾고, 분류하는 작업을 하게 되는데요. 그렇게 웹을 돌아다니는 로봇 때문에 많은 블로그 사용자들의 트래픽이 필요 이상으로 낭비되고 있는게 문제입니다. 물론 이런 로봇들의 활동을 부분적으로 차단할 수 있는 방법이 있습니다. 하지만, 이해할 수 없는 점은 이런 로봇들의 활동을 허용하는게 기본으로 설정되어 있는 것이고, 사용자들이 별도의 작업을 통해서만이 차단할 수 있는 웹의 특성입니다.

트래픽이 상관없는 서비스형 블로거의 경우에는 사실 비용상의 문제점은 없습니다. 반면 태터툴즈같은 설치형 블로그 사용자의 경우에는 이야기가 좀 다르죠. 개인적인 용도로 꾸며지는 사이트의 경우 대부분 웹호스팅을 이용해서 꾸미게 마련이고, 이 경우 웹호스팅 용량도 그렇지만, 트래픽 제한폭 때문에 사이트가 접속이 안되는 경우가 발생합니다. 특히 이미지가 주류를 이루는 한국의 사이트에서 보통 디카로 찍은 사진을 크기를 줄여서 올린다고 하더라도 수백KB가 될터이고, 몇장만 올리면 MB에 이릅니다. 백명만 그 사진을 봐도 금새 용량이 백MB가 넘는다는 결론입니다.

여기서 생각할 수 있는 것은 사실 웹은 다른 사람에게 보이기 위한 공간이라는 것입니다. 혼자서만 보기 위해서라면 그냥 워드프로세서를 이용해서 문서를 작성하는게 현명한 일이겠죠. 그러니 다른 사람들이 많이 방문해서, 용량이 초과된다면 그리 나쁜일만도 아니라 생각됩니다. 하지만 그게 다른 사람이 아니라면? 그게 그냥 검색로봇이라면 어떨까요? (문서 파일은 용량이 그다지 크지 않지만, 요즘 대부분 포털들은 이미지 검색을 지원하고 있습니다. 초기의 포털들의 로봇은 이미지는 배제하고 단순히 텍스트만을 검색 목표로 삼았었죠.)

실제로 제 웹의 경우 검색로봇의 방문수는 평균 30%이상이고, 많은 경우 50%에 육박합니다.
그중에 당신의 사이트를 홍보하는 역할을 하게 될 로봇도 있지만, 그렇지 않는 경우도 있습니다. 아래의 캡쳐이미지는 제 블로그의 검색로봇 방문을 표시한 것인데요. 외국의 특정 사이트중에서는 제 블로그가 검색된다고 하더라도, 실제 방문으로 이어질 가능성은 거의 없습니다. 국내에서 서비스 중인 사이트 중에서도 당신의 사용패턴에 따라서 모든 로봇의 방문을 허용하지 않을 수도 있겠죠.

[검색로봇을 막는 방법 robots.txt]
그래서 필요한 파일이 robots.txt라는 조그마한 텍스트 파일입니다. 정리하면 robots.txt파일을 생성해야 하는 이유는 크게 두가지입니다. 트래픽을 조절할 수 있다는 것과 다른 사람에게 알리고 싶지 않는 정보를 보호하기 위해서 입니다. 이 파일의 역할을 당신의 블로그를 방문하는 로봇들에게 사이트를 검색하게 허용할 것인지, 허용한다면 어떤 로봇에게, 어떤 디렉토리를 허용할지를 담고 있는 파일입니다.

윈도우의 경우 메모장을 이용해서 생성하면 되는데요, 파일은 반드시 계정의 최상위(root) 디렉토리에 있어야 합니다. 이를테면 제 사이트 http://bklove.info/ 라면 http://bklove.info/robots.txt 에 위치해야 합니다. http://bklove.info/temp/robots.txt 라면 제대로 작동하지 않습니다.

파일의 내용은 크게 세 부분으로 나뉩니다.
주석(#), 로봇의 이름을 적는 부분(User-agent) , 방문을 허용하지 않을 디렉토리를 적는 부분(Disallow)으로 구분됩니다.

User-agent: *
Disallow: /

위처럼 적으면 모든 로봇에서 모든 디렉토리에 대한 검색을 불가능하게 하겠다는 뜻을 담고 있습니다. [*]는 User-agent에서만 사용가능한데 [모든 로봇]이라는 뜻을 지니고 있습니다. Disallow의 [/]는 디렉토리에 있는 모든 폴더를 나타내는 것이구요.

만약 특정 디렉토리를 차단하게 하려면 다음과 같이 적어주면 됩니다.

User-agent: *
Disallow: /blog

위는 모든 로봇[*]에게 [blog]디렉토리 아래에 있는 부분에 대해서는 접근을 차단한다는 내용을 담고 있습니다.

그렇다면 특정 로봇을 차단하는 방법은 어떤게 있을까요? 이를테면 사이트에서 네이버의 로봇이 활동하게 하지 못하는 방법은 다음과 같습니다.

User-agent: Cowbot
Disallow: /

Cowbot은 네이버 로봇의 이름입니다. 위처럼 작성해주시면 네이버 로봇의 경우 검색을 하지 못하게 됩니다.

조금 복잡하게 구글과 네이버는 허용하고, 그외에는 모두 차단하는 방법은 다음과 같습니다.

User-agent: Cowbot
Disallow:

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Disallow에 아무적도 적지 않으면 모두 허용한다는 의미가 되기 때문이죠.
/blog와 /blog/는 조금 다릅니다.
/blog의 경우는 /blog/a.htm와 /blog.htm에 대해서 불가능한 것이고
/blog/의 경우는 /blog/a.htm에 대해서만 불가능 합니다.
즉 /blog는 디렉토리와 파일까지도 포함하고, /blog/는 디렉토리만을 의미하거든요.

앞서 트래픽을 아끼기 위해서 이미지 로봇을 차단하는 방법은 다음과 같습니다. 참고로 원래는 Disallow항목에 *표시를 넣을 수 없습니다. 이 명령어는 구글과 MSN등에서만 통용되구요. 파일명 뒤에 반드시 $표시를 해주셔야 합니다. 즉 모든 검색엔진에서 통용되지는 않습니다.
User-agent: Googlebot-Image
Disallow: /*.gif$
Disallow: /*.jpg$ 위 문장은 구글의 이미지를 검색하는 로봇에게 gif와 jpg로 된 이미지를 모두 검색하지 않도록 하는 명령어입니다.

참고로 주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다. 로봇의 이름은 개별 검색사이트를 방문하셔서 아셔야 합니다. 주로 쓰는 로봇의 이름만 알려드리면…
구글: Googlebot
구글 이미지 : googlebot-image
네이버 : cowbot
야후 : Slurp
야후 이미지 : Yahoo-MMCrawler
엠파스봇 : empas
MSN : MSNBot
첫눈: 1Noonbot 1.0

차단했을 경우에, 즉시 삭제되는 것은 아니지만 시간이 지나면 검색포털에서의 검색 결과 역시 삭제된다는 사실을 염두에 두셔야 합니다.

* Crawl-Delay 항목을 지정하시면 검색엔진의 방문을 지연시킬 수 있습니다. 기본단위는 초단위입니다. 아래의 명령어 역시 위의 *.jpg$처럼 야후, MSN에서만 작동됩니다.
User-agent: Slurp
Crawl-delay: 20

이렇게 하시면, 모든 검색로봇의 방문을 허용하되 5초동안은 다시 방문을 하지 않도록 지정하게 됩니다.

** http://www.mcanerin.com/EN/search-engine/robots-txt.asp 이곳에 가시면.. 비록 외국 사이트긴 하지만.. robots.txt를 제작해줍니다. ^^!! 고르기만 하면 자동으로 파일을 생성해주죠. 가져와서 메모장에 붙여놓고 저장후 FTP로 올리면 됩니다.

*** http://tool.motoricerca.info/robots-checker.phtml 이곳은 만들어진 robots.txt파일이 잘 작성되었는지 검사해주는 사이트입니다.

26 Comments

다나
2006년 8월 23일 at 1:27 오후

“배가 부른 검색포털” 참 다가오는 표현입니다. 최근에 가게 홈페이지를 제작의뢰하고 등록하려고 봤더니, 참 황당하고 이해되지 않더군요. 무료등록은 최소2달이상 기다려야 검토정도 가능하답니다.
어쩔 수 없이 울며겨자먹기로 3일 안에 등록되는 198000원짜리(?)로 등록했습니다.
지금와서 생각하면 후회되기도 합니다. 검색포털을 통하지 않고도 알릴 수 있는 방법이 있었을 텐데..하면서 말이죠. 잘은 모르지만..

응답
- BKLove
  2006년 8월 23일 at 2:27 오후
  
  동감합니다.
  저도 홈페이지 제작 하는 일을 예전에 좀 했었는데요.
  검색엔진 등록 비용이 만만치 않더군요.
  
  처음엔 그런 것도 없다가.. 이제 인기가 높아지니..
  생겨난건데.. 비용이 좀 과한 측면이 있습니다.
  
  그나마 등록도 잘 안되죠..
  가게 홈페이지라면.. 거의 등록이 안되신다 보면 됩니다.
  상업적인 페이지는 유료 등록외에는 방법이 없죠.
  
  물론 등록 비용만 그렇고..
  실제 광고라도 할라치면.. 비용이 상상을 초월합니다.
  
  사실 방법을 찾을려면 없는 것도 아닌데..
  조금 시간이 더 걸리겠지만..
  정보가 많은 페이지라면.. 굳이 알리지 않아도.. 퍼져나가게 되어 있더군요~
Song-C
2006년 9월 20일 at 3:13 오전

안녕하세요. 모 봇때문에 골치썩다가 블코에서 찾아들어왔습니다.
덕분에 여태까지 제가 로봇s.txt파일 가지고 완전삽질한걸 알게 되어서 고칠 수 있었습니다.
일단은 막힌…것같긴 한데 좀 추이를 두고 봐야겠네요.(제 호스팅업체에서 robots.txt가 먹히길 바라며…)
유용한 정보 감사합니다. ^^

응답
PAGI Korea - Web 2.0 Social Network
2007년 3월 29일 at 3:08 오전

이용 검색로봇 차단 가이드

응답
시린콧날
2007년 6월 18일 at 11:27 오후

여러 설치형블로거 분들이 고민하시는 부분때문에 저도 찾다가 글 찾게 되었습니다. 잘 정리되어있어, 단단한 방패를 구축하는데 많은 도움이 될것 같습니다…^^

응답
잘봤습니다.
2007년 12월 7일 at 5:32 오전

잘 봤습니다.
많이 활동하는 로봇, 스파이더, 크롤러의 정보를 찾고 있는데 속 시원히 나온정보가 없네요..

응답
제리스
2008년 4월 25일 at 6:13 오전

과 학회 홈페이지 게시판을 자꾸 검색로봇이 스토킹해서 머리가 아팠는데, BKLove님 덕분에 차단방법을 알게 되었습니다^^

좋은 정보 감사합니다~!

응답
- BKLove
  2008년 4월 26일 at 1:04 오전
  
  도움이 되셨다니 다행입니다. ^^
하얀로냐프강
2008년 4월 25일 at 6:23 오전

학회 홈페이지를 관리하는 후배들이 잘 관리 할 수 있도록약간의 정보와 (사실 내 그지같은 코딩법 때문에 소스를 보기 힘들)우리 소중한 학회의 정보를 빼나가는 검색로봇의 파렴치한 행각을 막는 방법을알려주기로 결심했다+ㅁ+v그런데,html을 손놓은지 조금 오래되서 전혀 기억이 안난다. (…)일단 검색로봇을 막는 방법부터 찾아보기로 했고, 그 결과 BKLove님의 글을 발견했다!(이순간만큼은 검색로봇님 감사해요~)robots.txt라는 파일을 생성해…

응답
봄바람의 상큼함
2008년 5월 19일 at 4:39 오전

검색 로봇 차단 하는 방법 입니다.

일목요연하게 잘 정리 해주신 bklove님 감사 합니다 ^^

응답
봄바람의 상큼함
2008년 5월 19일 at 4:39 오전

검색 로봇 차단 하는 방법 입니다.

일목요연하게 잘 정리 해주신 bklove님 감사 합니다 ^^

응답
봄바람의 상큼함
2008년 5월 19일 at 4:40 오전

검색 로봇 차단 하는 방법 입니다.

일목요연하게 잘 정리 해주신 bklove님 감사 합니다 ^^

http://bklove.info/trackback/260

응답
정재완
2008년 5월 19일 at 4:41 오전

좋은 정보 감사 합니다 ^^

응답
Luxury Q.
2008년 7월 21일 at 1:31 오전

좋은 정보 감사드려요~

흠냐 좋은 정보 보관을 위해 출처를 밝힌 후 제가 다니는 카페에 등록해 놨어요~

혹시 삭제 원하시면 알려주시기 바랍니다~

응답
우연
2008년 8월 26일 at 5:18 오전

좋은 정보 퍼갑니다.

응답
I'm in
2008년 11월 18일 at 5:36 오후

more.. 대단하지요? 비약적인 발전이지요?그러나 어떻습니까. 더 대단하지요? 무지무지무진장이지요? 저 말입니다? 얼마나 방문자 수가 많은지 생전 안 해보던 트래픽 리필까지 받아봤답니다? ^_^자아. 그럼 이제 슬슬 이것을 보아주어요. 꺄악! ㅈ, ㅈㄴ 미쳐 돌아버릴 것 같지 않습니까? 제 허접 일기 나부랭이 블로그를 정기적으로 찾아주고 계신분이 이렇게나아—- 많네요. 하하하하하ㅏㅏ핳. 너무 감사해서 참 몸둘바를 모르겠습니다. 도대체! 어떻게…

응답
ronyc
2008년 11월 19일 at 7:16 오전

헛. 이리 몸소 방문해주셔서 해결 답글까지 달아주시고 …ㅜㅜㅜㅜ 감사합니다.
검색 결과에 걸릴만한 양질의 포스팅을 못하는 불량 블로거라 ㅋㅋㅋㅋ 걸려서 들어온 분들께 매번 낚시질을 했다는 죄책감이 들기도 하고 해서 이번 기회에 막으려고 시도했습니다. :)ㅋㅋㅋ

저 는 구글, 네이버, 다음 세곳을 제외한 다른 검색엔진은 모두 검색 불가로 코드 작성을 했는데 이것참. 뭔 일인지 최근 리퍼러 리스트에 아직도 엠에센과 라이브서치와 기타 등등 들이 뜨네요. ;;;; 혹시 그걸 일일이 로봇 이름을 지정해서 접근 불가를 해야할까요? 염치 불구하고 한번 더 여쭙습니다. (__)

↓제가 작성한 코드 전문입니다.↓

# robots.txt
User-agent: Cowbot
Disallow:

User-agent: Googlebot
Disallow:

User-agent: daumoa
Disallow:

User-agent: *
Disallow: /

응답
박미경
2008년 11월 21일 at 11:11 오전

좋은글 이라 퍼갑니다.
원치 않으심 삭제 하겠습니다.
퍼간 글은
http://club.paran.com/club/home.do?clubid=sonakby&p_eye=namu^bod^lnk^clu^list_club_go

게시판에 올렸습니다.

응답
ronyc
2008년 11월 22일 at 8:00 오전

헉!!! 애드센스……………..!!! 피가 되고 살이 되는 정보까지 알려주셔서 감사합니다. ㅠㅠㅠ 전 왜 계속 공익광고만 뜨나 했어요 ;;;;

말씀하신대로 기다렸더니 라이브서치 로봇과 영원히 빠이빠이 했습니다. ㅋㅋㅋ

정말 감사드려요. (_ _)

응답
거니
2009년 10월 29일 at 4:31 오전

안녕하세요.. BKLove님.. ^^

좋은 내용 아주 잘 읽었습니다~~

덕분에 검색로봇에 대한 것도 잘 알았구요…

전 한가지 궁금하게 있는데요….

보통 홈페이지에서 게시판에서 게시물을 출력할때…

http://홈페이지/board/board.php?id=freeboard&no=1

이런식으로 게시물을 읽어오잖아요…

근데… board 폴더 안에는.. 로그인 파일이나.. 기타 등등..

여러가지 검색로봇이 가져가기에 필요 없는 파일등이 많은데…

board 폴더 안에.. 있는 다른 파일들은 전부 접속을 차단하고…

게시판의 게시물을 긁어갈 수 있는 방법이 있나요??

Disallow:board/

이렇게 하면… 게시판도 접근을 못 할것 같은데요..

다른 분들도 많이 궁금해하실 것 같습니다.. ^^

응답
dream reader
2010년 3월 3일 at 10:48 오전

다음 검색 엔진 회사의 검색 차단 검색 엔진이라면 웹, 인터넷의 모든 정보를 모두 검색해 주는 것으로 알고 계실 겁니다. 그러나 일부 검색 엔진의 경우는 사람의 주관이 개입하면서 일부 사이트, 블로그에 대해 검색 차단하는 듯 합니다. 일단 제 블로그는 현재 다음에서 검색 차단 중인 듯 한데요. 다음 고객센터에 몇 번 메일로 검색이 안 되는 글을 문의하였으나 매번 돌아오는 대답은 내부 검색 로직에 따라 검색이 안 될 수 있다는 것이었습니다. 그러나 현..

응답
メールのやり取りの中で逢うタイミング
2011년 6월 6일 at 2:02 오전

만들면 오마이에서 뭐

응답
푸른화염
2016년 1월 9일 at 9:36 오후

어- robots.txt 때문에 검색해서 오게 됐는데요
그 마지막에 txt 생성해주는 사이트도 나와있고.. 몇몇 블로그에서도 봤는데
사이트맵 xml 파일이 필요한건가요?

응답

BKLove Blog

[robots.txt]이용 검색로봇 차단 가이드

26 Comments

답글 남기기