오늘 새벽(한국 기준) 오바마가 미국의 44대 대통령으로 취임했습니다.
회사에 같이 계신분의 제보(!)로 재밌는 사실을 알게 되었습니다. 바로 부시 전대통령 시절과, 새로운 오바마 대통령의 백악관(the White House) 홈페이지에 robots.txt 파일 차이에 대한 정보입니다. 혹시 잘 모르시는 분들을 위해서 robots.txt에 대해서 알아보겠습니다. 아시는 분은 다음 단락을 패쓰해주세요.
검색엔진과 robots.txt
구글, 야후, 네이버, 다음, 엠파스, 네이트과 같이 우리가 쓰는 포털은 대부분 검색기능을 내장하고 있습니다. 이 검색은 크게 포털 자체에 저장된 데이터와 보통의 홈페이지에 있는 웹페이지를 검색하게 됩니다. 우리가 만든 홈페이지, 블로그 등등을 말이죠. 그럼 검색 기능으로 우린 네이버에서 티스토리 블로그를 검색하는게 가능해집니다.
그런데, 사이트 운영하는 입장에서는 검색에 노출되길 원하지 않을 수도 있습니다. 내용을 숨기고 싶거나, 알려지길 원하지 않거나, 혹은 트래픽(검색엔진이 접속할 때마다 데이터를 가져감으로)이 많아지는 것을 막고 싶을 수도 있으니까요. 그럴 때 쓰는 파일이 robots.txt 파일입니다. 윈도우에 들어 있는 메모장으로도 만들 수 있는 이 파일에, 어떤 검색엔진에게 검색을 허용할지, 어떤 폴더를 허용할지를 명시해주게 되는데요. (여기에 대한 좀 더 자세한 내용은 이 페이지 http://bklove.info/260를 참고하심 될 듯 합니다)
오바마 이전과 이후 robots.txt의 변화
(아래 내용은 http://blogoscoped.com/archive/2009-01-21-n75.html 의 내용을 참고하고 있습니다)
|
오바마 이전 |
오바마 이후 |
| User-agent: * Disallow: /cgi-bin Disallow: /search Disallow: /query.html Disallow: /omb/search Disallow: /omb/query.html Disallow: /expectmore/search Disallow: /expectmore/query.html Disallow: /results/search Disallow: /results/query.html Disallow: /earmarks/search Disallow: /earmarks/query.html Disallow: /help Disallow: /360pics/text Disallow: /911/911day/text Disallow: /911/heroes/text Disallow: /911/messages/text Disallow: /911/patriotism/text Disallow: /911/patriotism2/text Disallow: /911/progress/text Disallow: /911/remembrance/text Disallow: /911/response/text Disallow: /911/sept112002/text Disallow: /911/text Disallow: /ConferenceAmericas/text Disallow: /GOVERNMENT/text Disallow: /QA-test/text Disallow: /aci/text Disallow: /afac/text Disallow: /africanamerican/text Disallow: /africanamericanhistory/text Disallow: /agencycontact/text Disallow: /americancompetitiveness/text Disallow: /apec/2003/text Disallow: /apec/2004-summit/text Disallow: /apec/2004/text Disallow: /apec/2005/text Disallow: /apec/2006/photoessay/text Disallow: /apec/2006/text Disallow: /apec/2007/photoessays/2/text Disallow: /apec/2007/photoessays/text Disallow: /apec/2007/text Disallow: /apec/2008/photos/text Disallow: /apec/2008/text Disallow: /apec/text Disallow: /appointments/text ... continues for over 2000 more lines ... |
User-agent: * Disallow: /includes/ |
부시 행정부 시절 무려 2400줄에 달했던 robots.txt는 오바마 대통령의 취임과 함께 달랑 두줄로 바꼈다고합니다. 공통으로 첫 줄에 사용된 [ User-agent: * ]는 모든 검색엔진을 의미합니다. 예를 들어, 네이버의 검색엔진의 이름은 Cowbot이라고 불리는데, 네이버 검색엔진에게만 전달한 내용을 명시하고 싶다면 [ User-agent: Cowbot ]이라고 적어주면 되죠. 참고로, 별표( * )는 보통 컴퓨터에서 전체(all)을 의미하는 표시로 사용되곤 합니다.
그 아래 있는 부분 중 [ Disallow: /911/911day/text ]는 디렉토리 중 /911/911day/text 에 있는 문서는 검색엔진에게 검색을 하지 말라고 명시하는 부분입니다. 검색엔진은 보통 검색하기에 앞서 루트(Root)폴더에 있는 robots.txt를 먼저 읽고, 하지 말라는 폴더는 검색을 하지 않습니다.
부시 전대통령 시절에는 2400개에 달하는 폴더가 검색되지 않기를 바랬단 것이고, 오바마 행정부는 단 하나의 폴더 [ /includes/ ]만 검색이 안되도록 설정해놨군요. (참고로 오바마 행정부는 당선 이후 사용하던 홈페이지(change.gov)를 그대로 새로운 백악관 홈페이지(whitehouse.gov)로 옮겨왔습니다) 물론 이전에 차단했던 홈페이지의 디렉토리를 /includes/안에 옮김으로써 차단되는 목록은 간단히하고, 같은 효과(차단)를 누리는 것일지도 모르겠지만... 운영면에서도 차단을 위한 폴더의 전체 목록을 명시하는 것이 오히려 해킹 등의 위험이 높을 수도 있을 것 같습니다. robots.txt는 누구나 볼 수 있는 정보이니까요
자, 그럼 우리나라는...?
미국과 한국을 단순하게 비교하는거 그다지 좋아하지 않습니다만, 청와대 홈페이지의 경우는 사례가 좀 특이해서 비교를 안할 수가 없습니다. 홈페이지는, 특히 정부의 홈페이지는 국민들에게 어떤 정보를 널리 알리기 위해서 운영합니다. 대통령의 생각, 정부의 조직구조, 칼럼, 대통령의 동정 등을 국민들이 알 수 있도록 하는 좋은 수단이 될텐데요.
다음은 청와대의 공식 홈페이지에 있는 robots.txt의 정보입니다.
User-agent: *
Disallow: /
단 두 줄. 오바마 대통령 처럼 숨기는 것 없이 모든 정보를 공개하고 있는 것일까요?
그런데, 아쉽게도 (역시나?) 아닙니다. [ Disallow: / ]가 가지는 의미는 모든 디렉토리를 검색하지 말라는 것을 의미하고, [ User-agent: * ]와 결합되면 강력하게도 모든 검색엔진에게 이 홈페이지의 모든 정보를 검색하지 못하게 하는 역할을 합니다.
한마디로, 모든 검색엔진들이여 청와대에 어떤 정보를 올리든 검색하지마!
라는 메시지를 담고 있는 것이죠. 그리고 이 내용은 청와대의 공식 영문 페이지에도 마찬가지로 설정되어 있습니다. (참고: http://english.president.go.kr/robots.txt ) 국내는 그렇다치더라도, 외국인이 한국이나 청와대의 동정에 대해서 알고 싶으면 당연히 정부의 공식 홍보채널에서 제공하는 정보가 노출되어야 한다는 것을 감안하면 너무 무책임한게 아닌가도 생각됩니다.
그 결과는 이렇습니다. 구글에서 청와대의 그 수많은 하위 페이지를 포함해서 현재 검색된 페이지의 전체 숫자는 달랑 14 페이지였습니다. (참고: http://www.google.co.kr/search?complet ··· 3Bsa%3Dn) 검색어를 처음 입력하자 청와대 홈페이지 아래 2,140개의 페이지가 검색되었다고 나왔지만, 2페이지를 클릭하자 실제 올려진 정보는 겨우 14개 페이지더군요. 청와대 홈페이지에 있는 메뉴만해도 얼마나 많은데...
일개 블로거인 제 개인 블로그가 구글에 노출된 숫자가 4,820 페이지임을 감안하면 정말 미미한 숫자임을 알 수 있습니다. (참고: http://www.google.co.kr/search?complet ··· 3Bsa%3Dn) 다 살펴볼 여력은 없었지만, 청와대 뿐 아니라 방송통신위원회(http://www.mic.go.kr/robots.txt) 라든지, 문화체육관광부(http://www.mic.go.kr/robots.txt)도 마찬가지군요. 서울시(http://www.seoul.go.kr/robots.txt)와 국회도 역시(http://www.assembly.go.kr/robots.txt) 모든 페이지를 검색하지 못하도록 설정해놓은 상태입니다.
물론 좀 다른 곳도 있습니다. 이를테면 행정안전부, 한나라당, 민주당의 경우는 robots.txt 파일이 아예 없었는데요. 해당 파일이 없을 경우 검색엔진은 모든 페이지에 대해서 검색할 수 있게 됩니다. 재미있는 또 다른 사례는 대법원입니다.
대법원의 홈페이지의 robots.txt 파일(http://www.scourt.go.kr/robots.txt)은 아래와 같은데요.
User-agent: Googlebot
Disallow: /User-agent: Googlebot-Image
Disallow: /
어떤 이유에서인지 모르겠지만, 구글의 검색엔진(Googlebot)과 구글의 이미지검색엔진(Googlebot-Image)만 검색을 못하도록 차단해놨군요. 아마 홈페이지 등을 통해서 주민등록번호와 같은 개인정보가 노출된 사례가 있었는데, 국내 검색포털의 경우 이런 정보에 대해서 대비를 하는데 구글의 경우 상대적으로 강력한 검색기능에 비해서 이런 대비가 없어서 그런 것일지도 모른다는 추정을 해봅니다. (관련 포스트: http://photohistory.tistory.com/303)
물론 차단하는 것도 나름의 이유가 있을 수는 있습니다.
민감한 정보가 관리자도 모르게 노출될 수도 있으며, 온갖 종류의 검색엔진이 검색을 시도함으로 인해서 트래픽이 증가할 수도 있습니다. 하지만, 정부 및 기관 홈페이지에 올려진 내용은 대부분은 국민에게 어떤 사실이나 정보를 알리기 위함이고 이런 정보는 굳이 홈페이지를 방문했을 때 뿐 아니라, 검색엔진을 통해서 노출됨으로써 더욱 쉽게 접할 수 있어야 합니다.
그래서 무조건 검색엔진을 차단해서 접근성을 극단적으로 낮출 것이 아니라, 외부로 공개되지 않기를 원하는 폴더를 명시해서 해당 디렉토리의 하위에 있는 정보만 검색되지 않도록 해야 합니다. 예를 들면, 청와대 홈페이지의 청와대 뉴스라든지 대변인 동정 같은 정보를 굳이 차단할 필요는 없으니까요. 요즘 많은 국내외의 홈페이지들이 어떻게 하면 더 검색을 잘 할 수 있을까란 주제로, SEO(Search engine optimization)를 시도하고 있는 것과는 참 다른 풍경이네요.

에서 구독하세요
댓글을 남겨주세요
정보 보안에 자신이 없다는 소리겠죠...
그래봐야 보안이 허술하면 빼갈 정보는 얼마든지 가져갈 수 있는데도 말이죠.
단순히 보안문제라고 보기엔 설정이 좀 과한것 같습니다.
robots.txt로 강력한 보안 기능이 더해지는 것도 아니라.. (^^)
물론, 관리자 측면에서 유용하긴 할 수도 있겠네요.
공유보다 보호가 목적이라면 말이죠~
댓글 감사합니다 ㅋ
아뇨...
제가 말씀드린 의도는, "이렇게 해두면 검색이 안되니까 보안이 좀 강화되겠지"라고 생각할 것 같은 관리자의 속내를 한번 떠본 겁니다...^^
과연 불통의 정부답군요.
좋은 사례를 찾아주셨네요.
하하, 반증이긴 하지만..
어쩌면 담당자 차원에서 한 조치가 아닐까도 생각합니다.
정보 조차 알리려하지 않고 이야기조차 하지않으려는 현 정부의 모습을 그대로
볼수 있군요. 보안은 어떻게 해서든 막을텐데 이야기 조차 하지 않으려는 것은
참 무책임하다는 모습으로 보입니다.
대부분 여기 올라오는 정보는 공유가 목적일텐데, 그런 점에서는 조금 아쉽습니다. 그런데 꼭 지금 정부만 이야기할 수 없는게, 노무현 전대통령의 공식 사이트에도 마찬가지로 차단 설정이 되어 있습니다.
( 참고: http://www.knowhow.or.kr/robots.txt )
굳이내요.
넵, 감사.
1.부시: 기술은 알고있고, 알리기싫은 것은 많다.
2.오바마: 기술을 알고있고, 알리고싶은 것이 많거나, 우아하게(?)감출줄 안다.
3.청와대: 기술은 아는데, 아무것도 알리고싶지 않다.
4.대법원: 기술은 아는데, 알리지 말아야할 대상을 딱 하나만 알고있다.
5.민주당,한나라당: 그런 기술이 있는지조차 모른다.
아주 재밌는 비유군요. ^^
재미있게 잘 봤습니다...
5번은 정말 맞을지도 모른단 생각이... ㅡㅡ;;
마치 장끼가 논두렁에 고개를 처박고 손바닥으로 하늘 가리는 데 성공했다-- 소리치며 자기 만족에 빠져 있는 꼴.
새로운걸 알게됐습니다. 검색을 허용하면 청와대 입장을 더 홍보할수있을텐데 참 이상한 정부로군요.
상당히 흥미롭게 읽었습니다. ^^
오바마 취임이후, 앞으로 미국이 얼마나 변화할지도 궁금해 지네요.
정말 재밌는 관찰이네요. 정부기관에서 SEO를 무시하고 있다는 사실이 안타깝군요.
(검색차단) - [교육과학기술부]
http://www.mosf.go.kr/robots.txt - [기획제정부]
- http://www.nts.go.kr/robots.txt - [국세청]
- (검색차단) [관세청, 조달청]
http://www.mofat.go.kr/robots.txt - [외교통상부]
(검색차단) - [통일부]
http://www.moj.go.kr/robots.txt (검색차단) - [법무부]
- http://www.spo.go.kr/robots.txt - [대검찰청]
(검색차단) [국방부, 병무청]
- http://www.dapa.go.kr/robots.txt - [방위사업청]
(없음) - [행정안전부]
- (없음) - [경찰청]
- (검색차단) - [소방방재청]
http://www.cha.go.kr/robots.txt (없음) - [문화재청, 통계청, 농림수산식품부, 농촌진흥청]
(검색차단) - 산림청
http://www.mke.go.kr/robots.txt - [지식경제부]
(검색차단) - [방송통신위원회]...
(....)
흫미로운 포스팅이군요 :-)
오바마는 공식 사진도 역대 대통령 중 최초로 DSLR로 찍었다는데, 여러 모도 신세대 대통령이라는 생각은 드네요.
오랜만에 들른 것 같은데 아닌 것 같기도 하고;;;;; 여튼 재미난 포스팅 보고 갑니다~.
흥미롭게 잘 읽었습니다.
MB정부가 그렇게 목놓아 부르던
소통은 어디로 간걸까요?
흥미로운 글이네요~
글도 너무 알기 쉽고 친절하게 잘 쓰시는 것 같아요
구독 추가하고 갑니다 ^-^
관리자만 볼 수 있는 댓글입니다.
네. 다시 확인하실지 모르지만, 당연히 가능합니다 ^^
당연히 확인했지요^_^
감사합니다~