사이트 트래픽의 주범 웹봇 차단하기 - robots.txt | |||
| |||
트래픽초과에 이제는 지쳤다. 결국 검색사이트의 로봇을 차단하기로 결정. 그 방법을 검색해서 가장 마음에 들게 정리한 부분을 발췌. 아래 내용을 읽고 내가 사용하고자 하는 robots.txt의 내용은 아래와 같이 했다. User-agent: Googlebot User-agent: Googlebot-Image User-agent: Slurp User-agent: yahoo-blogs/v3.9 User-agent: * ================================================== robots.txt파일을 생성해야 하는 이유는 크게 두가지입니다. 트래픽을 조절할 수 있다는 것과 다른 사람에게 알리고 싶지 않는 정보를 보호하기 위해서 입니다. 이 파일의 역할을 당신의 블로그를 방문하는 로봇들에게 사이트를 검색하게 허용할 것인지, 허용한다면 어떤 로봇에게, 어떤 디렉토리를 허용할지를 담고 있는 파일입니다. 윈도우의 경우 메모장을 이용해서 생성하면 되는데요, 파일은 반드시 계정의 최상위(root) 디렉토리에 있어야 합니다. 이를테면 제 사이트 http://bklove.info/ 라면 http://bklove.info/robots.txt 에 위치해야 합니다. http://bklove.info/temp/robots.txt 라면 제대로 작동하지 않습니다. 파일의 내용은 크게 세 부분으로 나뉩니다. User-agent: * 만약 특정 디렉토리를 차단하게 하려면 다음과 같이 적어주면 됩니다. User-agent: * 그렇다면 특정 로봇을 차단하는 방법은 어떤게 있을까요? 이를테면 사이트에서 네이버의 로봇이 활동하게 하지 못하는 방법은 다음과 같습니다. User-agent: Cowbot 조금 복잡하게 구글과 네이버는 허용하고, 그외에는 모두 차단하는 방법은 다음과 같습니다. User-agent: Cowbot User-agent: Googlebot User-agent: *
User-agent: Googlebot-Image 참고로 주석문을 작성하기 위해서는 앞에 #를 적어주시면 됩니다. 로봇의 이름은 개별 검색사이트를 방문하셔서 아셔야 합니다. 주로 쓰는 로봇의 이름만 알려드리면... 차단했을 경우에, 즉시 삭제되는 것은 아니지만 시간이 지나면 검색포털에서의 검색 결과 역시 삭제된다는 사실을 염두에 두셔야 합니다.
User-agent: Slurp
*** http://tool.motoricerca.info/robots-checker.phtml 이곳은 만들어진 robots.txt파일이 잘 작성되었는지 검사해주는 사이트입니다. **** 끝으로 제가 사용하고 있는 robots.txt는 http://bklove.info/robots.txt 여기서 확인이 가능합니다. 야후의 경우 시간을 지연시키는 명령어를 사용했고, 구글과 구글이미지, MSN의 경우 이미지와 PDF, ZIP, PPT파일에 대한 검색을 차단했습니다. | |||
| |||
| |||
Login for comment |
OTHER POSTS IN THE SAME CATEGORY 수많은 체크박스 중 몇개 체크했는지 확인 |