Tag Archives: robots.txt

Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 – robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해

우크라이나와 싱가폴에 연구소를 둔 Ahrefs.com은 검색엔진 최적화(SEO) 업체로 표준을 지키지 않는 것으로 유명했습니다.

참고로 SEO란 Search Engine Optimization을 줄임말로 검색엔진이 검색을 잘 할수 있도록 도와주는 솔루션입니다.

Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 - robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해

통상 인터넷 기반의 웹사이트는 robots.txt에 접근 정책을 정의해 둡니다.

그런데 ahrefs.com은 이를 무시하고 크롤링을 해 버리는 경우가 많았습니다.

 

예전에도 한번 그런적이 있었는데, 최근 이 bot이 다시 제 서버를 찾아와 괴롭히기 시작했습니다.

 

이 bot으로 인하여 발생하는 서버의 장애는 socket connection이 모자라기 시작한다는 것입니다.

통상은 서버가 아무리 바빠도 telnet이나 ssh 접속은 여유가 있기 마련인데, 이 bot은 telnet이나 ssh접속마저 할 수 없을 정도로 엄청나게 크롤링(crawling)을 해 버립니다.

 

이 bot의 접근 유무는 access.log 파일을 채크하면 간단히 확인할 수 있습니다.

Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 - robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해

검색어로 AhrefsBot을 찾으시면 됩니다.

 

이것이 가끔 DDoS(Distributed Denial of Service) Attack의 형태로 특정 시스템을 공격하고는 하는데요, 전에는 이 크롤러(Cralwer)가 정보를 다 긁어갈때까지 무방비 상태로 있고는 했는데, 이번에는 좀더 공격적으로 블럭킹을 하는 방법으로 접근을 해 보았습니다.

 

아파치에 설정을 하기 보다는 .htaccess파일 상단에 다음의 정의를 추가함으로써 이 지긋지긋한 DDoS Attack으로부터 탈출 할 수 있었습니다.

Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 - robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해

나중에 이 bot이 IP Address를 변경하면 다시 .htaccess 파일을 수정해주어야겠지만, 당분간은 안심입니다.

 

참고로 Ahrefs.com에서는 아래와 같이 그들 bot 차단하거나 제한하는 방법을 제시하였습니다.

제 경우 아래와 같이 해 보았으나, 개선이 되지 않아 위와 같은 극단적인 방법을 동원했습니다.

그러나 다른 bot 차단에 최소한의 도움이 되지 않을까 싶어 올려 봅니다.

Ahrefs bot의 비상식적 사이트 크롤링 접근 차단 - robots.txt 수정 또는 .htaccess 파일 수정을 통해 차단 가능해