Semalt는 봇, 거미 및 크롤러를 다루는 방법에 대한 팁을 제공합니다

검색 엔진 친화적 인 URL을 만드는 것 외에도 .htaccess 파일을 사용하면 웹 마스터가 특정 봇이 웹 사이트에 액세스하는 것을 차단할 수 있습니다. 이러한 로봇을 차단하는 한 가지 방법은 robots.txt 파일을 사용하는 것입니다. 그러나 Semalt 고객 성공 관리자 인 Ross Barber는이 요청을 무시하는 크롤러를 보았다고 말합니다. 가장 좋은 방법 중 하나는 .htaccess 파일을 사용하여 콘텐츠 색인 생성을 중지하는 것입니다.

이 봇은 무엇입니까?

검색 엔진이 색인 작성을 위해 인터넷에서 새 컨텐츠를 삭제하기 위해 사용하는 소프트웨어 유형입니다.

다음과 같은 작업을 수행합니다.

  • 링크 한 웹 페이지 방문
  • HTML 코드에서 오류 확인
  • 그들은 당신이 연결하는 웹 페이지를 저장하고 어떤 웹 페이지가 귀하의 콘텐츠에 연결되는지 확인합니다
  • 그들은 당신의 콘텐츠를 색인

그러나 일부 봇은 악의적이며 원치 않는 메시지 나 스팸을 보내는 데 주로 사용되는 전자 메일 주소와 양식을 사이트에서 검색합니다. 다른 사람들은 코드에서 보안 허점을 찾습니다.

웹 크롤러를 차단하려면 무엇이 필요합니까?

.htaccess 파일을 사용하기 전에 다음 사항을 확인해야합니다.

1. 사이트가 Apache 서버에서 실행 중이어야합니다. 요즘에는 웹 호스팅 회사의 절반 정도가 자신의 업무에 있어도 필요한 파일에 액세스 할 수 있습니다.

2. 웹 사이트를 방문한 봇을 찾을 수 있도록 웹 사이트의 원시 서버 로그에 액세스 할 수 있어야합니다.

모든 유해한 봇을 차단하지 않으면 도움이 될 것으로 생각되는 봇을 모두 차단할 수있는 방법이 없습니다. 매일 새로운 봇이 나오고 오래된 봇이 수정됩니다. 가장 효율적인 방법은 코드를 보호하고 봇이 스팸 메일을 보내는 것을 어렵게 만드는 것입니다.

봇 식별

봇은 IP 주소 또는 "사용자 에이전트 문자열"에서 식별 할 수 있으며 HTTP 헤더로 전송됩니다. 예를 들어 Google은 "Googlebot"을 사용합니다.

.htaccess를 사용하여 멀리 유지하려는 봇 이름이 이미있는 경우 302 개의 봇과 함께이 목록이 필요할 수 있습니다.

다른 방법은 서버에서 모든 로그 파일을 다운로드하고 텍스트 편집기를 사용하여 여는 것입니다. 서버에서의 위치는 서버 구성에 따라 달라질 수 있습니다. 찾을 수 없으면 웹 호스트에게 도움을 요청하십시오.

방문한 페이지 또는 방문 시간을 알면 원치 않는 봇을 사용하는 것이 더 쉽습니다. 이 매개 변수를 사용하여 로그 파일을 검색 할 수 있습니다.

일단 어떤 봇을 차단해야하는지 언급했습니다. 그런 다음 .htaccess 파일에 포함시킬 수 있습니다. 봇을 차단하는 것만으로는 충분하지 않습니다. 새로운 IP 또는 이름으로 돌아올 수 있습니다.

그들을 차단하는 방법

.htaccess 파일의 사본을 다운로드하십시오. 필요한 경우 백업하십시오.

방법 1 : IP로 차단

이 코드 스 니펫은 IP 주소 197.0.0.1을 사용하여 봇을 차단합니다.

주문 거부, 허용

197.0.0.1에서 거부

첫 번째 줄은 서버가 지정한 패턴과 일치하는 모든 요청을 차단하고 다른 모든 요청을 허용 함을 의미합니다.

두 번째 줄은 서버에게 403 : 금지 된 페이지를 발행하도록 지시합니다.

방법 2 : 사용자 에이전트에 의한 차단

가장 쉬운 방법은 Apache의 재 작성 엔진을 사용하는 것입니다

RewriteEngine 켜기

RewriteCond % {HTTP_USER_AGENT} BotUserAgent

RewriteRule. -[F, L]

첫 번째 줄은 다시 쓰기 모듈이 활성화되었는지 확인합니다. 두 번째 줄은 규칙이 적용되는 조건입니다. 4 행의 "F"는 서버에게 403을 리턴하도록 지시합니다. "금지됨" "L"은 이것이 마지막 규칙임을 의미합니다.

그런 다음 .htaccess 파일을 서버에 업로드하고 기존 파일을 덮어 씁니다. 시간이 지남에 따라 봇의 IP를 업데이트해야합니다. 오류가 발생하면 백업을 업로드하십시오.

send email