구글 새로운 로봇 텍스트 가이드 공개

Robots.txt로 검색 엔진 크롤러 제어하기: 구글의 새로운 가이드

구글이 사용자와 SEO 전문가들이 Robots.txt 파일을 통해 검색 엔진 크롤러와 기타 봇(로봇.txt 규칙을 준수하는)을 제어할 수 있는 방법을 설명하는 새로운 가이드를 발표했다. 이번 새로운 문서는 특정 페이지 차단, 특정 봇 제한, 간단한 규칙을 통해 크롤링 동작을 관리하는 방법을 예시로 제공한다.


Robots.txt, 30년의 역사로 자리 잡은 웹 프로토콜

새로운 문서는 Robots.txt가 30년간 웹 프로토콜로 자리 잡았으며, 검색 엔진과 기타 크롤러들이 폭넓게 지원하는 안정적인 방식임을 강조한다. 만약 Robots.txt 파일이 없다면, 구글 서치 콘솔에서 404 오류 경고가 표시될 수 있지만, 이는 걱정할 필요가 없다. 경고 메시지는 30일 후 자동으로 사라지거나, 빈 Robots.txt 파일을 생성해 이 문제를 해결할 수도 있다. 이는 구글에서도 충분히 허용되는 방식이다.

구글은 이와 관련하여 “웹사이트 전부를 크롤링해도 괜찮다면 Robots.txt 파일을 비워두거나, 아예 생성하지 않아도 됩니다. 특정 크롤링을 관리하려면 규칙을 추가할 수 있습니다”라고 설명했다.


기본부터 고급 활용까지, 세부적인 관리 규칙 제공

이번 업데이트된 문서는 Robots.txt와 관련된 기본적인 개념에서 시작해 점차적으로 고급 기술로 확장되는 내용을 다룬다. 이를 통해 사용자와 SEO 전문가들은 Robots.txt를 활용하여 사이트 관리에 도움을 받을 수 있다.

특히 Robots.txt를 통해 제공되는 고급 사용 예시는 다음과 같다:

  • 특정 검색 엔진 크롤러에 다른 규칙 적용
  • PDF 및 검색 페이지처럼 특정 URL 패턴 차단
  • 특정 봇에 대해 세부적인 제어 제공
  • 내부 관리 목적의 주석 기능 지원

간단한 편집 방법과 확인 도구

Robots.txt 파일은 단순한 텍스트 규칙으로 작성되며, 기본 텍스트 편집기를 통해 손쉽게 편집할 수 있다. 또한, 많은 콘텐츠 관리 시스템(CMS)에서 Robots.txt 편집 기능을 제공하며, 파일이 올바른 문법을 사용하는지 확인할 수 있는 테스트 도구도 이용할 수 있다.

이번 문서는 Robots.txt 활용과 편집이 쉽고 유용하다는 점을 강조하며, 사이트 관리의 효율성을 높이는 방안을 제시한다.

출처 : 원문 보러가기