WordPress Robots.txt: 최적화를 위한 설정 가이드
WordPress 사이트에서 Robots.txt 파일은 보통 눈에 잘 띄지 않는 곳에서 작동하지만, 기본 제공 파일은 상당히 단순하며 사이트에 최적화된 명령을 제공하지 못합니다. 이를 개선하면 불필요한 크롤링을 줄이고 사이트 검색 색인을 최적화할 수 있습니다.
WordPress Robots.txt 파일의 위치와 관리 방법
기본적으로 WordPress는 가상 Robots.txt 파일을 생성합니다. 사이트 설치 디렉토리에서 /robots.txt
를 방문하면 확인할 수 있으나, 이는 메모리에만 존재하며 서버에 실제 파일로 저장된 것은 아닙니다. 커스텀 Robots.txt 파일을 사용하려면, FTP 프로그램이나 관련 플러그인을 통해 설치 디렉토리의 루트 폴더에 업로드해야 합니다.
기본 WordPress Robots.txt의 한계
기본적으로 WordPress의 Robots.txt는 다음과 같은 형식으로 생성됩니다.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
이 설정 자체는 안전하지만 최적화된 상태라고 보기 어렵습니다. 추가 설정이 필요합니다.
반드시 포함해야 할 XML Sitemap
검색 엔진이 모든 관련 URL을 효과적으로 발견할 수 있도록 XML Sitemap을 명시적으로 추가하세요. 예시:
Sitemap: https://example.com/sitemap_index.xml
Sitemap: https://example.com/sitemap2.xml
차단하지 말아야 할 디렉토리
예를 들어 /wp-includes/
, /wp-content/plugins/
, /wp-content/uploads/
와 같은 핵심 WordPress 디렉토리는 차단하지 않아야 합니다. Google은 불필요한 파일을 스스로 무시할 수 있으며, CSS 및 JavaScript 차단은 사이트의 렌더링에 악영향을 미칠 수 있습니다.
스테이징 사이트 관리하기
SEO 및 보안을 위해 스테이징 사이트가 크롤링되지 않도록 설정하세요. 다음과 같은 로직으로 전체 사이트를 비활성화할 수 있습니다.
User-agent: *
Disallow: /
불필요한 WordPress 경로 정리
SEO 가치를 제공하지 않는 기본 경로는 다음 방식으로 제한할 수 있습니다.
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: */embed/
Disallow: /cgi-bin/
Disallow: /wp-login.php
특정 쿼리 매개변수 차단
가치가 낮은 쿼리 매개변수가 포함된 URL의 크롤링을 방지하세요.
User-agent: *
Disallow: /*?*replytocom=
Disallow: /*?*print=
저평가된 태그 및 내부 검색 결과 차단
태그 아카이브, 내부 검색 결과 페이지 등 SEO에 부가적인 가치를 주지 않는 URL은 다음과 같이 차단할 수 있습니다.
User-agent: *
Disallow: /tag/
Disallow: /page/
Disallow: /?s=
크롤링 데이터 모니터링의 중요성
Robots.txt 파일 적용 후 Google Search Console의 크롤링 통계를 모니터링하세요. 크롤링 통계를 검토하여 크롤러가 리소스를 낭비하지 않고 있는지 확인하고, URL 검사 도구를 통해 차단된 URL이 색인이 되었는지 여부도 확인하세요.
마무리
WordPress는 훌륭한 CMS 시스템이지만 기본 상태에서는 Robots.txt 및 크롤링 최적화 설정이 부족합니다. 단 몇 줄의 추가 코드로 사이트의 불필요한 크롤링 및 리소스 낭비를 방지하고 SEO를 극대화할 수 있습니다.
출처 : 원문 보러가기