robots.txt 만드는 방법: GPT, GEMINI와 무분별한 크롤링을 하는 나쁜 봇을 막아보자

반응형

로봇이 여러분의 웹사이트를 어떻게 탐색하는지 신경 쓰신 적 있나요? 만약 그렇다면, robots.txt 파일을 설정하는 것이 얼마나 중요한지 아실 거예요. robots.txt는 사이트에서 어떤 부분이 검색 엔진 크롤러에 의해 크롤링되어도 좋은지, 또는 어떤 부분이 크롤링되지 않아야 하는지를 지정합니다.

이번 글에서는 워드프레스 사용자들이 robots.txt 파일을 쉽게 만들고 관리하는 방법을 소개하고, 이 파일을 사용해 SEO(검색 엔진 최적화)를 최적화하는 방법을 안내해드릴게요.

robots.txt 파일이 없으면 어떻게 될까요?

먼저, robots.txt 파일이 없어도 구글을 비롯한 대부분의 검색 엔진은 여전히 여러분의 사이트를 크롤링할 수 있습니다. 하지만 이 파일을 설정함으로써 크롤러에게 명확한 지침을 주어, 중요하지 않은 페이지는 크롤링하지 않도록 할 수 있죠.

예를 들어, 구글 웹마스터 도구를 통해 사이트맵 파일을 제출하지 않은 경우, 구글 크롤러는 robots.txt 파일에 정의된 XML 사이트맵 파일을 찾아 이를 기반으로 크롤링을 수행합니다. 따라서 크롤링 성능을 최적화하려면 이 파일을 설정하는 것이 좋습니다.

 

워드프레스에서 robots.txt 파일의 역할

워드프레스에서는 기본적으로 robots.txt 파일이 자동으로 생성됩니다. 브라우저에 https://yourdomain.com/robots.txt를 입력하면, 여러분의 사이트에서 어떤 페이지가 크롤링 가능하고 어떤 페이지가 차단되는지를 확인할 수 있습니다.

예시로, 워드프레스 사이트에서 기본적으로 설정된 robots.txt 파일은 다음과 같을 수 있습니다:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yourdomain.com/wp-sitemap.xml
  • User-agent: *는 모든 크롤러에게 적용되는 지침입니다.
  • Disallow: /wp-admin/은 관리자 페이지를 크롤링하지 말라는 의미입니다.
  • Allow: /wp-admin/admin-ajax.php는 관리자 페이지 내의 특정 파일은 예외로 두겠다는 의미죠.
  • Sitemap: https://yourdomain.com/wp-sitemap.xml은 크롤러에게 사이트맵 파일을 제공해주는 부분입니다.

 

robots.txt 파일 직접 만들기

워드프레스에서 robots.txt 파일을 자동으로 생성할 수 있지만, 직접 파일을 만들고 수정하는 것도 가능합니다. 이를 통해 필요한 페이지는 크롤링되도록 하고, 불필요한 페이지는 차단할 수 있죠.

 

  • User-agent: 검색봇 이름 지정
  • Disallow: 비허용
  • Allow: 허용
  • Crawl-delay: 크롤링 주기 (초단위 사용)
  • Sitemap: 사이트맵 주소 지정
  • / 기호: 모든 경로
  • # 기호: 주석 작성
  • * 기호: 모두를 의미
  • $ 기호: 특정 URL 경로나 파일 이름의 끝을 의미

robots.txt 파일 기본 작성법

robots.txt 파일은 간단한 텍스트 형식으로 작성되며, 크롤러의 지침을 설정합니다.

1. 모든 페이지 크롤링 허용

User-agent: *
Disallow:

2. 특정 폴더 크롤링 차단

User-agent: *
Disallow: /folder/

3. 구글 크롤러만 특정 페이지 크롤링 허용

User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/specific-page.html

위 예시처럼, 특정 크롤러나 파일에 대한 접근 허용 여부를 세밀하게 설정할 수 있습니다.

 

robots.txt 파일 설정 시 주의 사항

  1. 중요 페이지 실수로 차단 금지: 사이트에서 중요한 페이지를 실수로 크롤링하지 못하게 설정하면, 해당 페이지는 검색 결과에 노출되지 않게 됩니다. 따라서 설정할 때는 꼭 다시 한번 확인하는 것이 중요해요.
  2. 검색엔진별 설정 차이: 일부 검색 엔진은 robots.txt 파일의 지침을 완전히 따르지 않을 수 있습니다. 예를 들어, 악성 봇은 이 파일을 무시하고 크롤링을 강행할 수 있으니, 중요한 정보는 추가적으로 보호하는 것이 좋습니다.
  3. SEO에 미치는 영향: robots.txt 파일이 SEO에 직접적인 영향을 주지는 않지만, 크롤링을 허용하지 않으면 검색 결과에 노출되지 않기 때문에 간접적인 영향은 큽니다. 잘못된 설정으로 중요한 페이지가 노출되지 않는 것을 방지해야 해요.

 

봇(Bot)이란?

인터넷 봇(Internet bot), 웹 로봇(web robot), WWW 로봇(WWW robot), 단순히 봇(bot)은 인터넷 상에서 자동화된 작업(스크립트)을 실행하는 응용 소프트웨어입니다. 봇은 인간이 하는 행동을 흉내 내도록 만들어지며, 검색엔진의 웹 크롤러는 웹 사이트 정보를 자동으로 읽어들여 저장하는 프로그램입니다.

 

이외에도 인터넷 채팅에서 자동 응답을 하도록 만든 채터 봇 프로그램 등이 있으며, 각 서버는 봇이 따를 서버 규칙이 포함된 robots.txt라는 이름의 파일을 소유하고 있습니다. 일부 봇들은 악의적인 목적으로도 이용되기 하며, 자기 복제 기능을 가지기도 합니다.

 

GPT, GEMINI 유입 막는 방법

  • 구글에서 워드프레스 유입을 보면 GPT의 방문을 확인할 수 있어요.
  • GPT에서 검색 후 글을 작성하는 기능이 있기 때문에 내가 어렵게 작성한 글이 도둑맞는 기분이 들기도 합니다.
  • 또 내 블로그에 사람이 방문하지 않기때문에 광고 등 수입이 줄어들어 피해를 보기도 해요.
  • 많은 블로거 분들이 다양한 방법을 통해서 GPT 등의 유입을 막고 있습니다.
  • 아쉽지만 티스토리는 robots.txt 수정이 불가능하기 때문에 GPT 유입을 막을 수 없어요.

GPT봇 차단하는 방법

  • GPTBot의 사용자 에이전트 토큰: GPTBot
  • user-agent 문자열: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

robots.txt를 사용하여 GPTBot 차단

  • robots.txt를 사용하여 GPTBot이 내 사이트 전체 또는 일부에 접근을 차단할 수 있습니다.
  • 내 사이트의 robots.txt에 GPTBot이 액세스하지 못하도록 막고 싶은 경우 다음과 같은 코드를 robots.txt에 입력합니다.
User-agent: GPTBot
Disallow: /
  • GPTBot이 사이트의 일부에만 액세스하도록 허용하려는 경우 다음과 같은 GPTBot 토큰을 사이트의 robots.txt 파일에 추가할 수 있습니다.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

구글 제미나이(Gemini) 차단하는 방법

  • 2023년 9월, 구글은 제미나이(이전 명칭 Bard, 바드)와 Vertex AI가 사이트의 콘텐츠에 접근하는 것을 제어할 수 있는 새로운 "독립적인 제품 토큰"인 Google-Extended를 발표했습니다.
  • 구글 블로그 내용: 오늘 우리는 웹 퍼블리셔가 운영하는 사이트가 Bard와 Vertext AI 생성형 API(이러한 제품에 기반한 추후 생성형 모델 포함) 의 개선에 도움을 줄지 여부를 관리할 수 있도록 제어하는 새로운 Google-Extended를 발표합니다. 사이트의 콘텐츠에 대한 접근(액세스)를 제어하는 Google-Extended를 사용하여 웹 사이트 관리자는 이러한 AI 모델이 시간이 지남에 따라 더 정확하고 기능을 더욱 향상시키는 데 도움을 줄지 여부를 선택할 수 있습니다.(An update on web publisher controls)
User-agent: Google-Extended
Disallow: /
  • Google-Extended를 완전히 차단하려면 robots.txt 파일에 위 내용을 추가하면 됩니다.

 

 

검색봇 이름 (알파벳순)

  • 360Spider - 중국 Haosou
  • 360Spider-Image - 중국 Haosou
  • 360Spider-Video - 중국 Haosou
  • AdsBot-Naver: Naver (네이버)
  • AhrefsBot: Ahrefs
  • archive.org_bot: Internet Archive
  • Baidu Spider: 중국의 Baidu 검색 엔진 크롤러 봇.
  • BDCbot: Baidu Data Center (BDC)
  • Bingbot: Microsoft (Bing 빙)
  • Daum: Daum (다음)
  • Daumoa: Daum (다음)
  • DialogSearch.com Bot: DialogSearch.com
  • Digincore crawler bot: Digincore
  • DomainSigmaCrawler: DomainSigma
  • DotBot: dot.tk
  • DuckDuckBot: DuckDuckGo
  • Exabot: Exalead 검색엔진의 크롤러 봇.
  • Googlebot: Google (구글) - 공식명칭 ★
  • Googlebot-Mobile: Google (구글) 모바일 ★
  • HaosouSpider - 중국 Haosou
  • kisaBot: 한국 인터넷 진흥원 (KISA, Korea Internet & Security Agency)
  • Mail.RU_Bot: Mail.Ru Group
  • MediavBot: Mediavine
  • Mediapartners-Google: Google (구글)
  • msnbot-media: Microsoft (Bing)
  • NaverBot: Naver (네이버)
  • NeumobBot: Neumob
  • SemrushBot: Semrush와 같은 SEO 및 마케팅 도구의 크롤러 봇.
  • SeznamBot: 체코 및 중유럽 검색엔진 Seznam 크롤러 봇.
  • Slurp: Yahoo (야후)
  • Yhoo-Slurp: Yahoo (야후)
  • Yahoo! Slurp: Yahoo (야후) - 공식명칭
  • YandexBot: 러시아 검색엔진 Yandex 크롤러 봇.
  • Yeti: Naver (네이버) - 공식명칭 ★
  • ZumBot: ZUM (줌)

 

트래픽을 잡아먹는 나쁜 봇 리스트

  • User-agent: FemtosearchBot
  • User-agent: AhrefsBot
  • User-agent: TurnitinBot
  • User-agent: BLEXBot
  • User-agent: MJ12bot
  • User-agent: PetalBot
  • User-agent: Amazonbot
  • User-agent: Applebot
  • User-agent: YandexCalendar
  • User-agent: YandexMobileBot
  • User-agent: dotbot
  • User-agent: AwarioRssBot
  • User-agent: AwarioSmartBot
  • User-agent: Baiduspider
  • User-agent: SemrushBot
  • User-agent: BomboraBot
  • User-agent: Buck
  • User-agent: BLEXBot
  • User-agent: SeekportBot
  • User-agent: TurnitinBot
  • User-agent: Paqlebot
  • User-agent: grapeshot
  • User-agent: GeedoBot
  • User-agent: serpstatbot
  • User-agent: CriteoBot/0.1
  • User-agent: DataForSeoBot
  • User-agent: OpenindexSpider
  • User-agent: Baiduspider
  • User-agent: 360Spider
  • User-agent: Yisouspider
  • User-agent: PetalBot
  • User-agent: Bytespider
  • User-agent: Sogou web spider
  • User-agent: Sogou inst spider
  • User-agent: proximic
  • User-agent: ias_crawler
  • User-agent: ClaudeBot
  • User-agent: CCBot
반응형

Designed by JB FACTORY