robots.txt로 내가 쓴 블로그 글 AI 학습 방지 하는법 (챗gpt, 제미나이)

챗GPT나 구글 제미나이 등 수많은 거대 언어 모델(LLM)들이 등장하고, 계속 발전하고 있습니다. 이 모델들은 인터넷에서 정보를 수집해 학습합니다. 그리고, 이렇게 학습한 결과를 바탕으로 생성하죠. 하지만, 몇 가지 문제점이 있습니다. 첫째, 작가의 동의 없이 무단으로 AI 학습에 이용한다는 점. 둘째, 학습 자료로 사용된 글과 매우 유사하게 출력되다는 점이 있습니다. 이는 챗GPT 및 빙 검색엔진의 코파일럿에서 실시간 웹 검색 기능을 키면 명확하게 확인 가능합니다.

이렇게 생성된 내용을 이용해 블로그 글을 적어 수익을 창출하는 경우도 있습니다. 하지만, 구글은 비슷한 콘텐츠가 많이 존재할 경우 글을 검색엔진에서 누락시키는 경향이 있습니다. 또한, 네이버는 복제된 글이 상위 노출되는 등의 문제도 있습니다. 이와 같은 이유로 블로그 운영자라면 금전적인 손해를 최소화하기 위해서라도 AI 학습 방지를 위해 최선의 노력을 할 필요가 있습니다.

다행히도 챗GPT의 개발사 OpenAI와 Google은 창작자의 의지를 존중해 AI가 웹 페이지를 크롤링 하는 것을 거부하는 코드를 추가했습니다. 이는 웹사이트 robots.txt 파일에 규칙을 추가하는 방식으로 작동합니다. 지금부터 워드프레스에서 어떻게 AI 학습 방지 규칙을 추가하는지 알아봅시다.

컴퓨터 작업하는 ai

챗GPT AI 학습 방지 태그

OpenAI가 발표한 GPTbot을 차단하기 위한 robots.txt 공식 표준입니다. 아래 규칙을 robots.txt 파일에 추가해 OpenAI의 웹 크롤러가 웹사이트에 접근해 학습하는 것을 방지할 수 있습니다.

User-agent: GPTBot
Disallow: /

User-agent는 규칙을 적용할 사용자 에이전트를 의미하고, 여기에 GPTBot를 입력하는 것으로 GPTBot만을 대상으로 규칙을 지정할 수 있습니다. 그 아래 Disallow: /는 모든 경로의 크롤링을 차단을 의미합니다.

User-agent: ChatGPT-User
Disallow: /

또한, 다음 규칙은 OpenAI에서 발표한 ChatGPT-User를 차단하기 위한 robots.txt 공식 표준입니다. ChatGPT-User는 챗GPT의 플러그인에서 사용됩니다. 예를 들어 브라우저 검색 기능을 통해 사용자의 질문에 실시간 답변을 생성할 때 사용됩니다.

아래는 GPTBot과 ChatGPT-User의 사용자 에이전트 토큰문자열입니다.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
User agent token:
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

아래는 GPTBot과 ChatGPT-User의 IP 송신 범위입니다. 2024년 2월 14일을 기준으로 작성되었으며 추후 변경될 가능성이 있습니다.

52.230.152.0/24
52.233.106.0/24
23.98.142.176/28
40.84.180.224/28
13.65.240.240/28

구글 제미나이 AI 학습 방지 태그

Google에서 발표한 구글 제미나이를 차단하기 위한 robots.txt 공식 표준입니다. 아래 규칙을 robots.txt 파일에 추가해 Google의 AI 학습 에이전트가 웹사이트에 접근해 학습하는 것을 방지할 수 있습니다.

User-agent: Google-Extended
Disallow: /

Google-Extended는 ‎Gemini 및 Vertex AI 생성형 API를 학습하는 데 사용되는 독립한 제품 토큰입니다. 단, 구글 검색 시 나타나는 AI 검색 결과(SGE)에 사용되는 것은 별도로 거부할 수 없습니다.

워드프레스에서 robots.txt 편집하는 방법

워드프레스 플러그인 추가

SEO 플러그인 중 하나인 Yoast SEO에서는 robots.txt 편집 기능을 지원합니다.

워드프레스 관리자 페이지에서 플러그인, Add New Plugin을 클릭하세요. 그런 다음 Yoast SEO 검색해 지금 설치를 클릭하고, 활성 버튼을 눌러 활성화하세요.

요스트seo robots txt 편집

이 플러그인을 활성화하면 관리자 페이지에 Yoast SEO라는 항목이 추가됩니다. 이를 클릭하고, Tools을 선택하세요. 다음으로 File editor를 클릭하면 robots.txt를 편집할 수 있는 항목이 나옵니다.

여기에 앞서 소개한 AI 학습 방지 규칙을 붙여넣기하고, Save Changes to robots.txt를 클릭해 변경사항을 저장할 수 있습니다. 변경사항이 저장되었는지 확인하고 싶다면 브라우저 주소 바에 웹사이트주소/robots.txt를 입력해보세요. 단, robots.txt 부분은 반드시 소문자로만 입력해야 합니다.

만약 WP Rocket과 같은 캐시 플러그인을 사용 중이거나 클라우드플레어 같은 CDN 서비스를 이용 중이라면 변경사항이 바로 적용되지 않을 수 있습니다. 이 경우 캐시 초기화를 해 변경사항을 바로 적용할 수 있습니다.

랭크맵스 설정

Yoast SEO와 함께 많이 사용되는 SEO 플러그인인 랭크맵스에서도 관련 기능이 있습니다. 이 플러그인을 사용 중인 경우에는 워드프레스 관리자 페이지로 이동하고, Rank Math 검색엔진 최적화를 클릭하세요.

다음으로 일반 설정 > Robots.txt 편집을 선택해 Robots.txt 파일을 편집할 수 있습니다.

AI 저작권 침해로부터 권리를 보호하는 방법

컴퓨터에서 파일을 훔치는 로봇 벡터 그림

이와 같은 방법으로 AI 학습을 거부하더라도 사람이 직접 수작업으로 챗GPT와 같은 LLM 서비스에 복사, 붙여넣기해 프롬프트로 사용하는 것은 막을 수 없습니다. 하지만, 이는 명백한 저작권 침해로 자신의 글이 AI 도구를 사용해 저작권 침해 당했다면 적극적으로 고소할 필요가 있습니다.

챗GPT를 사용해 변형한 경우 고유한 문맥이나 글의 진행 방식에 있어 원글과 유사하고, 이러한 글이 여러 개에서 수십 개 있을 경우 저작권 침해로 고소할 수 있습니다. 고소가 부담된다면 현재 피해를 받고 있다면 한국 저작권 협회에 문의하여 저작권 상담이나 분쟁 조정 등 도움을 받아보세요.

정보킹

정보킹은 2021년부터 IT 인터넷과 게임 관련 기사를 작성하고 있는 프리랜서 작가입니다. 구독자 2만 4천의 유튜브 채널을 보유하고 있고, 게임 및 IT에 관련된 모든 내용을 다룹니다. 또한 인공지능(AI)과 관련된 기사도 작성하고 있습니다.

답글 남기기