본문 바로가기
바드 101

구글은 인공지능이 만든 콘텐츠를 싫어할까?

by -Joy- 2023. 2. 28.

챗GPT, 뤼튼, 재스퍼 등 인공지능을 통해 빠른 콘텐츠 생성을 가능하게 하는 서비스들이 급증하고 있습니다. 이번 글에서는 이렇게 AI가 작성하는 글에 대한 구글의 입장이 과거부터 최근까지 어떻게 변화하고 있었는지 추적해 보는 시간을 마련해 보겠습니다.

 

 

콘텐츠 스피너 vs. 이를 막으려는 구글

네이버나 구글 등에서 검색을 하다보면 가끔 말이 안되는 콘텐츠들이 튀어나오는 경우를 보셨을 겁니다. 분명히 우리 말로 써있는데 (혹은 영어 등 어떤 언어로 보더라도) 문법이 맞지 않을 뿐아니라 맥락을 읽을 수도 없는, 그냥 단어들의 랜덤 조합으로 보이는 글들 말입니다. SEO쪽에서 '블랙 해트' 전략이라고 말하는, 다양한 웹페이지에서 아무 문장이나 무작위로 가져와 내용을 무작위로 섞어 새로운 글을 창조해내는 방식으로 만들어진 콘텐츠입니다. 이 전략이 처음 유행을 타던 시기만 해도 기술적 제약이 있어 콘텐츠의 퀄리티가 조악했던 것이지만, 어떻게 보면 챗GPT와 같은 콘텐츠 창작 서비스의 조상님격이라고 볼 수도 있겠습니다.

 

구글이 2020년 11월 경 업데이트한 웹마스터 가이드라인을 보면 이미 구글 측에서는 '자동 생성된 콘텐츠(Automatically generated content)'를 사용하면 안 된다고 명시했으며 구글은 줄곧 이러한 콘텐츠를 반대하는 입장이었습니다.

2020.11.12 구글 웹마스터 가이드라인 (출처: 구글 / 웨이백머신)

 

하지만 당시 이 '블랙 해트' 전략으로 생성된 자동 콘텐츠들은 기승을 부렸습니다. 구글과 같은 검색엔진이 이들을 걸러내는 방식 또한 조악하고 빈약했기 때문입니다. 이후 단순히 단어를 무작위로 조합해서 새로운 콘텐츠를 만들어내고자 했던 방식은 점차 인공지능의 딥러닝을 통한 자연어 콘텐츠 생산 방식으로, 그리고 구글과 같은 검색엔진은 유저들에게 더욱 나은 검색 경험을 제공하고자 기계가 생산하는 콘텐츠를 최대한 잘 걸러내는 방식으로 진화해 갑니다.

 

SMALL

 

"AI가 생산하는 콘텐츠는 지양"

딥러닝 기반의 인공지능이 생산하는 콘텐츠는 나날이 퀄리티가 높아져 갑니다. 인공지능이 학습을 위해 사용하는 데이터의 양도 기하급수적으로 상승했으며 실제로 챗GPT의 할머니격인 GPT-1은 117백만 개의 파라미터를, 어머니격인 GPT-2는 15억 개의 파라미터를, 현 챗GPT에 적용되어 있는 GPT-3는 1,750억 개의 파라미터를 이용했다고 합니다. 학습한 데이터의 양이 늘면서 이러한 서비스가 생산해내는 콘텐츠는 더욱 자연스러워졌습니다.

 

챗GPT가 일반인에게 공개되기 전인 지난 4월 1일, 존 뮐러라는 구글의 검색광고 전문가 분이 이런 인공지능이 생산해내는 콘텐츠에 대한 구글 측의 공식 입장을 처음 밝혔습니다. 당시 이 분은 인공지능이 생산한 콘텐츠는 구글의 웹마스터 가이드라인에 명백히 어긋나는 것이고 구글은 '인공지능 콘텐츠를 명백히 반대한다'고 했습니다.

 

당시 확인된 구글의 입장은 아래와 같았습니다.

  • 구글의 검색 알고리즘과 인공지능이 생산한 콘텐츠로 도배한 웹사이트 간에 치열한 전투가 벌어지고 있다
  • 구글은 인공지능이 생산해내는 SEO 스팸성 콘텐츠를 원치 않는다
  • 구글은 인공지능이 생산한 콘텐츠를 구글의 정책을 위반한 것으로 판단한다

 

"스팸성 콘텐츠는 지양"

하지만 이후 이분의 발언에 대해 SEO 관련 커뮤니티에서 많은 (조금은 부정적인) 의견들이 오갔고, 4월 12일 경 구글은 가이드라인 속 표현을 조금 수정합니다.

2022.04.12 구글 웹마스터 가이드라인 (출처: 구글 / 웨이백머신)

 

4월 11일까지만 해도 '자동 생성된 콘텐츠(Automatically generated content)'라고 되어있었던 항목이 4월 12일부터는 '검색 순위를 조작하려는 의도로 자동 생성된 콘텐츠(Automatically generated content intended to manipulate search rankings)'로 바뀝니다. 이후 위 페이지들은 '구글 검색 센터'로 옮겨갔고, 현재는 '자동 생성 스팸 콘텐츠(Spammy automatically-generated content)'라는 표현으로 바뀌어 있습니다.

 

 

위의 가이드라인만 보면 이제 구글은 '자동으로 생성된 콘텐츠'라면 무조건 막고 있지는 않고 위에 명시된 스팸 유형으로 판단되는, 사람을 위한 콘텐츠가 아닌 것으로 보이는 콘텐츠에 한해서만 막고 있습니다. 지난 4월 경 자동 생성 콘텐츠 전반을 반대하는 입장을 표명한 존 뮐러도 연말에 가서는 입장을 바꾼 것으로 보입니다.

제목과 설명을 만들어내는 데에 AI를 사용하는 것이 올바른 접근법인지는 모르겠지만, 아이디어가 부족하거나 콘텐츠들이 검색 결과에서 잘못 노출되고 있는 상황이라면 새로운 영감을 얻기에 괜찮은 수단이 될것으로 보입니다. 하지만 사용자를 고려하지 않고 SEO 목적으로만 콘텐츠를 생성하는 AI를 무분별하게 사용하는 것은 강력히 막고 싶습니다: 당신이 만든 콘텐츠의 독자를 가장 잘 아는 것은 당신이기 때문입니다.

방문자를 대상으로 하는 간단한 설문조사를 추가해 보는 것은 어떨까요? "이 페이지에 가장 적합한 제목은 무엇인가요? A / B?"

 

구글이 지향하는 콘텐츠가 따로 있을까

위의 내용을 보면 구글이 어떤 콘텐츠 유형을 거부하는 입장에 있는지 알 수 있습니다. 그럼 반대로 구글이 지향하는 콘텐츠 유형도 따로 있을까요? 물론입니다. 구글 검색 센터에 따르면 콘텐츠 제작자가 어느정도 따르면 좋을 권장사항은 있습니다. 내용은 아래와 같습니다.

 

1. 유용하고 신뢰할 수 있는 사용자 중심 콘텐츠 제작하기

  • 콘텐츠를 자체 평가하고 내가 제작한 콘텐츠가 유용하고 신뢰할 수 있는지 판단하기
  • 전문성과 깊이 있는 지식이 명확하게 드러나고, 목적이 있으며, 사용자가 만족스러운 경험을 했다고 느낄 수 있는 사용자 중심 콘텐츠에 집중하기
  • 검색엔진에서 방문을 유도하고 순위를 높이고자 하는 검색엔진 중심 콘텐츠 만들지 않기
  • 경험, 전문성, 권위, 신뢰성(E-E-A-T)이라는 네 가지 덕목을 갖춘 콘텐츠 만들기

2. 콘텐츠에서 '누가, 어떻게, 왜'에 관해 질문하기

  • 사용자 입장에서 누가 콘텐츠를 작성했는지 명확하게 알 수 있게 하기
  • 콘텐츠가 어떻게 작성되었는지 알 수 있게 하기
  • 콘텐츠를 왜 만든 것인지 알 수 있게 하기

 

요약해보면, '방문자의 입장에서 가치 있다고 느낄 수 있는 콘텐츠'를 잘 만들어내면 되는 것으로 보입니다. AI의 도움을 받았건 받지 않았건, 사이트에 방문한 유저가 유용하게 사용할 수 있는 콘텐츠인지, 사이트에 방문한 유저 입장에서 일정 수준 이상의 퀄리티를 느낄 수 있는 콘텐츠인지, 작성자가 본인이 직접 알게 되었거나 경험한 내용을 토대로 본인만의 이야기를 담아 만든 본인만의 콘텐츠인지, 사이트 자체에 한 가지의 명확한 목적성 또는 방향성이 있는지를 고려하여 콘텐츠에 가치를 담으면 되겠습니다.

 

 

 

 

 

댓글