본문 바로가기
바드 101

구글 바드란? 구글 스패로우란? 차이는?

by -Joy- 2023. 3. 14.

ChatGPT의 등장으로 AI 챗봇이 큰 인기를 끌고 있습니다. 마이크로소프트의 검색 엔진인 Bing에 ChatGPT를 적용한 것과 마찬가지로 구글 쪽에서도 자체 AI 챗봇을 접목시키고자 다양한 서비스를 개발하고 있습니다. 현재 가장 잘 알려져있는 서비스는 Bard(바드)와 Sparrow(스패로우)이며 두 서비스 모두 현재 베타 테스트를 거치고 있습니다. 본 글에서는 이 바드와 스패로우는 무엇이고 각각 어떤 특징이 있는지, 그리고 둘의 차이점은 무엇인지를 다루어 보도록 하겠습니다.
 

 
 

구글 Bard란?

요약

  • 구글이 개발 중인 AI 챗봇 서비스 중 하나 (빙 채팅, ChatGPT와 유사)
  • LaMDA 언어 모델 기반
  • 학습한 데이터와 실시간 인터넷 정보 검색을 기반으로 답변 생성
  • 답변에 대한 출처는 미 제공 (ChatGPT와 유사)

 
2022년 2월 6일, 구글의 CEO 순다르 피차는 구글이 곧 자사 검색 엔진에 ChatGPT와 같은 자체 AI 기술을 적용할 것임을 발표했습니다. 구글 바드(Bard)는 구글의 자회사인 인공지능 연구소 '딥마인드(DeepMind)'가 개발한 대화형 신경 언어모델 LaMDA(Language Model for Dialogue Applications)을 기반으로 한 인공지능 기술입니다. 바드는 Infiniset이라는 인터넷 콘텐츠 및 1조 5,600억개 단어로 된 공개 대화 데이터 및 웹 텍스트로 사전 학습을 받은 것으로 알려저 있습니다. Infiniset 데이터 세트에는 다음과 같은 내용이 포함되어 있습니다.
 

학습 데이터 유형 비중
공개 포럼 대화 데이터 50%
C4 데이터 12.5%
프로그래밍 Q&A 웹사이트, 튜토리얼 등의 코딩 관련 문서 12.5%
영어 위키백과 12.5%
영어 웹 문서 6.25%
비영어 웹 문서 6.25%

 
첫 번째 유형인 공개 포럼 대화 데이터의 경우 따로 언급되어 있지는 않지만 일반적으로 잘 알려져있는 공개 포럼형 사이트인 Reddit과 Quora 등이 포함될 것으로 보입니다. 두 번째 유형인 C4 데이터의 경우 오픈소스 데이터세트인 'Common Crawl'의 데이터를 기반으로 합니다. Common Crawl은 비영리 조직으로, 정기적으로 인터넷을 크롤링하여 AI 애플리케이션 교육에 사용할 수 있는 무료 데이터 세트를 제공하고 있습니다. C4 데이터 세트에는 다양한 웹사이트가 포함되어 있으며 그 중 상위 10개 웹사이트는 다음과 같습니다.
 

사이트명 URL
구글 특허 patents.google.com
위키피디아 en.wikipedia.org
뉴욕타임즈 www.nytimes.com
LA타임즈 www.latimes.com
더가디언 www.theguardian.com
플로스 저널 journals.plos.org
포브스 www.forbes.com
허프포스트 www.huffpost.com
Scribd www.scribd.com
워싱턴포스트 www.washingtonpost.com

 
바드는 ChatGPT와 같이 구글 측에서 주입한 데이터를 학습함과 동시에 인터넷 상의 최신 정보도 함께 사용하여 답변을 제공할 예정이라고 합니다. 바드가 사용자의 답변에 어떤 방식으로 답변할지에 대해 현재로서는 많이 알려진 것이 없긴 하나 구글 측에서 발표한 내용으로 조금이나마 짐작은 해볼 수 있습니다. 아래는 지난 2월 초에 구글이 대중에 공개하여 체면을 구겼던, "아홉살짜리 아이에게 얘기해줄만 한, 제임스 웹 우주망원경이 발견한 새로운 사실에는 뭐가 있을까?"라는 질문에 대한 바드의 답변 캡쳐이미지입니다. 바드가 실제로 대중에 공개되는 시점에는 UI가 많이 바뀌어있을 여지도 있지만 현재까지 알려진, 바드의 PC버전은 아래와 같이 생겼습니다.
 

바드 PC버전 사용 예시 (출처: 구글 The Keyword 블로그, 2023.02.06)

 
바드가 제시하는 답변의 정확성에 대해서는 (이미 이 일로 구글이 대대적으로 망신을 당하기도 했고, 이미 이 부분을 집중적으로 파고들고 있을테니) 논외로 놓고 그 외 기능만 살펴보면, 바드는 ChatGPT와 같이 답변에 대한 좋아요와 싫어요 버튼, 답변 재생성 버튼을 제공하고 있는 것으로 보입니다. 그리고 ChatGPT가 사용자의 질문에 답변할 때처럼 정보 출처를 제공하지는 않고 있습니다. 하단의 'Check it' 버튼도 눈에 띄는데 아직 이에 대해 알려진 것은 없습니다. 어쩌면 해당 버튼을 클릭하면 채팅 모드에서 검색 모드로 전환되면서 직접 검색을 통해 관련 정보를 확인할 수 있게 하는 걸수도 있겠습니다. 그리고 아래는 바드를 모바일에서 사용하게 되는 경우에 대한 예시입니다. 사용자가 요청사항을 질문 형태로 입력하면 바드는 그에 대한 답변을 채팅 방식으로 제공하고 있습니다. 아래 예시에서는 사용자가 "관측이 쉬운 별자리에는 어떤 것이 있나요?"에 대해 바드가 4개의 예시를 답변으로 제공하고 있습니다. 여기에서도, 적어도 아래의 캡처이미지만 보면 바드는 정보 출처를 따로 제공하지는 않고 있는 것으로 보입니다.
 

바드 모바일버전 사용 예시 (출처: 구글 The Keyword 블로그, 2023.02.06)

 
 
위 예시 2건과 같은 방식으로, 사용자가 질문을 하면 바드가 각종 정보 데이터를 활용하여 채팅 방식으로 답변을 제공할 것이라는 점은 이미 대중에 잘 알려져있는 ChatGPT 및 Bing과 비슷합니다. 2021년 데이터까지만 학습되어 있는 ChatGPT와는 다르게 구글의 실시간 데이터 세트를 기반으로 할 예정이라는 점 역시 Bing에서 이미 확인한 기술이라 새로운 것으로 들리지는 않습니다. 바드는 현재 베타 테스트 중이고, 테스트를 통과한 후 대중에 또는 적어도 언론에 공개되는 시점이 되어야 바드에 어떤 새로운 기능이 탑재될 것인지를 좀 더 구체적으로 알 수 있겠습니다. Bing과 같이 검색 결과 우측 등에 채팅창을 표시하고 사용자의 질문에 대한 답변을 함께 표시할 수도 있겠고, Bing과 같이 검색 모드와 채팅 모드를 별도의 탭 형태로 제공할 수도 있겠고, 또 다른 방식이 될 수도 있겠습니다. 다만, 구글의 입장에서 현재 가장 중요하게 보고 있는 것은 답변의 정확도이지 않을까 합니다. 위에서도 언급한 것과 같이 바드는 이미 지난 2월에 한 번 공개된 바 있으나 잘못된 답변을 제시하면서 큰 논란이 되었습니다. 이 사태로 바드는 구글에 약 218조 원에 육박하는 손실을 입히기도 했습니다. 구글 내부 직원들 역시 바드가 아직 제대로 준비되지도 않은 시점에 바드를 성급히 발표한 것에 CEO인 순다르 피차이를 강력히 비난하기도 했습니다. 바드가 정확히 언제쯤 대중에 공개될지 현재로서는 알 수 없지만, 구글은 아마도 바드를 '완벽히' 제품화할 준비가 되었다 싶을 때, 즉 어떤 쿼리에든 신뢰할 수 있든 답변을 제시할 수 있다 싶은 시점에 바드를 정식으로 내놓을 것으로 보입니다. 
 

구글 Sparrow란?

요약

  • 구글이 개발 중인 AI 챗봇 서비스 중 하나 (빙 채팅, ChatGPT와 유사)
  • Chinchilla 기반
  • 학습한 데이터와 실시간 인터넷 정보 검색을 기반으로 답변 생성
  • 답변에 대한 출처 제공 (Bing과 유사)

 
구글의 스패로우(Sparrow) 역시 위의 바드처럼, 그리고 ChatGPT처럼 사용자의 질문에 대해 답변을 생성해내는 AI 챗봇형 서비스입니다. 스패로우는 ChatGPT와 같이 훈련 과정에서 사람의 피드백을 받고 그에 따라 답변 방식을 조금씩 조정할 수 있으며, 실시간 인터넷에 접근하여 다양한 정보를 확인하고 그를 바탕으로 한 답변을 생성해낼 수 있습니다. 실시간 인터넷 정보를 활용한다는 점은 이미 Bing에 적용된 방식이기도 하며, 이를 통해 답변의 정확성을 향상시키는 방식을 채택하고 있습니다. 딥마인드 측에서 공개한 것에 따르면 현재 스패로우의 모습은 아래와 같습니다.
 

스패로우 사용 예시 (출처: 딥마인드, 2022.09.20)

 
스패로우는 답변을 제시할 때 답변 속 정보 출처를 함께 알려줍니다. 위의 캡처이미지에서 보시는 것과 같이 사용자의 질문에 대해 먼저 간단히 채팅형으로 답변을 제시한 후, 이어서 관련 정보의 출처를 나열해주는 방식이며 이는 바드(Bard)와는 대조되는 방식입니다. 
 
딥마인드에 따르면, 스패로우가 ChatGPT보다 나은점 중 하나는 맥락을 이해하는 능력에 있습니다. 스패로우는 '트랜스포머 기반 사전 학습' 방식을 사용하여 문장속 단어 간의 관계를 이해하고, 본 적 없는 단어가 포함되어 있어도 문장 전체의 의미를 파악할 수 있습니다. 스패로우는 기존 챗봇들보다 훨씬 더 그럴듯한 답변을 생성해낼 수 있도록 하기 위해 강화 학습 방식과 사용자 피드백 방식을 결합하는 형태를 취하고 있습니다. 사용자는 스패로우가 생성하는 여러 답변 중에 가장 정확하다고 생각하는 답변을 선택하고, 스패로우는 올바른 응답을 생성해낼 때까지 작업을 반복 수행하게 됩니다. 딥마인드에 따르면 이러한 방식으로 생성한 답변의 78%에서 '그럴듯하다'는 내부 평가를 받았습니다. 다만 스패로우에는 편향되거나 유해한 답변의 생성 위험을 줄이는 기능도 포함되어 있다고 하니 다른 AI 챗봇 대비 훨씬 안전한 이용은 가능해지겠지만, 답변을 받는 데에 일종의 제한은 있을 수 있겠습니다.
 
스패로우는 구글의 자회사 '딥마인드(DeepMind)'에서 개발한 Chinchilla 언어 모델을 기반으로 하며, 이 덕분에 ChatGPT 및 바드보다 비용 효율적인 운영이 가능하다는 점도 스패로우의 장점이 됩니다. 언어 모델 별 크기(파라미터 수)를 비교해보면 바드에 적용된 LaMDA는 137B, ChatGPT 공개 초기에 적용되었던 GPT-3은 175B, Gopher는 280B 등인 반면 스패로우에 적용된 Chinchilla의 크기는 70B 정도입니다. 가장 크기가 큰 Gopher와 비교해보면 1/4 수준입니다. 이렇게 크기가 작은 덕분에 Chinchilla는 다른 모델 대비 추론이나 미세 조정에 들어가는 비용이 적어질 수 있는 것이며, 예산이 다소 부족하거나 최신 하드웨어를 장만할 수 없는 중소기업, 대학 등에서 특히 유용하게 사용될 것으로 보입니다.
 

언어모델 별 크기 및 트레이닝 토큰 비교 (출처: 딥마인드, 2022.03.29)

 

바드와 스패로우의 차이점 정리

현재까지 알려져있는 구글 바드와 구글 스패로우의 차이점은 두 가지로 구분 됩니다.
 

1. 각기 다른 언어 모델 채택

바드와 스패로우는 각각 다른 언어 모델을 채택하고 있습니다. 바드에는 LaMDA가, 스패로우에는 Chinchilla가 적용되어 있습니다. 일반 사용자는 알 수 없지만, 각 기술이 뒷단에서 데이터를 수집하고 학습하거나 실시간 인터넷 정보를 불러오는 방식에는 차이가 있는 것입니다. 다만 알려진 바에 따르면 LaMDA보다는 Chinchilla가 같은 데이터를 처리하더라도 훨씬 비용 효율적으로 처리할 수 있다고 하는데, 실제 바드와 스패로우의 출시 시 각 서비스가 각각 어떤 특장점을 내세우는지 살펴보는 것도 재미있을 듯합니다. 스패로우는 중소기업과 대학 등 비교적 적은 예산으로 서비스를 구축하고자 하는 곳을 대상으로 접근하고, 바드는 구글 자사 제품 및 대기업 위주로 접근하게 될지도 모르겠습니다.
 

2. 답변 내 정보 출처 제공 유무 차이

스패로우는 사용자의 질문에 답변할 때 답변 속 정보의 출처를 함께 제공하는 반면 바드는 그렇지 않습니다. 이렇게 출처를 제공하는 기능 덕분에 스패로우는 한때 'ChatGPT 킬러'로 불리기도 했습니다. 물론 이미 마이크로소프트의 검색 엔진인 Bing(빙)에 해당 기능이 적용되어 대중에 오픈되었으니 더 이상 유효하지 않은 타이틀이기는 합니다. 실제로 스패로우와 바드가 정식 공개되는 시점에는 각 서비스가 어떤 방식으로 참조를 제공할지, 혹은 제공하지 않을지, 눈여겨봐야 하겠습니다.
 
두 서비스 모두 현재는 아직 베타 테스트 중이고 대중에게 공개되기 전이기에 정확한 차이점을 확인하는 것은 어렵습니다. 둘 다 구글의 자회사인 '딥마인드'에서 개발한 것이니 어쩌면 같은 회사에서 두 개의 유사한 서비스를 동시 오픈하려는 입장에서 둘의 차이를 더욱 명확히 할 수도 있겠고, 둘의 사용처를 아예 다르게 할 수도 있겠고, 두 서비스를 하나로 통합할 수도 있겠습니다. 다만, 이렇게 다른 웹사이트를 방문하지 않고도 정보를 얻을 수 있는 채팅형 서비스를 도입하는 순간 구글은 검색 광고에서 얻는 수익의 일부를 포기해야하는 상황을 맞게 됩니다. 구글은 당연히 이에 대한 대비를 하고 있을테고, 광고 수익을 안전하게 보장할 수 있는 방식으로 바드 또는 스패로우의 방향을 조금 선회하고 있을 수도 있겠습니다. 어떤 기능이 들어간 서비스가 되든, 바드든 스패로우든 구글 버전의 AI 챗봇은 '최소' ChatGPT만큼은 될 것으로 예상합니다. 경쟁사인 마이크로소프트보다 몇 개월이나 늦게 유사 서비스를 출시하게 되는 것이니 전세계인의 기대감이 어떨지는 구글이 가장 잘 알테니 말입니다.
 
 
 

댓글