본문 바로가기
Bing 101

마이크로소프트 차주 GPT-4 공개 예정, 멀티모달 AI

by -Joy- 2023. 3. 12.

최근 많은 사람들이 사용하고 있는 대화형 인공지능(AI) 챗GPT가 인기입니다. 현재는 GPT-3.5버전이 적용되어 있는데 차주 중 다음 버전인 GPT-4가 출시된다고 하네요. 이번 글에서는 이 GPT-4에 대해 현재까지 밝혀진 내용과 관련 기술에 대해 살펴보도록 하겠습니다.
 

 

GPT-4, 다음주 출시 예정

마이크로소프트 독일법인의 기술책임자가 지난 3월 9일 'AI in Focus - 디지털 킥오프'라는 인공지능 관련 행사에서 밝힌 내용에 따르면 차주 중 GPT-4가 공개될 예정입니다. 이 모델에는 '멀티모달' 방식이 도입됩니다. 여기에서 '모달'은 인간의 시각, 청각, 촉각 등 '감각'을 의미하며 '멀티모달'은 이러한 다양한 감각을 동시에 받아들이고 사고할 수 있는 기술을 의미합니다. 인공지능이 멀티모달이 되면 기존에는 인간만이 읽고 이해할 수 있었던 언어의 체계를 기계 또한 '통계적으로(statistically)' 이해할 수 있게 됩니다. 또한 그 사이 기술 발전이 빠르게 진행되면서 다음 모델부터는 챗GPT를 거의 대부분의 언어로 이용할 수 있을 예정입니다. 예를 들어 질문을 독일어로 하더라도 답변은 이탈리아어로 받을 수 있는 것입니다. 이런 것들이 가능해질 이번 GPT-4 모델의 키워드는 '포괄적(comprehensive)' 입니다. 브라운과 함께 행사에 참여한 마이크로소프트 독일의 CEO 자닉은 이러한 인공지능 기술의 혁신과 챗GPT가 '아이폰 모먼트' 즉 아이폰이 처음 세상에 나왔던 당시 휴대폰의 쓰임새 자체를 완전히 바꾸어놓은, 일종의 '시대의 전환점'이 되었던 것과 같은 수준으로 세상을 바꿀 수 있을 것이라고 합니다. 다만 이러한 기술이 다양한 사업군에 미칠 영향에 대해서도 우려가 되는데, 자닉은 이에 대해 이렇게 설명했습니다.
 

인공지능은 단순히 인간의 일자리를 대체하는 것이 아닌, 반복적인 작업을 인간 대신 수행해주는 도구가 되어줄 것입니다. 혁신은 일자리의 상실만을 의미하는 것이 아니며, 이러한 인공지능 기술이 앞으로도 꾸준히 개발되려면 그만큼 많은 전문가가 필요할 것입니다. 기존의 직무들은 형태가 조금씩 바뀌게 되겠고, 그만큼 새롭고 흥미로운 전문 직무들이 등장하고 있습니다. 기업들은 가능하면 내부에 '역량 센터'를 만들어 직원들에게 인공지능 기술과 사용에 대한 교육을 진행하고 관련된 프로젝트 아이디어를 내놓게 하는 것이 좋을 것입니다. 물론 그 과정에서 직원의 불가피한 이동 등이 있을 수는 있겠습니다.

 

자닉은 '민주화(democratisation)'라는 단어를 사용하면서, 이번 모델이 애저(Azure)와 아웃룩, 팀즈 등 마이크로소프트의 다양한 제품군에 걸쳐 두루 이용될 예정이라는 점 또한 밝혔습니다. 애저의 경우 실제로 지난 3월 10일 챗GPT 프리뷰 서비스가 추가된 것으로 알려졌으며 이를 통해 개발자들은 기존 봇 개선, 콜센터 대화 요약, 개인 맞춤형 제안을 담은 신규 광고카피 생성, 자동 클레임 처리 등 다양한 상황에서 인공지능 프리뷰의 도움을 받을 수 있게 되었습니다.
 

출처: heise online 2023.03.09 'GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany'

 

멀티모달 AI?

기존 버전의 GPT 모델에서는 텍스트 인식만 가능했습니다. 사용자가 텍스트로 된 질문이나 요청을 입력하면 챗GPT가 그에 대해 텍스트로 된 답변을 제공하는 방식입니다. 하지만 멀티모달 AI가 적용되는 GPT-4부터는 텍스트 뿐아니라 음성과 이미지, 표정, 생체신호까지 받아들일 수 있으며 텍스트를 이미지와 음악, 영상으로 변환하고 반대로 이미지와 음악, 영상을 텍스트로 변환하는 것도 가능해집니다. 예를 들어 기존에는 콜센터에서 음성 통화 녹음본을 들으며 그 내용을 수동으로 타이핑해야 했던 반면 이 기술을 활용하면 더이상 수동 입력이 필요없어 집니다. 하루에 약 30,000통의 전화를 받는 회사라면 하루 500시간이라는 작업 시간을 절약할 수 있게 되는 것입니다. 이렇게 GPT-4 버전부터는 말로 된 언어 등을 처리하는 기술도 도입될 예정입니다.
 
챗GPT가 생성하는 답변의 정확도에 대한 질문도 나왔습니다. 이에 마이크로소프트는 이러한 인공지능 서비스가 항상 올바르고 정확한 대답을 하는 것은 아니니 다음 버전이 되더라도 반드시 답변에 대한 확인은 필요할 것이라고 했습니다. GPT 기술에 있어 일종의 '옥에 티'인 답변의 정확도가 떨어지는 문제에 대해 마이크로소프트 측에서도 정확히 인지하고 있는 것으로 보이며, 이를 위해 신뢰성 지표도 만들고 있다고 합니다. 다만 기업에서 GPT 기술을 도입하여 자사의 정보 데이터만을 입력해 이용하고 있는 경우에는 정확도 측면에서 큰 문제가 없는 것으로 보입니다.

 

국내 유사 기술은?

국내의 유사한 기술로는 'LG AI연구원'이 개발, 2021년 공개한 AI ‘엑사원’이 있습니다. 엑사원은 텍스트와 이미지를 양방향으로 인식할 수 있는 멀티모달 AI입니다. 예를 들어, 사용자가 '세련된 거실 인테리어'라는 키워드를 입력하면 이에 맞춘 인테리어 이미지를 생성해주고, 반대로 인테리어 이미지를 보여주면 어떤 특징이 있는 인테리어인지를 설명해줍니다. LG는 서울대 AI 대학원과 함께 'SNU-LG AI 리서치센터'를 설립해 현재 관련 연구를 지속하고 있으며 텍스트와 이미지, 도표, 그래프, 동영상, 촉각 정보 등 인간의 다양한 감각에 대한 데이터를 인공지능이 이해할 수 있게 하는 각종 연구를 수행하고 있습니다. 향후 GPT-4가 출시되면 이렇게 언어모델을 넘어선 멀티모달 모델이 계속해서 등장할 것이고 당분간은 이러한 멀티모달형이 업계의 대세로 자리잡게되지 않을까 합니다.

 

 

 

댓글