Chat GPT 4 업그레이드, GPT-3.5 vs. GPT-4 차이는?

금일 새벽 2시 부로 챗GPT가 GPT-4 모델로 업그레이드 되었습니다. 접속 시 아래와 같은 메시지를 보여주고 있네요. 유료 서비스인 챗GPT Plus의 이용자에게만 우선 오픈 되었습니다. 이번 업그레이드로 달라진 점에는 무엇이 있는지 확인해 보겠습니다.

어려운 문제도 더욱 정확하게 해결

일상적인 대화에서는 GPT-3.5와 GPT-4의 차이가 크지 않아보일 수 있지만, 작업의 복잡성이 일정 수준을 넘어서면 차이가 확연해진다고 합니다. 방대해진 일반 지식 데이터와 향상된 문제해결 능력을 탑재하게된 이번 GPT-4는 기존 모델에서는 풀지 못했던 복잡하고 어려운 문제도 정확하게 풀 수 있게 되었습니다. 오픈AI사에 따르면 이 덕에 다양한 테스트에서 '인간 수준의 성능'을 보인다고 합니다. 모의 변호사 시험에서는 상위 10% (챗GPT는 하위 10%), 생물학 올림피아드 시험에서는 상위 1%(챗GPT는 상위 69%)에 들었다고 합니다.

다양한 모의시험에 대한 GPT-3.5와 GPT-4의 점수 비교 (출처: OpenAI, 2023.03.15)

추론 능력도 향상

GPT-4는 이전 모델보다 크기도 커졌습니다. 더욱 방대한 데이터 세트로 훈련되었다는 뜻이 됩니다. 이 덕에 추론 능력도 이전 모델 대비 향상되었습니다. 오픈AI사가 기존 챗GPT와 GPT-4의 추론 능력을 나란히 비교해놓은 것을 보면 GPT-4가 챗GPT를 훨씬 능가하는 성능을 보이는 것으로 나타납니다. 가상의 인물들의 업무 스케줄 상황을 나열하면서 이들이 함께 모여 회의를 할 수 있는 시간대 옵션을 제시해달라고 하니 챗GPT는 일부 인원이 참석할 수 없는 시간대를 알려준 반면 GPT-4는 전원 참석 가능한 시간대를 정확히 알려주고 있습니다.

멀티모달 방식으로 이미지 입력도 가능

GPT-3.5까지는 텍스트로 된 프롬프트만 입력이 가능했던 반면 GPT-4부터는 지난번 GPT-4 업그레이드 소식에서 언급했던 것처럼 멀티모달 방식이 도입되면서 텍스트는 물론이고 음성과 이미지 등도 받아들일 수 있게 되었습니다. 텍스트와 이미지로 구성된 프롬프트가 주어지면 GPT-4는 유저가 입력한 텍스트와 이미지를 동시에 해석하고 그에 대해 텍스트로 된 답변을 생성합니다. 사진은 물론이고 캡쳐이미지나 통계 그래프에 대해서도 챗GPT에게 해석을 맡겨볼 수 있겠습니다. 오픈AI사에서 제시하고 있는 예시는 아래와 같습니다. 음식 재료들이 여기 저기 늘어져있는 사진을 보여주면서 사진 속 재료로 어떤 음식을 만들 수 있냐고 했을 때 GPT-4가 팬케잌, 와플, 크레페 등 해당 지료들로 만들 수 있는 다양한 음식들을 알려주고 있는 모습입니다. 다만 3월 15일 현재는 이 기능이 잘 작동하는것 같지는 않아 보입니다. 아래 예시와 동일한 프롬프트를 입력하려면 유저가 사진을 직접 업로드할 수 있거나, 사진을 복사해서 대화창 안에 붙여넣을 수 있거나, 또는 이미지에 대한 URL을 입력하면 챗GPT가 인터넷에 접속하여 해당 이미지를 볼 수 있어야 하는데 아직은 업로드 버튼도 없고 붙여넣기도 안 되고 URL 제시 시에도 답변이 불가한 것을 보면 이 기능은 조금 더 기다려보아야 할 것 같습니다.

영어 외 언어에서도 성능 개선

기존에는 머신러닝의 성능 측정에 있어 대부분 영어를 사용해 왔기에, 이에 기반한 서비스들 역시 영어 버전에서 가장 우수한 성능을 보여왔습니다. 하지만 이번 GPT-4는 Azure의 번역 기능을 사용, 머신러닝 벤치마크를 다양한 언어로 번역하여 적용했다고 합니다. 이후 약 26개의 언어로 테스트를 진행한 결과, 26개 언어 중 24개 언어에서 GPT-3.5보다 성능이 향상되었다고 합니다. 여기에는 한국어도 포함되었습니다. 기존 GPT-3.5의 정확도 점수는 70.1%이었는데 이번 GPT-4의 점수는 77.0%로, 기존 대비 향상된 것으로 나타납니다.

GPT-4는 영어 외 언어에서도 성능이 개선되었습니다. — GPT-3.5와 GPT-4의 3-shot accuracy 비교 (출처: OpenAI, 2023.03.15)

제약사항

물론 위와 같이 다양한 방면에서 업그레이드가 되긴 했지만 GPT-4에도 기존 GPT 모델과 유사한 제약은 있습니다. 기존 모델을 보면 GPT가 간혹 '환각'을 일으키며 사실을 만들어내는 경우가 있었는데 이 점은 GPT-4에서도 동일하기에 답변의 신뢰성 문제가 여전히 존재하고 있습니다. 그래도 오픈AI사에 따르면 이전 모델과 비교하면 환각 부분도 많이 개선되었다고 합니다. 내부 적대적 사실성 평가 결과 GPT-3.5보다 GPT-4가 40% 정도 높은 점수를 받았다고 합니다.

물론 GPT 기술이 앞으로 넘어야할 산은 많지만 이러한 기술의 성능이 개선되는 데에 걸리는 시간은 점점 짧아지는 것 같습니다. 그만큼 여러 모로 인류의 삶을 더욱 빠르게 개선해나가는 데 유용하게 쓰일 날을 기다려 봅니다.

'챗GPT 101' 카테고리의 다른 글

디스코드(Discord)에 챗GPT 기술 접목 예정 (1)	2023.03.17
슬랙(Slack)용 챗GPT 출시 (0)	2023.03.16
챗GPT vs. 빙 (Bing), 어떤 걸 써야할까 (0)	2023.03.09
챗GPT가 책 요약을 해준다고요? 테스트해봤습니다 (0)	2023.03.07
챗GPT 명령어 Top 12! 가장 많이 쓰이는 키워드는 뭐다? (0)	2023.03.06

Chat GPT 4 업그레이드, GPT-3.5 vs. GPT-4 차이는?

어려운 문제도 더욱 정확하게 해결

추론 능력도 향상

멀티모달 방식으로 이미지 입력도 가능

영어 외 언어에서도 성능 개선

제약사항

'챗GPT 101' 카테고리의 다른 글

댓글

티스토리툴바

Chat GPT 4 업그레이드, GPT-3.5 vs. GPT-4 차이는?

어려운 문제도 더욱 정확하게 해결

추론 능력도 향상

멀티모달 방식으로 이미지 입력도 가능

영어 외 언어에서도 성능 개선

제약사항

'챗GPT 101' 카테고리의 다른 글

관련글

댓글

티스토리툴바