12월 6일(현지시간), 구글이 드디어 거대언어모델(Large Language Model, LLM)인 제미나이(Gemini)를 발표했다.
그동안 구글은 LLM(엘엘엠)인 ‘팜2(PaLM2)’를 기반으로 한 인공지능(AI) 챗봇 ‘바드(Bard)’로 오픈AI의 챗GPT(GPT-4)와 경쟁했었다.
지난해 11월 30일에 공개됐던 챗GPT(GPT-3.5 기반)보다 조금 늦은 올해 2월 6일 공개됐던 구글의 바드(Bard)는 챗GPT와 경쟁하기 위해, 지난 5월 10일 탑재됐던 LLM을 ‘람다(LaMDA)’에서 ‘팜2(PaLM2)’로 교체했었다.
그러나 이런 노력에도 불구하고, 구글의 ‘바드’보다 오픈AI의 ‘챗GPT’가 더 우수하다는 평가가 많았다.
이미지: 구글의 블로그 & Youtube Channel
주: 제미나이는 울트라(Ultra), 프로(Pro), 나노(Nano) 세 가지 버전으로 공개됐다. 이중 이번에 바드에 탑재된 것은 ‘프로(Pro)’이며, 가장 고성능인 ‘울트라(Ultra)’는 내년 초에 바드에 탑재될 예정이다. 그리고 ‘나노(Nano)’는 온디바이스(On-Device) 작업에 가장 효율적인 모델이다.
그런데 드디어 구글의 차세대 LLM인 ‘제미나이’가 공개됐고, 자연스럽게 그동안 바드에 탑재돼있던 팜2는 새로운 LLM으로 교체됐다.
이제 다시 한번 더 제미나이를 탑재한 바드와 챗GPT(GPT-4) 간의 잔인한 성능 비교가 시장에서 이루어질 것이다.
구글은 제미나이를 공개하며 이를 탑재한 바드가 챗GPT의 성능을 뛰어 넘었다고 밝혔다.
구체적으로 구글은 제미나이가 텍스트(Text)와 멀티모달(Multimodal) 항목들의 벤치마크 테스트에서, ‘일상 업무에 대한 상식적 추론’ 항목인 ‘HellaSwag’를 제외한, 모든 항목에서 챗GPT(GPT-4)를 앞선다고 발표했다.
특히, ‘텍스트’ 부문에서 제미나이 울트라(Ultra)는 ‘대규모 다중작업 언어 이해(Massive Multitask Language Understanding, MMLU)’ 테스트에서 90.04%의 정답률을 기록했다. 참고로 인간 전문가의 정답률은 89.8%라고 하며, 구글이 발표한 자료상 챗GPT의 정답률은 86.4%였다.
참고로 MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 과목의 조합으로 구성된 다학제적 지식과 문제 해결 능력을 측정하는 테스트이다.
더불어 구글은 멀티모달 부문에서도 “제미나이는 개발 초기 단계부터 다양한 모달리티에 대한 사전학습을 통해 설계됐기 때문에 기존의 멀티모달 모델들보다 훨씬 더 뛰어난 성능을 제공할 수 있다”고 설명했다.
이날 제미나이에 대한 시장의 반응은 매우 긍정적이었다.
그리고 이런 분위기를 반영하듯, 제미나이 공개 다음날인 7일(현지시간) 구글의 모회사(母會社)인 알파벳(Alphabet Inc.)의 주가가 5% 넘게 상승하기도 했다.
이때까지만 해도 드디어 구글의 바드가 오픈AI의 챗GPT를 앞서 간 것으로 생각하는 사람들이 많았다. 그리고 이후 오픈AI의 반격도 기대하게 만들었다.
그러나 이후 제미나이 공개 당시의 시연 영상이 ‘실시간’이 아닌 ‘편집본’인 것으로 드러나며 시장의 분위기가 차가워졌다.
이에 대해 美 현지 매체들은 ‘페이크(Fake, 조작)’라는 단어를 사용하며 구글을 비판하기도 했다.
대중들은 과연 제미나이의 실제 성능이 어느 정도인지 궁금해 하고 있다.
이에 대해 ‘챗GPT가 몰고 올 변화 1인 대기업’의 저자인 정도전 작가는 “구글이 지난 2월 6일, 바드 공개 시연회에서의 ‘오답 망신’이라는 트라우마를 아직도 극복하지 못한 듯하다. 현재 대부분의 LLM 유저들은 LLM의 한계를 어느 정도 인식하고 있다. 만약 구글이 시연 영상 아래에 ‘편집된 영상’이라는 한 마디(Disclaimer)만 표시했어도 이런 일은 일어나지 않았을 것 같아 아쉬움이 남는다”라며 이번 상황을 간단하게 분석했다.