음성으로 대화하는 오픈AI의 GPT-4o, 새로운 형태의 플래그십 언어모델?

Date

오픈AI(OpenAI)가 인간의 음성으로 대화하는 ‘GPT-4o(지피티-포오)’ 모델를 전격 공개했다.

지난 5월 13일(현지시간) 오픈AI가, 텍스트투텍스트(Text to Text, 문자로 묻고 문자로 대답하는 GPT 모델)를 넘어, 인간의 음성으로 대화하는 ‘GPT-4o’를 전격 공개했다.

GPT-4o는 GPT-4에 영어 단어 옴니(Omni, ‘모든 것’, ‘모든 방식’, ‘어디에나 존재하는’의 의미)의 “o”를 붙여 만든 이름이다.

GPT-4o는 간단하게 말하면 ‘세 가지 AI 모델’을 결합한 모델이다.

구체적으로 우선 (1)화자(話者, Speaker)의 오디오(음성)를 텍스트로 변환하는 모델, 그리고 (2)이렇게 변환된 텍스트에 대해 텍스트로 출력(응답)하는 모델(즉, GPT-3.5 또는 GPT-4.0), 마지막으로 (3)이렇게 출력된 텍스트(응답)를 오디오(음성)로 재변환(再變換, Reconvert)해서 출력하는 모델이다.

오픈AI는 홈페이지유튜브 스트리밍을 통해 GPT-4o를 ‘새로운 유형의 플래그십 언어모델’이라고 표현하며, 기존의 GPT-4 모델과 차별화된 기능들이 추가됐다고 밝혔다.

그러면서 (a)텍스트는 물론 이미지, 오디오 등 다양한 형태의 데이터를 처리할 수 있는 멀티모달(Multi modal) 기능 추가와 (b)외부 API(Application Program Interface, 응용프로그램 인터페이스) 호출을 통한 기능 확장(Function Call 기능) 등을 예로 들었다. 

참고로 (a)에는 이미지 정보를 분석 및 설명할 수 있는 기능(Vision)과 데이터의 이해 및 분석 능력을 토대로 한 비즈니스 인사이트 제공 기능이 포함된다. 

오픈AI의 CTO(Chief Technology Officer) MIRA MUATI는 유튜브 스트리밍을 통해 ‘이 모델이 GPT-4 터보(Turbo)보다 2배 더 빠르고, 비용은 절반 수준’이라고 강조했다.

그리고 5월 13일 이 스트리밍을 본 시장의 반응은 매우 뜨거웠다.

‘드디어 AGI(Artificial General Intelligence, 인공일반지능, 일반인공지능, 또는 범용인공지능)가 개발됐다’는 반응도 나왔다.

이 모델이 아직 시장에 공개된 것은 아니지만 그래도 ‘자연스럽게 인간과 음성으로 대화를 할 수 있다는 것’에 대해 시장은 놀랍다는 반응을 내놓았다.

여기에서 ‘자연스럽게’는 GPT-4o가 인간과 유사한 음성(Tone)으로 ‘인간과 유사한 시간 내에 응답’한다는 의미이다.

실제 GPT-4o가 인간의 ‘음성’에 음성으로 응답하는 시간은 평균 320밀리초(최소 232밀리초)라고 오픈AI가 밝혔다.

참고로 챗GPT(GPT-3.5)의 응답 시간은 평균 2.8초, GPT-4는 5.4초였다고 한다. 

 

그러나 이 모델이 기존 모델의 업그레이드 수준에 불과하다는 의견도 있다.

즉 기존 모델의 일부 성능을 업그레이드한 것이지 ‘새로운 유형의 언어모델’이라는 표현은 조금 과하다는 견해다.

왜냐하면, ‘인간과 음성으로 대화하는 것’외에는 새로울 것이 없기 때문이다.

예를 들면, 멀티모달 기능도 챗GPT(Chat GPT) 출시 이후 지속적으로 언급됐던 것들이기 때문이다.

물론, 지금까지 이런 것들이 대중에게 제대로 공개된 적은 없었다.

그래서 오픈AI의 이번 발표를 역시 기존의 마케팅 활동의 연장선상에서의 마케팅 활동일 뿐이며 3개월 전 구글의 제미나이(Gemini) 홍보 영상과 다를 것이 없다고 말하는 사람들도 적지 않다.

 

사진: OpenAI, MIRA MUATI Chief Technology Officer  

 

 

Executive Summary>>

Open AI’s GPT-4o, a new type of flagship language model that communicates through voice?

 

The market’s response to the release of GPT-4o, which communicates with humans through voice, was very enthusiastic. However, some view this AI model as a kind of marketing show.

 

spot_imgspot_img

Popular

Share post:

Subscribe

More like this
Related

트럼프 美 제47대 대통령 선거 승리, 주류 언론의 예측처럼 박빙은 아니었다.

미국 공화당 대통령 후보 도널드 트럼프 전 대통령이 이번...

그데 뉴스: IMF 올해 마지막 경제 전망, 내년 우린 2.2%(직전 전망比 0.17%p↓), 세곈 3.2%(0.01%p↑) 성장

(그래픽·데이터 뉴스) 국제통화기금이 내년 우리나라의 경제 성장률을, 지난 4월...

그데뉴스: 통계로 살펴본 고령자 교통사고

(그래픽·데이터 뉴스) 최근 몇 년간 고령자(65세 이상) 교통사고가 크게...

President Yoon may Exercise Veto over Two Special Prosecutor Bills and the Local Currency Bill

President Yoon hinted that he may Exercise his Veto...

여객선社, 전기차 충전율 50% 넘으면 선적 제한? 이게 최선인가?

충전율이 50%가 넘는 전기차는 여객선 선적이 제한될 수 있습니다. 국내...

최근 2년간 음주운전 적발 13만 건, 코로나19 前인 2019年 수준으로 복귀, 처벌이 약해서?

코로나19로 감소했던 음주운전 적발 건수, 최근 2년간 코로나19 발생...

심하면 음주운전만큼 위험하다는 선팅, 그러나 국민 안전을 완전 자율에 맡긴 정부와 국회

심하면 음주운전만큼 위험하다는 자동차 선팅, 관련 법령(도로교통법, 자동차관리법)들 간 규제...

그데 뉴스: 우리나라 뉴스 신뢰도 1위는 2년 연속 MBC, 꼴지는 4년 연속 조선일보

(그래픽·데이터 뉴스) 로이터저널리즘연구소에 따르면, 우리나라 언론 매체 중 MBC의...