챗GPT를 출시해 전 세계를 흥분시켰던 오픈AI가 이번엔 텍스트만으로 실사와 같은 영상을 만들 수 있는 생성형 AI 모델 ‘소라’를 공개해 다시 한 번 더 지구촌을 뜨겁게 만들고 있다.
지난 2022년 11월 30일 생성형 AI(Artificial Intelligence, 인공지능) 챗GPT를 출시해 전 세계를 흥분시켰던 오픈AI(OpenAI)가 이번엔 텍스트로 실사(實寫, Actual image)와 같은 영상을 만들 수 있는 텍스트투비디오(text-to-video) 모델 ‘소라(Sora)’를 공개해 다시 한 번 더 전 세계를 깜짝 놀라게 하고 있다.
지난 15일(현지시간), 오픈AI는 ‘소라’를 소개하는 글(Introducing Sora: Creating video from text)을 홈페이지에 게재하며, 테크니컬 리포트(Technical Report)와 함께 ‘소라’로 생성한 49개의 동영상’까지 공개했다.
앞서 설명한 것처럼 이 동영상들은 모두 ‘텍스트(Text, 글)’만으로 만들어 낸 것이다.
구체적으로 예를 들면, ‘소라’의 ‘프롬프트(Prompt) 창’에 아래와 같은 텍스트를 입력했더니,
“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”
(번역) 세련된 여성이 따뜻하게 빛나는 네온과 생동감 넘치는 간판으로 가득한 도쿄 거리를 걷고 있다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있다. 그녀는 선글라스를 착용하고 빨간 립스틱을 발랐다. 그녀는 당당하고 자연스럽게 걷는다. 젖은 거리는 다채로운 조명이 거울 효과를 만들어낸다. 많은 보행자들이 걸어 다닌다.
아래와 같은 동영상을 생성했다고 한다(물론, 동일한 프롬프트를 입력해도 매번 동일한 영상을 만들어 주는 것은 아니다).
영상: https://openai.com/sora
비록, 현재는 최대 1분 이내의 동영상만 생성할 수 있지만, 이런 과정으로 만들어진 영상을 본 대부분의 사람들은 “상당히 놀랍다”는 반응이다.
그리고 많은 사람들이 이 AI 모델을 언제쯤 일반인들에게 공개할지도 궁금해 했다.
그러나 광고, 영화, 드라마 등의 영상 산업(映像産業, Visual Industry)에 종사하는 사람들은 “이 기술이 곧 산업의 근간을 완전히 뒤집어 놓을 것”이라고 우려했다.
프롬프트 기술만 익히면 (1) 영상 지식이 전무한 일반인들도 (2) 그동안 수 많은 전문 인력과 비싼 장비로도 만들어 내지 못했던, 그리고 (3) 연출자(또는 기획자)가 상상하지도 못했던 기대 이상의 영상을 (4) ‘아주 저렴한 가격’에 (5) 뚝딱 만들어 낼 것이기 때문이다.
이렇게 된다면, 영상 산업 전반에서 종사하는 많은 사람들이 일자리를 잃게 될 것이다.
일각에서는 또 다른 이유로 이 모델에 대해 우려를 표명했다.
왜냐하면, ‘소라’가 현재의 딥페이크(Deepfake, 인공지능 기술로 기존 인물의 얼굴 등을 합성한 영상) 기술을 한두 단계 뛰어 넘은 퍼포먼스를 보여줬기 때문이다.
예상하겠지만, 이런 유(類, Type)의 기술은 범죄 등에 악용돼 사회를 더 혼란스럽게 만들 가능성이 높다.
이런 이유로, 오픈AI측에서도 ‘소라’를 위험기술(레드팀, Red Team, 조직이나 제품 등의 취약점을 발견해 이를 공격하는 역할을 하는 팀)로 분류해 이의 오용 가능성을 여러모로 검토하며 사용 권한도 제한된 소수의 인원들에게만 부여하고 있다고 한다.
물론 소라가 아직 완벽한 수준의 영상을 만들어 내는 것은 아니다.
예를 들면, 위 영상에서도 여성 뒤 지나가는 사람들의 움직임이 자연스럽지 못한 구간도 발견되기 때문이다.
그러나, 우리는 이미 챗GPT 발표 이후 거대언어모델(Large Language Model, LLM)을 비롯한 생성형 AI 모델들이 얼마나 빠른 속도로 발전하고 있는지를 직관 중이다.
물론 ‘소라’도 다른 생성형 AI 모델들의 발전 속도와 크게 다르지 않을 것으로 예상된다.
사람들이 열광하면 해당 기술은 빠르게 발전하게 돼 있다.
시장성(市場性, Marketability)이 확인됐기 때문이다.
그래서 이번에도 오픈AI가 쏘아 올린 ‘소라’로 인해 텍스트투비디오 모델을 개발 중인 다른 AI 기업들과의 경쟁도 훨씬 더 치열해질 것이다.
그리고 이와 관련된 다른 산업들의 기술들도 빠르게 발전할 것이다.
당연히 소라도 챗GPT 때처럼 우리가 경험해보지 못한 속도로 발전할 것이다.
그리고 이내 인간에게 노출되는 많은 영상들이 실제가 아닌 AI가 만든 가상 영상으로 대체될 것이다.
그래서 정부와 국회 차원에서의 발 빠른 대응이 필요하다.
현재처럼 제도가 현실을 따라가지 못하는 습성으로는 이로 인한 폐해에 선제적으로 대응하지 못할 가능성이 매우 높기 때문이다.
참고로, 소라(Sora)는 ‘하늘(空, そら)’을 의미하는 일본어다.
오픈AI측에서는 이에 대해 ‘무한하고 창의적인 잠재력’을 의미한다고 설명했다.
아무튼 ‘소라’의 공개로, 오픈AI는 명실공히 전 세계인들의 혁신을 선도하는 기업으로 자리매김한 것으로 보인다.
Executive Summary>>
Open AI, unveiled the text-to-video model Sora, surprising the world once again after ChatGPT in November the year before last.