OpenAI의 Sora를 비롯한 동영상 생성형 AI 최근 동향

2024-04-03 장종원 작가

지난 2월 OpenAI가 Sora라는 동영상 생성 AI 서비스를 공개했습니다. 마치 사람이 만든 것처럼 매끄럽고 자연스러운 모습을 구현해 많은 주목을 받았습니다. 사실 이전에도 Sora와 같은 동영상 생성 AI 서비스는 존재했습니다. 그런데 Sora가 이토록 주목받는 이유는 뭘까요? 어떤 게 다른 서비스들과는 차별화되는 부분일까요? 오늘은 이 내용에 대해 살펴보겠습니다. 그리고 Sora에 대적할 만한 동영상 생성형 AI 서비스가 있는지 최근 동향에 대해 함께 살펴보겠습니다.

Sora, 어떤 서비스일까?

Sora는 챗GPT의 동영상 버전이라고 보시면 됩니다. 원하는 모습의 동영상을 텍스트로 입력하면 그에 맞게 영상이 제작되죠. 여기서의 텍스트를 프롬프트라고 하는데, AI에게 무언가를 명령할 때 사용하는 말이나 질문입니다. 예를 들어, Sora에 ‘도쿄의 밤거리를 걷는 스타일리시한 여성이 나오는 동영상을 만들어줘’라고 프롬프트를 작성해 볼 수 있는 거죠. 그럼 아래와 같은 동영상이 나옵니다. 아래 동영상은 실제로 Sora를 통해 제작된 결과물입니다.

출처 | OpenAI 인스타그램

사용된 프롬프트는 아래와 같습니다.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

대략 번역해서 설명드리자면, 도쿄 밤거리를 걷는 여성이 등장하는데 주변은 각종 간판이 배치되어 있고 여성은 검은색 가죽 재킷과 빨간 긴 드레스를 입고 있는 등 주변 환경과 피사체에 대해 매우 자세하게 표현이 되어 있습니다. 이처럼 자세하게 표현하면 할수록 원하는 동영상이 나올 가능성이 높습니다. 다른 동영상도 살펴볼까요?

출처 | OpenAI 인스타그램

이 동영상에 사용된 프롬프트는 아래와 같습니다.
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

번역해서 설명드리면, 해당 동영상은 영화 트레일러 콘셉트이며, 30살의 우주비행사가 등장하는데 이 우주비행사는 빨간색 울로 짜인 오토바이 헬멧을 쓰고 있습니다. 또 파란색 하늘, 소금 사막 등 주변 환경이 묘사되어 있으며 시네마틱한 스타일에 35mm 영화로 컨셉이 표현되어 있습니다. 얼핏 보기에도 마치 직접 촬영한 듯한 느낌에 등장하는 인물들은 실제 인물처럼 느껴집니다. 이게 다른 동영상 생성 AI 서비스와는 차별화되는 지점입니다.

Sora가 이토록 뛰어난 이유

그렇다면 Sora는 어떤 측면에서 다른 동영상 AI 서비스들을 압도할 수 있었을까요? 몇 가지 대표적인 이유를 살펴보겠습니다.

사용자가 시킨 그대로
먼저 사용자의 명령을 잘 이해할 수 있기 때문입니다. 즉, 프롬프트로 사용된 언어를 잘 알아들을 수 있다는 거죠. 이러한 언어 이해는 OpenAI의 이미지 생성 AI 서비스인 달리3의 기술을 적용했기 때문입니다. 프롬프트가 길면 길수록, 이를 캡션으로 변환하고 그것을 동영상 모델에 적용하는 데 탁월합니다. 이 때문에 프롬프트의 내용을 정확하게 따를 수 있는 거죠.

긴 영상 구현도 가능해
다른 동영상 AI 서비스들은 불과 몇 초의 동영상을 만들어낼 수 있는 반면, Sora는 최대 1분의 동영상을 생성할 수 있습니다. 심지어 Sora보다 약 한 달 앞서 출시된 구글의 ‘루미에르’도 10초 이내의 영상만을 만들어낼 수 있습니다. 이처럼 길이가 긴 영상을 만들어낼 수 있다는 점에서 다른 서비스와는 차별화되죠.

일관성 유지
영상 생성형 AI 서비스 업계에서는 ‘일관성’ 유지가 항상 커다란 이슈입니다. 캐릭터, 오브젝트, 배경이 프레임 간에 일관성을 유지하면서 변형되거나 뒤틀리는 현상이 발생해서는 안 된다는 겁니다. 일반적으로는 시작과 끝 프레임을 생성한 후, 중간 부분을 짜 맞추는 식으로 동영상을 생성하기 때문에 전체적인 일관성을 구현하기 어렵습니다. 그런데 Sora는 일관성을 유지할 수 있습니다. 가령 앞에서 제시된 도쿄의 밤거리를 걷는 여성 동영상 중, 여성이 간판을 가리다가 다시 나타난 장면에서 간판을 가리기 전과 가린 후에 간판의 글자가 일치해야 하는 것은 너무도 당연하죠. 그런데 그동안은 글자가 변형되거나 없어지는 등의 문제가 빈번했다고 합니다. Sora는 이런 문제를 깨끗이 해결해 일관성을 유지할 수 있었습니다.

노이즈는 깨끗이 제거
OpenAI에서 Sora가 훈련되는 과정을 홈페이지에 공개했습니다. Sora는 시각 데이터를 '패치'라는 작은 단위로 쪼개는 작업을 수행했습니다. 이렇게 시각 데이터를 작은 단위로 나누면, 다양한 데이터들을 보다 효율적으로 학습할 수 있게 되죠.

시각 데이터를 패치로 나누는 작업 (출처: Open AI 홈페이지)

이 과정에서 Sora는 노이즈를 제거합니다. 노이즈가 있는 패치를 입력받았을 때 노이즈를 자체적으로 제거해가는 훈련 과정을 거칩니다. 그리고 이 과정을 여러 번 거쳐 패치를 깨끗하게 만들죠. Sora의 동영상이 깨끗하고 자연스러운 이유입니다.

노이즈를 제거하는 과정 (출처: OpenAI 홈페이지)

생성형 AI 서비스, OpenAI의 독주일까?

OpenAI가 잇따라 센세이셔널한 서비스를 내놓으면서 생성형 AI 서비스 시장의 패권을 잡는 듯합니다. 이대로 OpenAI가 독주를 하는 모양새가 되는 걸까요? Sora를 뒤쫓는 서비스들은 어떤 게 있는지 살펴보겠습니다.

구글의 루미에르(Lumiere)
앞서 언급했듯이 구글은 OpenAI보다 동영상 생성형 AI 서비스를 약 한 달 먼저 출시했습니다. 루미에르(Lumiere)라는 서비스로, 출시 당시 모두의 이목을 집중시켰습니다. 공간적으로 사실감을 증폭시키고 시간적으로도 일관성을 유지하여, 보다 완성된 동영상을 생성해낼 수 있죠. 그러나 Sora가 등장한 이후로는 현재 언급조차 없는 상황입니다. 최대 1분 길이의 동영상을 만들 수 있는 Sora보다 훨씬 짧은 길이의 동영상밖에 생성할 수 없고 사실감도 다소 떨어지기 때문입니다. 구글 내부에서도 이슈가 있는데, 구글의 AI모델 제미나이의 이미지 생성 기능이 오류를 일으켰습니다. 입력된 프롬프트와는 다른 내용으로 이미지가 생성된 건데요. 미국 건국의 아버지를 흑인으로 표현하는 한편 1940년대 독일군을 흑인 요성으로 묘사하는 등 여러 건의 오류가 발생했습니다.
이미 챗GPT로 OpenAI에 밀리고 있는 와중에 한 번 더 펀치를 맞은 구글은 현재까지 어떠한 AI기능 출시 소식도 전하지 않고 있는데요. 확실히 AI 분야에서는 OpenAI에 밀리는 것 같습니다.

런웨이의 젠-2
동영상 생성형 AI 서비스의 선두주자인 AI 스타트업 런웨이는 최근 Sora 공세에 맞서 뮤직비디오 생성 기능 서비스를 선보였습니다. 음악 기술 스타트업인 ‘뮤직스매치’와 파트너십을 맺고 100만 명 이상의 음악가와 아티스트에 동영상 생성 모델 '젠-2'를 서비스한다고 밝혔는데요. 동영상 생성뿐 아니라 특화된 분야에 맞게 서비스를 한다는 겁니다. 단순히 생성 서비스만 제공하는 OpenAI 등 여타 서비스와는 달리 실제로 수요가 많은 분야에 파고들겠다는 의도입니다.

메타의 에뮤비디오
메타 역시 동영상 생성 AI 서비스를 발표했습니다. OpenAI의 Sora, 구글의 루미에르에 앞서 지난해 11월에 공개했는데요. ‘에뮤비디오’는 텍스트를 입력하면 그림을 그려주고, 지시에 맞춰서 그림이 움직이는 서비스입니다. 다만 사실감이 다소 떨어져 AI가 제작한 영상 느낌이 나고 최대 4초 길이의 영상밖에 만들지 못해 성능 측면에서 다른 서비스들보다 뒤떨어진다는 평가를 받고 있습니다. 이 때문인지 공개만 하고 아직까지 출시는 못하고 있는 상황입니다.

에뮤비디오가 생성한 동영상 예시 (출처: 에뮤비디오 홈페이지)

앞서 살펴봤듯, Sora 외에는 이렇다 할 성과를 내지 못하고 있습니다. 사실감이 떨어지거나 불과 몇 초 짜리의 영상만을 만들 수 있는 등 상용화되기에는 부족하죠. 따라서 당분간은 OpenAI의 독주 체제가 유지될 것 같습니다. 추후 구글이 루미에르를 어떻게 개선하고 메타가 어떻게 에뮤비디오를 개선해 출시할 것인지가 관건이고, 또한 어떤 AI 스타트업이 새 서비스를 출시할 것인지 지켜봐야 할 것 같습니다.

참고자료
[1] https://openai.com/research/video-generation-models-as-world-simulators
[2] https://lumiere-video.github.io/
[3]https://emu-video.metademolab.com/

▶ 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 기고자에게 저작권이 있습니다.
▶ 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

이 글이 좋으셨다면 구독&좋아요

여러분의 “구독”과 “좋아요”는
저자에게 큰 힘이 됩니다.