[SORA 체험기 2] 한국어로 입력해도 잘 만들까?
많은 Text-to-image, Text-to-video 서비스들이 있지만 OpenAI에서 나오는 서비스들의 강점은 ChatGPT라는 강력한 LLM 모델에 바탕을 두고 있다는 것입니다.
사용자의 프롬프트를 해석하는 데 탁월함이 있기에 추상적인 표현들도 문제 없이 해석해서 실제 입력되는 프롬프트를 적절히 변형해주고, 내부적으로 알아서 번역해주기 때문에 어떤 언어로 입력해도 상관없습니다.
Text-to-image 서비스 중에서 최고 퀄리티는 미드저니(Midjourney)라고 생각하지만, 미드저니의 한계는 프롬프트를 영어로 입력해야 하고, 추상적인 표현보다는 서술적(descriptive)으로 표현하기를 권장하고 있습니다.
(SORA를 체험한지 얼마 안 되긴 했지만) 그동안 ChatGPT를 이용해 영어 프롬프트를 생성한 후 SORA에 입력하고 있었네요. 불현듯 한국어로 넣어도 알아서 잘 바꾸지 않을까 하는 생각이 들어서 시도해봤습니다.
결론은 “문제없이 잘 된다” 입니다.
시도 1
멀리 후지산 전경이 보이는 곳에서 독수리가 활공한다.
SORA 홈페이지 예시 중에 후지산 전경으로 독수리가 날아가는 동영상이 있길래 그 영상을 흉내내기 위해 한 번 위와 같이 프롬프트를 넣어봤습니다.
일단 후지산을 재현하진 못했고, 독수리의 꼬리 부분이 조금 이상한 것 빼고는 잘 구현된 것 같습니다. 아마도 독수리가 산을 배경으로 날아가는 영상은 학습이 많이 되었기 때문인 것 같습니다.
한국어로 입력한 프롬프트가 어떤 식으로 SORA가 내부 프롬프트로 변경했는지 살펴보았습니다. SORA에서 동영상을 재생 한 뒤 “View Story”를 클릭해서 보겠습니다.
1 (0초)
Far below the blue sky, a vast mountain range stretches out majestically. The peaks of the mountains are covered with white snow, and beneath them, gloomy forests are spread out. A lone eagle, using this place as a backdrop, soars gracefully towards the sky. The eagle's wings are spread wide, gently moving with the wind. Overall, a peaceful and majestic landscape unfolds.
2 (3초)
The eagle circles widely, using the mountain range as a backdrop, and flies energetically.
아하, 한국어로 적은 프롬프트를 영어로 번역하고 풍부하게 만들면서 “후지산”이라는 말은 사라지고 “a vast mountain”이 들어왔네요.
이번엔 프롬프트를 조금만 바꿔보겠습니다.
시도 2
하늘을 활공하던 독수리는 천천히 글라이딩하면서 내려 앉고 하늘을 바라본다.
마지막에 “하늘을 바라본다”는 제대로 구현이 안 되었지만 이정도면 저는 만족스럽습니다.
이번에는 조금 추상적인 표현도 포함된 프롬프트를 넣어보겠습니다.
시도3
영혼까지 끌어모아 집을 산 구매자는 집 값 하락에 눈물을 흘린다
그럴싸한데요? 한국에서 부동산의 중요성을 SORA도 아는 걸까요? 이번에도 내부 프롬프트를 들여다보겠습니다.
1 (0초)
A middle-aged man sits in a living room, staring out the window and letting out a deep sigh. Next to him are a real estate contract and various documents scattered messily, and the coffee cup is empty and dried up. The room is dimly lit with warm colors, but a shadow is cast over his face. Outside the window, the sky is gray and rain is falling.2 (3초)
2 (5초)
Tears well up in the man's eyes, and he covers his face with his hands, quietly sobbing.
부동산 하락 때문에 생긴 괴로움을 어떻게 표현했나 했더니 “a real estate contract and various documents scattered messily(부동산 계약서와 여러 문서들이 어지럽게 흩어져있다)”로 표현했네요. 영상을 볼 땐 몰랐는데 이걸 보니 나름 디테일해 보입니다.
하나만 더 해봅시다.
시도4
자신의 어렸을 적 영상을 보며 아련함과 행복감에 미소짓는 여자
표정의 디테일 속에 의도한 바가 제대로 연출된 것 같네요. 마지막에 살짝 인상 쓰는 것만 조금 거슬립니다.
SORA는 한국어로 넣어도 거의 차이가 없는 것 같습니다. 이제 굳이 한국어로 먼저 프롬프트를 쓰고 ChatGPT한테 “SORA 프롬프트로 만들어줘”라고 할 필요가 없을 것 같습니다.