Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

от автора

После 10 месяцев слухов, утечек и спекулятивных твитов от различных ИИ-энтузиастов компания OpenAI наконец-то представила свою долгожданную ИИ-модель для генерации видео — Sora.

Несколько дней назад ИИ-сообщество уже ожидало выхода Sora, и я был одним из тех, кто постоянно обновлял сайт Sora.com, как отчаявшийся любитель кроссовок, пытающийся приобрести лимитированные модели.

Если вы не можете получить доступ к сайту, посмотрите список поддерживаемых стран здесь. Возможно, вам придется воспользоваться VPN, если вашей страны нет в списке.

Честно говоря, я ожидал от Sora совсем немногого. Прошло почти 10 месяцев с тех пор, как мы услышали серьезные новости о видеомодели от OpenAI, и с учетом того, что такие новые имена, как Kling AI, Runway Gen-3 и Hailou AI, начали набирать обороты, я полагал, что Sora появится с опозданием.

Но я должен сказать, что после того, как я увидел некоторые из тех результатов, которыми поделились люди, я впечатлен. Возможно, она и впрямь может дать этим конкурентам фору.

Тем не менее, если несколько первых образцов произвели на меня впечатление, это еще не значит, что я решился на покупку. Есть много вещей, которые имеют значение, когда речь идет о ИИ-инструментах для создания видео:

  • Поддерживаемые исходные медиа (текст, изображение и видео)

  • Скорость генерации

  • Качество результата (разрешение, согласованность и длина)

  • Элементы управления редактированием (расширение, обрезка, объединение и т. д.)

  • Ценообразование

Именно на этих моментах я и сосредоточился. Я хочу понять, достаточно ли у Sora возможностей, чтобы оправдать ее использование, и, в конечном счете, стоит ли за нее платить.

Что такое Sora?

Если вы впервые слышите о ней, то Sora — это ИИ-инструмент для генерации видео от OpenAI, который может создавать короткие ролики из текста, изображений и даже других видео.

В начале этого года OpenAI представила предварительную версию Sora, рассказав о своих успехах в «моделировании мира» — по сути, обучении модели понимать и представлять аспекты физического мира.

Теперь Sora Turbo, более быстрая и усовершенствованная версия, выпускается как отдельный продукт, доступный пользователям ChatGPT Plus и Pro на сайте Sora.com.

Принцип работы Sora

Используя Sora Video Editor, вы можете создавать видеоролики длиной до 20 секунд, при этом сохраняя хорошее визуальное качество и следуя вашим промптам.

Вот основной процесс:

В нижней части экрана вы можете ввести текстовое описание желаемого видео.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Если вы предпочитаете начать с существующего изображения или видео, нажмите на «+» в поле ввода, чтобы загрузить свой файл. Помните, что права на все загружаемое вами должны принадлежать вам, и вы не можете загружать изображения или видео других людей без их прямого письменного разрешения.

Перед тем как нажать кнопку «submit», просмотрите и подкорректируйте настройки. Вы можете изменить соотношение сторон, разрешение, продолжительность и количество вариаций. Эти настройки повлияют на стоимость вашей генерации. Наведите курсор на значок «?», чтобы проверить, сколько кредитов будет потрачено при выбранных вами настройках.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

После того как вы введете свой промпт, Sora начнет его обработку, которая может занять до минуты. Вы можете следить за ходом генерации видео, нажав на значок в правом верхнем углу страницы.

После того как видео будет сгенерировано, наведите курсор на превью в библиотеке, чтобы увидеть все варианты.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Нажмите на конкретную вариацию, чтобы рассмотреть ее поближе и получить доступ к инструментам редактирования. Вы можете доработать, переделать или расширить созданный клип, основываясь на том, что создала Sora.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Выглядит великолепно. Он напоминает мне инструмент для редактирования видео от Kling, Runway или RenderNet AI.

Примеры видеороликов

Теперь давайте посмотрим на некоторые видеоролики, сгенерированные Sora, и мои мысли по поводу каждого из них.

Промпт: A serene and otherworldly scene unfolds with high-resolution digital clarity, capturing a minimalist beach at twilight where fashionably dressed figures recline on floating chairs woven from delicate reeds, hovering just above the gentle waves; the ocean emits ethereal smoke particles that rise and form abstract patterns in the air; bioluminescent plankton in the water glow softly, illuminating the scene with a magical light as the chairs drift effortlessly along the shoreline.

Дым и брызги воды выглядят невероятно детализированными. Мне также нравится, как ведут себя предметы, плывя по воде. Похоже, Sora знает, как объекты должны двигаться и взаимодействовать в физической среде.

Промпт: Whales Soaring Skyward. (Subtle Remix): make the video more vibrant and the butterflies more colorful.

Это непростая задача, потому что нужно не просто придать видео реальный вид. А в том, чтобы сделать его красивым и ярким. Sora все же справилась с этой задачей.

Бабочки выглядят более красочными, а вся сцена кажется более сказочной, словно из сказки. Она не обязана подчиняться физике реального мира, но при этом выглядит профессионально и эффектно.

Промпт: Japanese Winter Market (Storyboard)

Людей ИИ-видео моделям генерировать всегда сложно. Даже здесь я замечаю некоторые странные детали — ногти выглядят странно, а конечности могут быть смещены. Большинство существующих моделей не справляются с анатомией человека, и Sora не исключение. Она не идеальна, но я вижу некоторые улучшения по сравнению с тем, что я видел раньше.

Промпт: Kraken Attack Chaos. The shot is foggy with sharp color contrast, the look and feel captured is found footage quality with low visibility, providing a sense of immediacy and chaos.

На этом примере видно, как Sora умеет создавать определенное настроение. Туманная обстановка, контраст и ощущение найденных кадров — все здесь на высоте. Кажется, что это могло бы подойти для трейлера фильма или короткометражки. Впечатляет, что Sora может работать с такой кинематографической эстетикой.

Промпт: Bling Zoo Aquarium (Storyboard). The ‘bling zoo’ shop in new york city is both a jewelry store and zoo.

ИИ-модели обычно испытывают трудности с текстом, и Sora — не исключение. Хотя в целом сцена выглядит хорошо, орфография нарушена, а текст неточен. Это похоже на то, что происходит с генераторами изображений. Рендеринг текста остается большой проблемой.

Ключевые особенности Sora

Одна вещь, которая привлекает мое внимание, — это интерфейс, который OpenAI разработала для Sora. Они не просто дали нам поле для ввода промпта и на этом остановились. Они представили множество функций: инструмент раскадровки, Remix, Recut, Loop, Blend и предустановки стилей.

  • Remix. Изменение сцены путем смены фона, замены объектов или добавления и удаления элементов.

  • Recut. Функция Recut позволяет сокращать и удлинять кадры видео.

  • Storyboard (Раскадровка). Покадровая компоновка видео, позволяющая лучше контролировать сложные последовательности.

  • Loop и Blend. Loop создает непрерывную анимацию, а Blend плавно объединяет два клипа в один.

  • Style Presets. Мгновенное применение предопределенного визуального стиля, например стиля papercraft, без необходимости бесконечно редактировать промпты.

Как Sora по сравнению с конкурентами

Сейчас я застрял в ожидании стабильного доступа. Из-за шумихи серверы перегружены, поэтому новые пользователи вообще не могут создавать видео. Если вы видите это сообщение об ошибке, вы не одиноки.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway
Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Как только я получу доступ, я планирую сравнить Sora с Runway Gen-3 и Kling, используя те же промпты, и посмотреть, какие результаты будут более согласованными и реалистичными.
А пока давайте попробуем сравнить предварительно созданное Sora видео с Runway Gen-3. Вот пример видео, созданного с помощью Sora:

Промпт: a family of grizzly bears sit at a table, dining on salmon sashimi with chopsticks.

Видео сгенерировано Sora

Этот 5-секундный ролик, представленный ниже, сгенерирован в Runway.

Видео сгенерировано Runway Gen-3 Alpha

Из того, что я вижу, результат Sora кажется более живым. Медведи не просто сидят на месте. Камера двигалась, и в сцене чувствовалась активность. Версия Runway Gen-3, напротив, выглядит более статичной, почти как слегка анимированное изображение.

Также мне нужно выяснить, соответствует ли заявленное «быстродействие» действительности. Ранняя исследовательская модель была медленной и дорогой в использовании. Sora Turbo должна быть значительно быстрее, но «быстро» в терминах ИИ все еще может означать несколько минут ожидания для 20-секундного ролика.

Улучшится ли эта скорость со временем? Возможно.

Цены на Sora

Если вы хотите использовать Sora, то в настоящее время она привязана к определенным планам подписки ChatGPT:

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

ChatGPT Plus ($20/месяц)

  • Вы сможете генерировать до 50 приоритетных видеороликов (1 000 кредитов) в месяц, создавать ролики с разрешением до 720p и длительностью до 5 секунд.

ChatGPT Pro ($200/месяц)

  • Вы ежемесячно сможете генерировать 500 приоритетных видео (10 000 кредитов), неограниченное количество видео с разрешением до 1080p и длительностью до 20 секунд. Также вы можете запускать до 5 генераций одновременно, а скачиваемые ролики будут без водяных знаков.

Сейчас многие люди, в том числе и я, находятся в ожидании стабильного доступа к Sora. Проблемы с мощностью сервера явно раздражают, а в социальных сетях полно пользователей, которые не могут зарегистрироваться или вообще генерировать видео.

Тем не менее, первые результаты работы Sora выглядят впечатляюще. Реалистичность и согласованность великолепны, и интересно представить, что это может значить для творческих людей, режиссеров и всех, кто хочет воплотить свои идеи в жизнь с помощью видео.

Но эти же возможности вызывают и серьезные опасения. С такими реалистичными видео мы должны признать риск злоупотреблений: фальшивых новостей, мошенничества и дипфейков.

Любопытно, что техно-блогер Маркес Браунли заметил: когда он попросил Sora сгенерировать видео с техническим обозревателем, в нем подозрительным образом присутствовало зеленое растение на столе, очень похожее на то, которое часто можно увидеть в его собственных видео.

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Sora от OpenAI: принцип работы, примеры видео и сравнение с Runway

Было ли это странным совпадением, или данные для обучения OpenAI включали его работы и повторяли эти детали? Трудно сказать наверняка, но это подчеркивает неопределенность, связанную с тем, как обучаются эти модели и что они могут случайно обнаружить.

В любом случае, если им удастся наладить доступ, поддерживать качество и создать сообщество, которое будет ответственно использовать инструмент, Sora может заменить Kling или Runway в качестве основного инструмента для создания видео с помощью искусственного интеллекта среди пользователей. Пока что я воздерживаюсь от окончательных выводов, пока не утихнет шумиха, нормально не заработают серверы, и у меня не появится шанс по-настоящему испытать ее.

Еще больше полезностей — в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Спасибо, что прочитали!


ссылка на оригинал статьи https://habr.com/ru/articles/865528/