После 10 месяцев слухов, утечек и спекулятивных твитов от различных ИИ-энтузиастов компания OpenAI наконец-то представила свою долгожданную ИИ-модель для генерации видео — Sora.
Несколько дней назад ИИ-сообщество уже ожидало выхода Sora, и я был одним из тех, кто постоянно обновлял сайт Sora.com, как отчаявшийся любитель кроссовок, пытающийся приобрести лимитированные модели.
Если вы не можете получить доступ к сайту, посмотрите список поддерживаемых стран здесь. Возможно, вам придется воспользоваться VPN, если вашей страны нет в списке.
Честно говоря, я ожидал от Sora совсем немногого. Прошло почти 10 месяцев с тех пор, как мы услышали серьезные новости о видеомодели от OpenAI, и с учетом того, что такие новые имена, как Kling AI, Runway Gen-3 и Hailou AI, начали набирать обороты, я полагал, что Sora появится с опозданием.
Но я должен сказать, что после того, как я увидел некоторые из тех результатов, которыми поделились люди, я впечатлен. Возможно, она и впрямь может дать этим конкурентам фору.
Тем не менее, если несколько первых образцов произвели на меня впечатление, это еще не значит, что я решился на покупку. Есть много вещей, которые имеют значение, когда речь идет о ИИ-инструментах для создания видео:
-
Поддерживаемые исходные медиа (текст, изображение и видео)
-
Скорость генерации
-
Качество результата (разрешение, согласованность и длина)
-
Элементы управления редактированием (расширение, обрезка, объединение и т. д.)
-
Ценообразование
Именно на этих моментах я и сосредоточился. Я хочу понять, достаточно ли у Sora возможностей, чтобы оправдать ее использование, и, в конечном счете, стоит ли за нее платить.
Что такое Sora?
Если вы впервые слышите о ней, то Sora — это ИИ-инструмент для генерации видео от OpenAI, который может создавать короткие ролики из текста, изображений и даже других видео.
В начале этого года OpenAI представила предварительную версию Sora, рассказав о своих успехах в «моделировании мира» — по сути, обучении модели понимать и представлять аспекты физического мира.
Теперь Sora Turbo, более быстрая и усовершенствованная версия, выпускается как отдельный продукт, доступный пользователям ChatGPT Plus и Pro на сайте Sora.com.
Принцип работы Sora
Используя Sora Video Editor, вы можете создавать видеоролики длиной до 20 секунд, при этом сохраняя хорошее визуальное качество и следуя вашим промптам.
Вот основной процесс:
В нижней части экрана вы можете ввести текстовое описание желаемого видео.
Если вы предпочитаете начать с существующего изображения или видео, нажмите на «+» в поле ввода, чтобы загрузить свой файл. Помните, что права на все загружаемое вами должны принадлежать вам, и вы не можете загружать изображения или видео других людей без их прямого письменного разрешения.
Перед тем как нажать кнопку «submit», просмотрите и подкорректируйте настройки. Вы можете изменить соотношение сторон, разрешение, продолжительность и количество вариаций. Эти настройки повлияют на стоимость вашей генерации. Наведите курсор на значок «?», чтобы проверить, сколько кредитов будет потрачено при выбранных вами настройках.
После того как вы введете свой промпт, Sora начнет его обработку, которая может занять до минуты. Вы можете следить за ходом генерации видео, нажав на значок в правом верхнем углу страницы.
После того как видео будет сгенерировано, наведите курсор на превью в библиотеке, чтобы увидеть все варианты.
Нажмите на конкретную вариацию, чтобы рассмотреть ее поближе и получить доступ к инструментам редактирования. Вы можете доработать, переделать или расширить созданный клип, основываясь на том, что создала Sora.
Выглядит великолепно. Он напоминает мне инструмент для редактирования видео от Kling, Runway или RenderNet AI.
Примеры видеороликов
Теперь давайте посмотрим на некоторые видеоролики, сгенерированные Sora, и мои мысли по поводу каждого из них.
Промпт: A serene and otherworldly scene unfolds with high-resolution digital clarity, capturing a minimalist beach at twilight where fashionably dressed figures recline on floating chairs woven from delicate reeds, hovering just above the gentle waves; the ocean emits ethereal smoke particles that rise and form abstract patterns in the air; bioluminescent plankton in the water glow softly, illuminating the scene with a magical light as the chairs drift effortlessly along the shoreline.
Дым и брызги воды выглядят невероятно детализированными. Мне также нравится, как ведут себя предметы, плывя по воде. Похоже, Sora знает, как объекты должны двигаться и взаимодействовать в физической среде.
Промпт: Whales Soaring Skyward. (Subtle Remix): make the video more vibrant and the butterflies more colorful.
Это непростая задача, потому что нужно не просто придать видео реальный вид. А в том, чтобы сделать его красивым и ярким. Sora все же справилась с этой задачей.
Бабочки выглядят более красочными, а вся сцена кажется более сказочной, словно из сказки. Она не обязана подчиняться физике реального мира, но при этом выглядит профессионально и эффектно.
Промпт: Japanese Winter Market (Storyboard)
Людей ИИ-видео моделям генерировать всегда сложно. Даже здесь я замечаю некоторые странные детали — ногти выглядят странно, а конечности могут быть смещены. Большинство существующих моделей не справляются с анатомией человека, и Sora не исключение. Она не идеальна, но я вижу некоторые улучшения по сравнению с тем, что я видел раньше.
Промпт: Kraken Attack Chaos. The shot is foggy with sharp color contrast, the look and feel captured is found footage quality with low visibility, providing a sense of immediacy and chaos.
На этом примере видно, как Sora умеет создавать определенное настроение. Туманная обстановка, контраст и ощущение найденных кадров — все здесь на высоте. Кажется, что это могло бы подойти для трейлера фильма или короткометражки. Впечатляет, что Sora может работать с такой кинематографической эстетикой.
Промпт: Bling Zoo Aquarium (Storyboard). The ‘bling zoo’ shop in new york city is both a jewelry store and zoo.
ИИ-модели обычно испытывают трудности с текстом, и Sora — не исключение. Хотя в целом сцена выглядит хорошо, орфография нарушена, а текст неточен. Это похоже на то, что происходит с генераторами изображений. Рендеринг текста остается большой проблемой.
Ключевые особенности Sora
Одна вещь, которая привлекает мое внимание, — это интерфейс, который OpenAI разработала для Sora. Они не просто дали нам поле для ввода промпта и на этом остановились. Они представили множество функций: инструмент раскадровки, Remix, Recut, Loop, Blend и предустановки стилей.
-
Remix. Изменение сцены путем смены фона, замены объектов или добавления и удаления элементов.
-
Recut. Функция Recut позволяет сокращать и удлинять кадры видео.
-
Storyboard (Раскадровка). Покадровая компоновка видео, позволяющая лучше контролировать сложные последовательности.
-
Loop и Blend. Loop создает непрерывную анимацию, а Blend плавно объединяет два клипа в один.
-
Style Presets. Мгновенное применение предопределенного визуального стиля, например стиля papercraft, без необходимости бесконечно редактировать промпты.
Как Sora по сравнению с конкурентами
Сейчас я застрял в ожидании стабильного доступа. Из-за шумихи серверы перегружены, поэтому новые пользователи вообще не могут создавать видео. Если вы видите это сообщение об ошибке, вы не одиноки.
Как только я получу доступ, я планирую сравнить Sora с Runway Gen-3 и Kling, используя те же промпты, и посмотреть, какие результаты будут более согласованными и реалистичными.
А пока давайте попробуем сравнить предварительно созданное Sora видео с Runway Gen-3. Вот пример видео, созданного с помощью Sora:
Промпт: a family of grizzly bears sit at a table, dining on salmon sashimi with chopsticks.
Видео сгенерировано Sora
Этот 5-секундный ролик, представленный ниже, сгенерирован в Runway.
Видео сгенерировано Runway Gen-3 Alpha
Из того, что я вижу, результат Sora кажется более живым. Медведи не просто сидят на месте. Камера двигалась, и в сцене чувствовалась активность. Версия Runway Gen-3, напротив, выглядит более статичной, почти как слегка анимированное изображение.
Также мне нужно выяснить, соответствует ли заявленное «быстродействие» действительности. Ранняя исследовательская модель была медленной и дорогой в использовании. Sora Turbo должна быть значительно быстрее, но «быстро» в терминах ИИ все еще может означать несколько минут ожидания для 20-секундного ролика.
Улучшится ли эта скорость со временем? Возможно.
Цены на Sora
Если вы хотите использовать Sora, то в настоящее время она привязана к определенным планам подписки ChatGPT:
ChatGPT Plus ($20/месяц)
-
Вы сможете генерировать до 50 приоритетных видеороликов (1 000 кредитов) в месяц, создавать ролики с разрешением до 720p и длительностью до 5 секунд.
ChatGPT Pro ($200/месяц)
-
Вы ежемесячно сможете генерировать 500 приоритетных видео (10 000 кредитов), неограниченное количество видео с разрешением до 1080p и длительностью до 20 секунд. Также вы можете запускать до 5 генераций одновременно, а скачиваемые ролики будут без водяных знаков.
Сейчас многие люди, в том числе и я, находятся в ожидании стабильного доступа к Sora. Проблемы с мощностью сервера явно раздражают, а в социальных сетях полно пользователей, которые не могут зарегистрироваться или вообще генерировать видео.
Тем не менее, первые результаты работы Sora выглядят впечатляюще. Реалистичность и согласованность великолепны, и интересно представить, что это может значить для творческих людей, режиссеров и всех, кто хочет воплотить свои идеи в жизнь с помощью видео.
Но эти же возможности вызывают и серьезные опасения. С такими реалистичными видео мы должны признать риск злоупотреблений: фальшивых новостей, мошенничества и дипфейков.
Любопытно, что техно-блогер Маркес Браунли заметил: когда он попросил Sora сгенерировать видео с техническим обозревателем, в нем подозрительным образом присутствовало зеленое растение на столе, очень похожее на то, которое часто можно увидеть в его собственных видео.
Было ли это странным совпадением, или данные для обучения OpenAI включали его работы и повторяли эти детали? Трудно сказать наверняка, но это подчеркивает неопределенность, связанную с тем, как обучаются эти модели и что они могут случайно обнаружить.
В любом случае, если им удастся наладить доступ, поддерживать качество и создать сообщество, которое будет ответственно использовать инструмент, Sora может заменить Kling или Runway в качестве основного инструмента для создания видео с помощью искусственного интеллекта среди пользователей. Пока что я воздерживаюсь от окончательных выводов, пока не утихнет шумиха, нормально не заработают серверы, и у меня не появится шанс по-настоящему испытать ее.
Еще больше полезностей — в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Спасибо, что прочитали!
ссылка на оригинал статьи https://habr.com/ru/articles/865528/
Добавить комментарий