Sora-видeo

Bидeoпpoдaкшeн в oжидaнии бoльшиx пepeмeн

Coздaвшaя нaшyмeвший чaт-бoт ChatGPT и пpoгpaммy гeнepaции изoбpaжeний Dall-e кoмпaния OpenAI зaпycкaeт oчepeднoй мнoгooбeщaющий ИИ-интepфeйc. Гeнepaтивнaя мoдeль иcкyccтвeннoгo интeллeктa Sora пoзвoляeт coздaвaть нeвepoятнo peaлиcтичныe видeopoлики нa ocнoвaнии пpocтoгo тeкcтoвoгo oпиcaния.

Пpoгpaммa пoкa нeдocтyпнa для мaccoвoгo иcпoльзoвaния, oднaкo пpoдeмoнcтpиpoвaнныe кoмпaниeй oбpaзцы видeo пopaзили oбщecтвeннocть cвoим кaчecтвoм, пoдняв oчepeднyю вoлнy oпaceний пo пoвoдy мaccoвoгo pacпpocтpaнeния дипфeйкoв, a тaкжe cкopoгo yxoдa нeкoтopыx пpoфeccий из cфepы видeoмeйкингa.

Компания OpenAI так описывает свой продукт: «Sora способна создавать сложные сцены с несколькими персонажами, определенными деталями и движениями объектов и фона». Кроме того, компания отмечает, что модель может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать окружение и участников, выражающих яркие эмоции».

Пoчeмy Sora лyчшe дpyгиx нeйpoceтeй

Sora обучалась на множестве реальных видеороликов. Мира Мурати, генеральный директор компании, в своем интервью The Wall Street Journal пояснила, что программе «скармливали общедоступные и другие лицензированные данные». Будучи инженером в OpenAI в течение многих лет, Мира занималась разработкой ChatGPT и Dall-e. Тем не менее во время интервью она отказалась вдаваться в подробности относительно конкретных источников использованных данных, заявив, что не уверена насчет деталей.

На вопрос о том, были ли задействованы в обучении видео из Instagram* и Facebook*, она ответила, что возможно, если они были публично доступны. Официально подтверждено, что Sora использовала данные портала Shutterstock.

Также известно, что в отличие от предшественников и конкурентов OpenAI обучала модель на видеороликах в оригинальном разрешении, к примеру, 1920×1080, а не на коротких видео с разрешением 512х512. Поэтому Sora может создавать вертикальные и горизонтальные видео. При этом есть возможность сотворить видеоролик протяженностью до одной минуты. Ролики такой длины ранее не были доступны для генерации искусственным интеллектом.

При создании видео Sora берет случайный «шумный» ролик и шаг за шагом превращает его в четкий и соответствующий запросу пользователя. Sora «запоминает» персонажей и элементы фона и может показывать их с разных ракурсов. Еще одно важное достижение – решена проблема «мерцания» сгенерированных объектов, которая всегда была присуща видеоконтенту, сотворенному нейросетями.

Sora умеет не просто генерировать видео по текстовому запросу, но и может расширить существующий видеоряд или анимировать готовую картинку. Однако пока OpenAI показала лишь результаты генерации по текстовому промпту.

Промпт (от англ. prompt – «побуждать») – это инструкция для нейросети. От правильного промпта, то есть корректного запроса, зависит то, насколько соответствующей ожиданиям будет информация на выходе. С начала проникновения нейросетей в массы много говорилось о том, как правильно составлять промпты, используя специальные команды и задавая определенные параметры. Однако задачи для Sora предположительно можно будет описывать максимально простыми словами, примерно так, как это происходит в беседе с коллегой.

Помимо реалистичных сцен с людьми и животными, которые сложно отличить от настоящих, Sora генерирует фантастические видео, например, с акулами и китами, плывущими по улицам Нью-Йорка, или с двумя пиратскими кораблями, сражающимися друг с другом в чашке кофе. Sora умеет создавать и анимацию. Пока разработчики показали сотворенный программой 3D-реализм в духе Pixar. Неизвестно, может ли нейросеть имитировать другие анимационные стили.

В целом не весь функционал Sora понятен до конца, так как нейросеть недоступна публике. Сейчас она дорабатывается тестировщиками. Помимо этого, OpenAI выборочно предоставила доступ известным иллюстраторам, дизайнерам и режиссерам, собирая рекомендации по улучшению модели.

Bce eщe xyжe чeлoвeкa

Пока что Sora несовершенна и может допускать ошибки. Она не всегда справляется с моделированием физики в сложных сценах или правильно понимает причинно-следственные связи. Кроме того, модель может путать описание пространства в запросе: лево и право, вперед и назад, или испытывать сложности с точным воспроизведением описанных в промпте событий. На сайте OpenAI представлен ряд типовых фейлов программы: человек бежит по беговой дорожке не в ту сторону, в стае играющих волчат количество щенков постоянно меняется, именинница задувает свечи, но они не гаснут и т. д.

При этом стоит помнить, что нейросеть постоянно учится и становится лучше. Так что, чтобы по-настоящему оценить способности Sora, лучше подождать момента, когда программа попадет в общее пользование. По словам создателей, это произойдет до конца текущего года. Тогда станет понятно, насколько точно реализуется текстовый промпт и насколько модель понимает контекст того, что ее просят создать.

Пока не объявлены и условия использования программы. Так как Sora создает видео продолжительностью до минуты в достаточно высоком разрешении, многие полагают, что доступ к нейросети будет ограничен высокой ценой, поскольку при массовом использовании для создания подобных видео потребуются огромные вычислительные мощности. OpenAI обещает умеренный ценник, не выходящий за пределы стоимости существующих продуктов компании.

He пepвaя нa pынкe

Разумеется, у Sora есть конкуренты, и многие из них предоставляют программное обеспечение в пользование бесплатно. К примеру, Runway от Gen‑2 до появления Sora cчиталась самой сильной нейронной сетью для генерации видео. Runway создает довольно фотореалистичные ролики по 4 секунды, основываясь на исходном тексте или картинке. На базе Runway даже запустили телевидение, а в фильме «Все везде и сразу» модель использовали для создания некоторых сцен.

Главный конкурент Runway – это Pika от Pika Labs. Pika умеет делать ролики из текста или изображения. Программа может и растягивать видео под разные форматы, дорисовывать объекты, менять одежду на людях.

Первая отечественная нейросеть для генерации видео – Kandinsky Video от Sber AI. Программа генерирует непрерывную сцену с движением как объекта, так и фона длительностью до 8 секунд.

Существует множество других программ, а некоторые скоро выйдут в релиз. В том числе сильно ожидаемые Lumiere от Google или Emu Video от Meta* AI. Предполагается, что конкуренция подстегнет развитие видеоинтерфейсов.

Kaк ИИ пoмoгaeт кoнтeнт-пpoдaкшeнy

Руководитель агентства видеорекламы «Кронвер» Денис Кронвер рассказывает: «Нейросеть – вещь неоднозначная. Потому что, с одной стороны, она набирает оборот, с другой стороны – ее глупо не использовать. Мы написали собственного бота. Он сделан на базе GPT‑4 Turbo. С его помощью мы решаем историю по разработке текста. Формируем быстрые креативные смыслы. Даже не столько по разработке, сколько по доработке. И создания из текста чего-то более эмоционального. Например, нужно разработать продающий текст для медицинской компании. Мы просим нейросеть его докрутить. Для генерации картинок используем расширение с ИИ “Пикассо”. Оно хорошо работает, но в формате концептов. Мы используем его, для того чтобы быстро сгенерить некое видение. Однако не полноценно создаем картинки, а просто получаем быструю идею и таким образом экономим серое вещество команды на этот креатив. И при этом имеем результат и далее перерабатываем его в реальный продукт».

Илья Змиенко, основатель коммуникационного агентства «Связи», подчеркивает: «Сейчас пока все нейросети, в том числе и графические, и по созданию видео, не замена человеку. Их прежде всего используют (если используют), чтобы решить проблему чистого листа. Когда у тебя есть клиентская задача или этих задач много. То есть если раньше ты заходил как моушн-дизайнер, к примеру, на Behance, Pinterest или Dribbble, чтобы найти идеи. Или же в своей голове начинал крутить варианты. То сейчас ты берешь и на этой первой стадии всегда используешь нейросети. Это намного быстрее, и она тебе предложит большее количество разных вариаций стиля, элементов композиции. Поэтому этот этап теперь отдается нейросетке, а уже затем человек выбирает из всех предложенных вариантов максимально подходящий под задачу. На всех остальных этапах создания продукта такого не происходит. Люди работают руками в том программном обеспечении, в котором работали и 10 лет назад. Итого нейросети помогают сделать процентов пять работы».

Владислав Лютый, креативный продюсер и режиссер студии Ferox, пояснил, что такие AI, как ChatGPT, Midjourney и Gen‑2, помогают креативным сотрудникам, ускоряя рабочий процесс и предоставляя нестандартные решения для креативных задач.

А вот что рассказал Денис Кронвер по поводу использования ИИ для создания непосредственно видео: «Мы генерим видео иногда, но пока все довольно сыро. Что хорошо работает? Точно работает генерация 3D-моделей. Это можно использовать. Точно работает генерация дикторских голосов. Это используется, и очень хорошо. Разные звезды могут озвучивать голос. Кроме того, используются автоматическое создание субтитров, перевод. Дорисовка изображений, возможность вырезать объект из кадра – весьма удобная история».

Чтo кpeaтивныe coздaтeли гoвopят o Sora

Разумеется, сложно сделать однозначные выводы о качестве и возможностях Sora. Все оценки основаны на предварительных демовидео от разработчиков, которые, хоть и вызывают сильный интерес, все же оставляют множество вопросов о реальной практичности и гибкости инструмента в профессиональном использовании.

«Особенно волнует, сколько усилий и времени потребуется для достижения идеального результата. В то же время мы не теряем энтузиазма и с нетерпением ожидаем возможности погрузиться в работу с Sora, чтобы на собственном опыте оценить ее потенциал», – говорит Владислав Лютый.

«Пока бизнес и физлица не пользуются Sora. Нет возможности посмотреть, что конкретно она умеет, есть лишь ролики от OpenAI. Визуально Sora будет создавать контент, который выше на голову всех этих ребят, создающих нейросетки сейчас. Потому что у них большая база данных на входе. Есть они и Midjourney. Это главные ребята, которые сегодня рулят балом. Так что это будет сильно отличаться. Как мы начнем это использовать, поймем, когда они дадут доступ к продукту в этом году. Тогда сможем попробовать и посмотреть, на каком этапе и в каких проектах мы сможем это применять. Например, возможно будет скормить Sora исходник, и программа обработает этот исходник. Тогда это вовлечение в предпродакшен, то есть это еще один этап. Это будет уже 15% работы», – поясняет Илья Змиенко.

Boпpocы бeз oтвeтa

Опрос компании HarrisX показал, что отличить сгенерированные Sora видео от настоящих достаточно сложно. Пять из восьми взрослых респондентов в рамках опроса ошиблись. Подобные преценденты заставляют общественность задуматься, и в некоторых странах стали чаще звучать призывы к властям о необходимости законодательного регулирования индустрии. В частности, предлагается обязать пользователей нейросетей помечать генерируемый контент определенным образом во избежание заблуждения и дезинформации. Одна из идей – встроенные в браузер детекторы генеративного контента. Компания OpenAI, в свою очередь, принимает меры для защиты от рисков, разрабатывая инструменты выявления фейкового и запрещенного контента.

Следующий вопрос – смогут ли генеративные нейросети стать креативными, как люди, и не просто создавать качественные в деталях картинки рекламные ролики, а подлинные шедевры видеомейкинга, способные затронуть человеческие эмоции.

«Возможно, если Sora пройдет длительное обучение на основе тысяч шедевров кинематографа, получатся и захватывающая внутрикадровая драматургия, и интересное движение камеры. Хотя на сегодняшний день не совсем понятно, насколько это реалистично как с технической точки зрения, так и с точки зрения соблюдения интеллектуальных прав мейджоров кино и в целом правообладателей. The New York Times до сих пор судится с OpenAI из-за того, что на текстах ее авторов, в частности, проходил обучение ChatGPT», – рассказывает креативный продюсер Filmway Production Александр Зарщиков.

Kaкoвы пepcпeктивы

Процессы, происходящие в видеопродакшене, не сильно отличаются от тех, что происходят в любой другой индустрии, подверженной влиянию ИИ. Что касается специалистов, прежде всего навылет отправятся те, кто занят самыми рутинными процессами, то есть те, кто работает в младшей позиции, джуны. Средним или топ-специалистам беспокоиться рано.

«Разумеется, для больших продакшенов это реальная большая возможность, но и большая угроза для тех, кто сейчас работает ручками. Эти люди будут уже не нужны, им придется переучиваться», – поясняет Илья Змиенко.

Конечно, всегда есть возможность переучиться и стать непосредственно специалистом по постановке задач нейросетям, подняв, таким образом, свою востребованность на рынке. В этом отношении не стоит расслабляться и профессионалам более высокого уровня, так как технологии развиваются настолько быстро, что, если не осваивать их, есть большой риск отстать от индустрии. «Мне кажется, нейросеть просто будет везде внедрена, и с ее помощью каждый этап по производству контента будет становиться легче», – считает Денис Кронвер.

«Встает вопрос перестройки внутренних процессов бизнеса как с клиентской стороны, так и с агентской, как у нас. Например, нейросетки сильно повлияли на раскадровки. Раньше, когда мы делали какие-то тендеры, дизайнер от руки отрисовывал раскадровку для ролика. Прорисовка на минутный ролик занимала день. Теперь же мы скармливаем это все нейронке, пишем промпт. Тут добавляется профессия промпт-дизайнера. За час нейросеть создает примерно десять вариантов. Мы выбираем, улучшаем и дорабатываем. Получается готовая раскадровка для клиента. Некоторым клиентам мы не говорим, что по умолчанию используем нейронки. Они думают, что мы делаем это все руками. Рынок будет сильно трансформироваться в ближайший год, и скоро мы увидим большие изменения», – говорит Илья Змиенко.

Владислав Лютый из Ferox смотрит на ситуацию с оптимизмом: «Впереди нас ожидает захватывающее будущее. Нейросети будут продолжать развиваться, предоставляя креативщикам все более мощные инструменты для реализации их самых смелых идей. Я уверен, что мы увидим целые рекламные кампании, музыкальные клипы и даже фильмы, созданные с помощью искусственного интеллекта. Это не означает, что машины заменят человеческий талант. Скорее, они станут мощными инструментами, которые помогут ускорить и улучшить процесс создания контента. Будет больше возможностей для экспериментов, и мы увидим появление новых профессий и специализаций в мире кино и видеопродакшена».

* Bнeceн Mинюcтoм Poccии в peecтp кoмпaний, выпoлняющиx фyнкции инoaгeнтa.

30.05.24