Лучше, чем жизнь: все, что вы хотели знать о технологиях в кино, 3D-графике и не только
В противовес закону Мура есть закон Джима Блинна: время просчета одного кадра графики для кино не зависит от технического оснащения студии – оно определяется сроками сдачи проекта. Если, например, время рендеринга кадра превысит 10 минут, то весь материал не успеет просчитаться. Проще говоря, чтобы обработать всю красоту, железа всегда будет мало (сколько бы его ни было): графика слишком сложная, и это всегда компромисс между замыслом и дедлайном. Поэтому каждый год эффекты становятся все сложнее и, скажем так, выразительнее. Например, в последней «Истории игрушек» были кадры с шестью миллиардами листьев и триллионом сосновых иголок.
С другой стороны, есть компьютерные игры, где один кадр должен отрисовываться на экране за определенную долю секунды и быть результатом компромисса между качеством и скоростью просчета. Прогресс в этой области делал картинки все красивее, сочнее и убойнее. И пока кино неторопливо, сутками считало своих динозавров в аду, игры научились выжимать максимум из нового железа и алгоритмов и стали выдавать картинку, которая по качеству подбирается к киноэффектам не такого уж далекого прошлого. По 60 кадров в секунду.
В конце 1990-х мы с коллегами решили выяснить, когда же можно будет считать кино в реальном времени. Взяли за основу время расчета текущего кадра на станции Silicon Graphiсs (за 40 тыс. долл.), 24 кадра в секунду и закон Мура, гласивший, что время расчета будет сокращаться в два раза каждые полтора года. Вышло, что через 40 лет. Про закон Блинна мы тогда еще не знали.
Сейчас картинка на игровом движке с лучшим качеством крутится на компьютере, который можно купить в магазине за 1000 долл. А кино и дальше останется консервативной областью, где инструменты и подходы меняются довольно медленно. Индивидуальный пошив кадров на все времена. Неторопливый, дорогой, солидный.
Виртуальное производство
Но игры дарят миру компьютерной графики массу новых технологий, и об одной из них просто необходимо упомянуть. Это виртуальное производство, Virtual Production – возможность снимать кино на игровом движке. Построить виртуальный игровой мир, поместить туда персонажей и отснять виртуальной камерой. Примерно так делали последнего «Короля Льва»: режиссер и оператор сидели в шлемах виртуальной реальности, выбирали ракурсы, ставили свет, руководили движением камеры. Самое забавное, что реальных камер не было, но были настоящие рельсы, краны и штативы, на которых стояли болванки, передававшие свои координаты в игровой движок. Зачем? В мире кино нет людей, которые умеют двигать камеру мышкой или клавишами, но есть дольщики и крановщики. И чтобы получить «киношное» перемещение камеры, надо монтировать все это хозяйство с единственной целью – записать траекторию камеры и передать ее в игровой движок. Когда кино «снято», то есть вся анимация камер получена, материал может быть пересчитан со сколь угодно хорошим качеством, другим светом, текстурами и прочими украшениями. Можно даже поменять персонажей. Экономия огромная: никаких экспедиций, ожидания солнца в режиме и постройки декораций.
А что если снимать надо реальных людей, но в виртуальных декорациях? Тогда на помощь приходят павильоны с огромными экранами вместо стен. На стены проецируется окружение (отснятый материал или виртуальное пространство), которое удачно отражается на актерах и декорациях и попадает в кадр как «реальный» мир. Актеры играют не на «зеленке», чувствуют контекст, совмещать потом ничего не нужно. Именно так снимали «Мандалорца».
А вот вся остальная часть компьютерной графики нереально ускоряется. Ибо спрос на визуальный контент растет катастрофическими темпами: «картинка» вырвалась за границы кино и телевидения и стремительно распространяется по планете через всевозможные альтернативные экраны – смартфоны, мониторы, проекционные панели, VR-шлемы. И тут самое время поговорить об инструментах для производства компьютерной графики и о том, какие тренды сейчас выходят на первый план.
Ассетное мышление
Это умное словосочетание обозначает переиспользование моделей и вообще любых производственных материалов. Цифровых ассетов становится все больше, они накапливаются за годы выпуска. Растут и магазины 3D-моделей, стоковых фотографий и видео. Мир стремительно насыщается визуальным контентом, который можно пускать в дело снова и снова.
То же относится и к анимации. Пример систем захвата движений (motion capture) показывает, что движение может быть отделено от персонажа и существовать в виде библиотек, то есть ассетов, которые легко использовать повторно. Если раньше моделирование и анимация делались в основном вручную, то сейчас сцены все чаще собирают из готовых блоков с последующим «допиливанием». Это тоже в какой-то мере влияние индустрии разработки игр.
Оцифровка всего
Появление хороших камер в телефонах резко демократизировало такую область, как фотограмметрия, когда можно сделать несколько снимков объекта с разных ракурсов, а потом с помощью умного алгоритма сгенерить по ним трехмерную модель. Появление сенсоров ToF и лидаров в мобильных устройствах еще больше ускорило процесс. Не остался в стороне и ИИ, который способен восстановить 3D-модель по одной (!) фотографии – правда, не для всех классов объектов. Прогресс налицо, а вместе с ним и лавинообразное увеличение количества моделей (ассетов) в цифровом мире и то самое ассетное мышление.
Все в облако
Облачные технологии проникают в компьютерную графику не так быстро: исходные материалы здесь идут под жесточайшими договорами о неразглашении (NDA), и никто не торопится загружать их в облако. Однако концепция «студии в облаке» настойчиво проталкивается производителями программного обеспечения и железа. Можно арендовать сколько угодно рабочих станций на Amazon (AWS) и трудиться удаленно. Можно считать кадры на облачных рендерфермах без необходимости держать тонны оборудования в студии или дома. Пользователи Adobe, например, имеют возможность совместно редактировать изображения в облаке.
Наиболее интересный концепт – решение Omniverse от Nvidia: в облаке существует трехмерная сцена, которая поддерживает совместное редактирование из любой точки планеты и с помощью разных 3D-пакетов. Сцена на лету конвертируется в общий формат USD, при этом она одинаково отображается у всех пользователей, где бы они ни находились и какое бы программное обеспечение (Maya, Houdini, Blender) ни использовали. Своеобразное совместное прохождение трехмерных уровней с целью создания контента.
Искусственный интеллект
Под искусственным интеллектом здесь имеется в виду «слабый ИИ» – те самые нейросети. Производство графики – процесс тяжелый, медленный и часто ручной, поэтому любое ускорение обречено на успех. Перед ИИ тут открываются потрясающие перспективы: он умеет вытаскивать из картинки (и видео) очень много информации, которую можно использовать для ускорения производства. ИИ научился отделять предметы от фона (ротоскопинг), вычленять информацию о глубине (расстоянии от камеры до объектов), распознавать лица и выделять их ключевые элементы (глаза, нос, брови и т.д.), делать захват движения по видео, снятому на телефон (прощайте, системы motion capture за 20 тыс. долл.), строить скелет человека по видеозаписи. Все это используется в производстве графики и позволяет автоматизировать многие этапы ручной работы.
Еще один пример – «разгон» разрешения и улучшение изображений. Специально обученные нейросети способны повышать разрешение изображений и видео с качеством, превосходящим традиционные алгоритмы. Их долго обучали на парах «плохая копия – хорошая копия» одной и той же картинки, и теперь нейросеть может автоматически улучшать материал, причем очень быстро. Более того, технология DLSS от той же Nvidia умеет увеличивать разрешение на лету, прямо во время игры. Это позволяет игровому движку считать картинку в низком разрешении (то есть в несколько раз быстрее), а показывать ее – в высоком. Похожий принцип используется и при ускорении просчета в рендерах типа V-Ray: там ИИ убирает шум из картинки на последнем этапе, резко сокращая время обработки. О реставрации, раскраске и улучшении архивных фото- и видеозаписей с помощью ИИ можно даже не упоминать: они уже стали стандартом.
Еще технический пример: нейросеть, насмотревшись видео с человеческой речью, способна по аудиозаписи восстанавливать движение губ, мимику и даже повороты и наклоны головы – это сокращает производство анимации на некоторых проектах в 30 раз. Но самые интересные результаты использования ИИ в графике лежат в области генерации контента.
Производство: генерация контента
Спрос на визуальный контент растет постоянно. По прогнозам группы Mail.Ru, к 2022 году 79% интернет-трафика в России будут составлять онлайн-видео. Какая доля окажется у компьютерной графики, сказать сложно, но ясно, что она будет постоянно увеличиваться. Если автоматизация и оптимизация просто облегчают ручной труд, то генерация изображений и видео увеличивает объемы производства контента в разы.
Дипфейки
Способ подменять лицо человека на видео любым другим лицом уже немного утомил. Эксперты этот метод презирают: опытный глаз легко определяет некорректное освещение. Однако технология постоянно совершенствуется, и вот уже солидная студия Framestore («Гравитация», «Стражи Галактики», «Мстители. Финал») делает дипфейк-ролик с английской королевой, раскалывающий британское общество. Сбербанк привлекает экспертов по дипфейкам и снимает очень хорошего качества ролик с «молодым Куравлевым». А сеть Hulu выпускает серию рекламных роликов со звездными спортсменами, роль которых на съемках играли обычные актеры, иронично заявляя: «Тащить звезд в студию было дорого – гораздо проще сфотографировать их один раз».
Дипфейки стремительно несутся навстречу государственному регулированию: в Америке запрещают их использование без согласия «жертвы», в других странах разрабатывают решения для обнаружения. Это тот случай, когда ИИ способен генерить контент, аналогов которому до сих пор не было и сила воздействия которого слишком велика, чтобы оставить происходящее без внимания.
Генеративные нейросети
В более креативных областях расцвели генеративные нейросети (GAN), которые позволяют создавать изображения на заданную тему. Три года назад мир взорвал проект «Этих знаменитостей не существует», в котором одна нейросеть (генератор) создавала фотографии несуществующих людей, а вторая (дискриминатор) сравнивала их с базой данных из 20 тыс. известных личностей и корректировала поведение первой сети в сторону производства более красивых персонажей. Выяснилось, что, если скормить ИИ достаточное количество изображений, он сможет легко генерить похожие картинки. Интернет наводнили сайты типа «Этих котиков не существует» или «Этих апартаментов не существует». Одно из применений – использование несуществующего лица в рекламе: с ИИ не нужны кастинги актеров и фотосессии.
В мире кино стали ходить шутки о том, что любые фильмы теперь можно снимать со студентами театральных вузов, ведь потом на главных героев легко пересадить лица кинозвезд. В идеале – по выбору зрителя.
Возникли отличные проекты типа Artbreeder, где нейросеть, вооруженная огромным количеством параметров, создает портреты на любой вкус и цвет, причем потрясающего качества. В дальнейшем разработчики обобщили подход до ландшафтов и любых объектов, и получился «генератор всего», где можно смешать «гены» совершенно произвольных сущностей в новое нечто, которое заставляет задуматься о природе творчества. Хочется потроллить неолуддитов, утверждающих, что «ИИ не способен создать ничего нового, он только копирует». В галерее Artbreeder можно увидеть такие работы, которые в принципе не мог написать белковый художник, но они вдохновляют.
Еще один интересный проект – GauGAN (название созвучно имени художника – Гоген), где пользователь может рисовать специальными кистями: лесом, морем, небом, травой, скалами. Причем небо и скалы будут отражаться в воде, а деревья – всегда расти снизу вверх. Кисти обучены на тысячах фотографий природы и располагают объекты максимально похожим образом, как в жизни. Одна из последних нейросетей, DALL-E (в названии нашли отражение Сальвадор Дали и пиксаровский герой Wall-E), умеет переводить человеческий язык в картинки. Например, если ввести фразу «капибара сидит в лесу в рентгеновских лучах», можно получить набор именно таких рисунков. Скоро мы будем надиктовывать свои фантазии, а ИИ станет визуализировать их, опираясь на фантазии о нас.
Студия «Дисней» сейчас разрабатывает систему «Кардинал», которая по сценарию строит сториборд – переводит текст в картинки, дающие представление о том, что происходит в сценарии. Генерация контента из текста в действии. Свежий проект Same Energy позволяет искать картинки в интернете не на основе текстовых описаний или визуальной похожести, а по смыслу или контексту. Например, если вы введете «цыплята», то увидите и котят, и щенков. А дополняя поиск словами, можно получить удивительные результаты: некоторые ассоциации кажутся не просто свежими – они явно рождают новые идеи. Перечислять проекты с участием ИИ можно еще долго: они появляются буквально каждый день.
Синтетика, или корм для ИИ
Существует такой неочевидный вид графики, как генерация синтетических данных, на которых впоследствии учится ИИ. Представьте, что на игровом движке строится целый город, по нему едет виртуальная машина, которая «снимает» то, что видит ее виртуальный регистратор. На выходе – километры видео, съемка виртуальных улиц. Но видео не простое, а отлично размеченное, всегда можно сказать: вот тут – здание, тут – дерево, а здесь дорога поворачивает. Видео с дополнительной информацией, где и какие объекты в кадре. Дальше на этом видео тренируется ИИ для систем компьютерного зрения, используемого в автомобилях. А специалисты по компьютерной графике не боятся потерять работу, ибо у них теперь есть новый заказчик. Моделировать можно не только города, но и обычные вещи, например туфли или другие товары (главное, быстро и в больших количествах), чтобы ИИ впоследствии учился распознавать соответствующие классы объектов. Такая графика называется синтетикой (синтетическими данными) и делается в случаях, когда добыть реальные съемки городов (или туфель) и разметить их оказывается дороже.
Основным заказчиком компьютерной графики становятся социальные сети. Если в сфере кино и телевидения прогресс в области графики скорее количественный, то на территории соцсетей и мобильных приложений постоянно появляется что-то революционное. С одной стороны, это обусловлено растущими возможностями камер (и других датчиков) в телефонах, с другой – гигантской конкуренцией и войной алгоритмов.
Такие компании, как Snapchat и Facebook (Социальная сеть признана экстремистской и запрещена на территории Российской Федерации), внесли огромный научный вклад в области компьютерного зрения, распознавания и обработки изображений. Они первыми получили доступ к огромному количеству фотографий (в частности, лиц), на которых смогли тренировать свои нейросети. Судите сами: Cartoon filter от Snapchat распознает лицо на видео в каждом кадре, включая ключевые точки, строит трехмерную модель, делает захват движения лица (motion capture), переносит движение на трехмерную модель, анимирует ее, добавляет эффекты (волосы, частицы) и рисует – рендерит – все это на экране в реальном времени.
Лет двадцать назад система Performance Animation, которая делала примерно то же самое, стоила больше миллиона долларов. А сейчас все это возможно на телефоне. Например, в айфонах есть ARKit, который распознает движение лица и передает его в любой игровой движок. Дальше можно делать с этим что угодно: выводить живую анимацию на экран стадиона (большие ивенты), стримить в Сети с новым аватаром, записывать влоги, менять облик каждую секунду или участвовать в видеоконференции в образе говорящего кота. Приложения типа Reface позволяют делать на телефоне дипфейки такого качества, которое вполне подходит для использования в рекламе.
И вся эта лавина контента щедро заливается в TikTok, YouTube, Snapchat и другие соцсети. А также, что важно, снова идет на обучение ИИ, который продолжает совершенствоваться в распознавании лиц, поз и движений – и алгоритмах обработки изображений.
Еще один мощный восходящий тренд – цифровые люди. Сегодня в Сеть выложено огромное количество видео и селфи пользователей соцсетей, как правило крупным планом, – алгоритмы распознавания и копирования лиц (и частично тел) на них прокачались очень сильно. За время вынужденного локдауна и благодаря сервисам для видеоконференций поток крупнопланового контента – «говорящих голов» – вырос, и следом сформировался запрос на улучшение этого контента и этих самых голов. В виде фильтров, аватаров и персонажей, заменяющих реальных людей. Тем временем в соцсетях начали появляться цифровые инфлюенсеры – полностью цифровые персонажи, ведущие каналы в Instagram (Социальная сеть признана экстремистской и запрещена на территории Российской Федерации), TikTok и YouТube, например Lil Miquela, Shudu, Bermuda, Sophia The Robot.
Все это резко подстегнуло производство качественных цифровых людей. Но если раньше созданием таких персонажей с нуля занимались высокооплачиваемые профессионалы, то в последнее время – «конструкторы людей» типа iClone или Daz3D. Старожилы могут вспомнить Poser. Но настоящий фурор произвел MetaHuman Creator, выпущенный компанией Epic (владельцем игрового движка Unreal Engine) в феврале 2021 года. Он отличается потрясающей реалистичностью: модели выглядят как фотографии живых людей, причем прямо во вьюпорте, без необходимости рендеринга. Программа умеет интегрироваться с многочисленными системами захвата и генерации движений лица и тела, от Faceware до JALI. Можно снимать себя на телефон и в реальном времени перекладывать все гримасы на персонажа. Которого, к слову, легко собрать по частям (в том числе по фрагментам лица), взяв их из библиотеки. Порог входа в индустрию создания цифровых людей резко снизился, а значит, мир скоро наполнится многочисленными цифровыми инфлюенсерами и прочими порождениями грядущей эпохи киберпанка.
Зловещая долина будущего
Тут самое время порассуждать про эффект «зловещей долины», когда при высокой детализации – особенно в процессе анимации – персонаж становится отталкивающим, пугающим, чужим. Дело в том, что мы видим реальных людей каждый день, поэтому нас трудно обмануть цифровой подделкой. На статичных кадрах это возможно, но анимация сразу выдает «чужого».
В будущем же киберпанке наша насмотренность станет формироваться не только на реальных лицах, но и на аватарах, цифровых людях или хорошо обработанных видеоизображениях. Возможно, тогда эффект «зловещей долины» удастся преодолеть естественным образом: человек просто начнет воспринимать цифровых тварей как «своих».
Картинка из кинотеатра, на которой мы выросли и которая до сих пор задает планку качества, уйдет в прошлое – ее сменит изображение из TikTok, считываемое как «стандартное». Дипфейки перестанут «палиться» по свету просто потому, что глаз к ним привыкнет. Изменятся и требования к качеству изображения. Нынешние геймеры, формирующие насмотренность на картинке из игрового движка, через 10–20 лет начнут снимать свое кино, и визуально оно будет совсем другим. Больше века люди смотрели в кино на других людей, снятых на пленку. А за последние два десятилетия на нас обрушился такой поток визуального контента, который не имеет аналогов в реальном мире. Подросшие геймеры станут создавать новый контент, и культурные коды, сформировавшиеся в кинематографе за сто лет, будут взломаны.
Потребление контента
Еще 25 лет назад расстояние до контента исчислялось в метрах: экраны кинотеатров – 7–10 м, телевизоры – 2–3 м. Потом компьютерные мониторы придвинулись ближе, преодолев метровый барьер. Телефоны и гаджеты сократили расстояние до 30–40 см. VR оказался практически у глаз. Какие способы транспортировки изображения в мозг ждут нас в дальнейшем?
Эксперименты с контактными линзами показали, что проблема перегрева пока нерешаема. Но в последнее время наметился прогресс в области BCI (Brain-Computer Interface, интерфейс «мозг – компьютер»). Здесь и компактные шлемы, снимающие электроэнцефалограммы с помощью сухих электродов, и сенсоры активности челюстных мышц, и проекты типа Neuralink на основе имплантов, вживляемых в мозг. Добавим растущую армию биохакеров, экспериментирующих на поле биокиберпанка.
ИИ активно используется в этой цепочке для анализа реакций мозга на различные сигналы, в том числе визуальные. Уже есть примеры успешного восстановления изображений, которые видит человек, по записи мозговых импульсов. Также ведутся работы по анализу эмоций, вызываемых теми или иными картинками. В конечном итоге ИИ сможет выдавать рекомендации о том, какого рода изображения и видео нужно показывать, чтобы вызвать у зрителя определенную реакцию. На самом низком уровне – на уровне пикселей.
Сейчас практически весь визуальный контент в интернете (и не только) отлично размечен системой рейтингов, лайков, частотами просмотров и статистикой взаимодействия. Все это активно используется, в частности для создания сценариев и оценки будущих фильмов на предмет «взлетит – не взлетит». Анализ текстов и историй с помощью ИИ – дело настоящего.
Однако давайте посмотрим на блокбастеры последних лет. Поскольку бюджеты стали совершенно космическими, инвесторы не хотят рисковать и предпочитают делать продолжения успешных проектов. Это приводит к нашествию сиквелов типа «Трансформеры-2 (3, 4...)» или «Мстители. Бесконечное продолжение», в которых история отодвигается на второй план, а на первый выходит сочная картинка, бьющая прямо в мозг. Форма начинает превалировать над содержанием. И вот тут-то ИИ с помощью нейрофизиологии может нащупать ту самую форму, которая будет воздействовать на зрителя нужным образом. Помните «Хищные вещи века» Стругацких? Примерно так же, только через визуальный канал. Ибо ИИ способен находить в своих латентных пространствах такие закономерности, которые недоступны человеческому мышлению или упускаются им из виду.
Дело в шлеме
Шлемы виртуальной реальности идеально подходят для размещения датчиков кожно-гальванической реакции (уровень стресса), сухих электродов (ЭЭГ), сенсоров мышечных сокращений (озвучивание мыслей), трекеров глаз (динамика радужки). Эти данные будут считываться в процессе просмотра кино или игры и использоваться для обучения нейросетей, которые затем произведут контент, идеально подходящий конкретному зрителю. Персональная визуальная нирвана через созерцание совершенной формы – возможно, уже без всякого содержания. Личная VR-матрица.
Киберпространство за углом
Мы уже живем в киберпространстве. Благодаря лидарам, камерам наблюдения и алгоритмам анализа изображений цифровой двойник этого мира стремительно достраивается. Уже существуют цифровые города-двойники – не только трехмерные копии улиц и зданий, но и вся информационная начинка, от камер наблюдения до многочисленных сенсоров, обновляемая в реальном времени. Такой город живет синхронно со своим прототипом.
Кибердвойники людей появляются в интернете в виде цифровых инфлюенсеров с огромной аудиторией подписчиков. Торговля аватарами становится обыденной, новости читают виртуальные ведущие, а люди охотно натягивают на себя трехмерных персонажей для чатов и видеоконференций. В интернете продается цифровая одежда, единственное предназначение которой – быть примеренной на фото с покупателем, которое тут же будет опубликовано в инстаграме (Социальная сеть признана экстремистской и запрещена на территории Российской Федерации). Боты берут на себя все большую часть коммуникации между людьми и компьютерными сущностями. Курсы цифровых валют растут. И вся эта симуляция реального мира обретает красивые графические очертания на экранах устройств, которые становятся все ближе к нашему мозгу благодаря 3D, ИИ и нейрофизиологии.
Людям остается холить свои социальные рейтинги, улучшать аватаров, загружать данные с «умных» часов и камер наблюдения – то есть прокачивать своих цифровых двойников, которые уже давно живут рядом. Мы просто пока их плохо видим. Но ничего: ИИ, хорошая графика и новые очки скоро наведут резкость на этом экране.