Исследователи из технологического университета Карнеги-Меллона (США) создали нейросеть, которая оперативно и реалистично передает мимику и действия персонажа из одного видео в другое.
Как это работает
Нейросеть использует класс неконтролируемых алгоритмов машинного обучения, называемых генеративными состязательными сетями (GAN), которые применяют стиль одного изображения к другому. Их часто используют для создания поддельных фотографий.
GAN алгоритмы используют две модели: одну – для создания изображений или видео в соответствии с определенным стилем, а другую – для определения различий между стилями изображений или видео. Два принципа «конкурируют», в результате чего GAN обучается более точно преобразовывать стиль контента.
Чтобы улучшить метод, исследователи Университета Карнеги-Меллона разработали новую технологию Recycle-GAN, которая включает временную, а также пространственную информацию для улучшения результатов. Поскольку этот метод не требует контроля, он способен быстро изменять большое количество видео.
Другими словами, контент, который переносится с одного видео на другое, зависит не только от сопоставления пространства, но и от порядка кадров. Степень синхронизации этих двух показателей позволяет сделать подмену максимально реалистичной.
Демонстрация подмены
Чтобы продемонстрировать свою работу, исследователи перенесли выражение лица комика Джона Оливера на видео с персонажем мультфильма о лягушке. Руководитель проекта Ааюш Бансал рассказал, что главной его мотивацией в разработке технологии стала возможность создания эффективных инструментов для кинематографа. «Это инструмент для художников, который дает им возможность улучшить исходную модель», – сказал он.
Исследователи также продемонстрировали возможности технологии Recycle-GAN, передав выражения лица и движения между двумя видеороликами. Например, мимику экс-президента США Барака Обамы «передали» действующему главе государства Дональду Трампу.
Оказалось, что технологию Recycle-GAN можно применять не только к видео-изображениям людей. Например, в следующем видео нарцисс «заставили» цвести так же, как гибискус:
Сферы применения
Исследователи предполагают, что технологию можно использовать при переводе черно-белых фильмов в цветное изображение или в процессе создания контента для приложений виртуальной реальности (VR). Ааюш Бансал говорит, что алгоритм может быть полезен для беспилотных автомобилей: например, тренировочные кадры для вождения в ночное время станут более реалистичными. Но существует опасность, что эта технология может быть использована и для «deepfakes»: этот механизм подменяет изображения людей в фото- и видео-контенте и нередко используется в неблаговидных целях.
Безликая опасность
Порнографические «deepfakes» недавно были запрещены на Reddit и других интернет-платформах, которые поддерживают пользовательский контент. В конце 2017 года на Reddit появилось несколько роликов порнографического содержания, в которых лица актрис заменили на лица знаменитостей.
Американские конгрессмены уже попросили директора национальной разведки США оценить угрозу технологии «deepfakes» для национальной безопасности. Представители правительства и конгресса обеспокоены возможностью использования подобных технологий для ведения информационной войны и провокаций против Соединенных Штатов.
Сможет ли российская система распознавания лиц FindFace Security от «Ростех», которую внедрили во время ЧМ-2018 в России, выявить подделку, созданную американским алгоритмом? И что будет, если в конечном итоге эти две технологии начнут конкурировать?