В Google научились увеличивать изображения в 16 раз с восстановлением деталей

В Google научились увеличивать изображения в 16 раз с восстановлением деталей
09.09.2021
15517

Раньше увеличить видео с камер наблюдения в десятки раз получалось только у героев фильмов. Но теперь такая возможность существует и в реальной жизни – инженеры Google разработали прорывную технологию масштабирования изображений.

Из одного пикселя – шестнадцать

Исследователи команды Brain Team опубликовали статью «Создание высокоточных изображений с использованием диффузных моделей» в блоге Google AI, который посвящен разработкам в сфере искусственного интеллекта.

Концепцию диффузных моделей впервые предложили в 2015 году. До недавнего времени они уступали глубоким генеративным моделям, но сейчас специалисты представили впечатляющие результаты применения новых подходов.

Brain Team создала модели машинного обучения и натренировала их превращать фотографии с низким разрешением в максимально детализированные изображения. Исследователи использовали сразу несколько технологий. Например, в диффузных моделях SR3 сверхвысокое разрешение достигается посредством повторного уточнения.

 

 

Модель SR3 обучается процессу искажения изображений, при котором к оригинальной картинке низкого разрешения постепенно добавляется шум (пиксели случайных цветов, расположенные в произвольных местах). В какой-то момент на фото останется только чистый шум – все оригинальные пиксели замещаются.

Если модель понимает, как это произошло, то она с высокой точностью сможет реализовать обратную процедуру – убрать шум с изображения, а также повысить его разрешение. Результат работы технологии:

 

 

Специалисты обнаружили, что SR3 хорошо работает при масштабировании портретов и естественных изображений. При 8-кратном увеличении лиц коэффициент смешения модели достигает 50%: это значит, что в половине случаев оригинальное фото высокого разрешения не отличить от увеличенного. Существующие методы обеспечивают сходные результаты лишь в 34% случаев.

Исследователи улучшили SR3 и получили CDM – условно-классовую диффузную модель. Фактически это целый каскад моделей машинного обучения: первая генерирует данные с низким разрешением, а каждая следующая постепенно его повышает.

CDM обучили на выборке фотографий сети ImageNet. В наборе примеров можно увидеть, как каскадно масштабируются изображения: от картинки 32×32 пикселя до 64×64 пикселей, а затем до 256x256 пикселей. Снимок размером 64×64 пикселя может быть увеличен до 256×256 пикселей, а затем до 1024×1024 пикселей.

 

 

Потенциал решения

Технология поможет улучшить качество самых разных изображений – от старых кинолент до звонков по видеосвязи, от исторических фото прошлых веков до результатов медицинских исследований.

В Google признали, что модели порой ошибаются и неверно воспроизводят детали. Например, на восстановленном изображении высокого разрешения может не оказаться тонкой оправы очков или других изящных деталей – и как раз за счет этого человек поймет, что фото не оригинальное. Но результаты, представленные в репозиториях моделей, открывают широкие возможности для масштабирования фото и видео и дальнейшего развития технологий машинного обучения.

Репозиторий SR3
Репозиторий CDM

Если вам удобнее смотреть новости в телеграме, то вот наша группа – ИНФОСТАРТ.

Автор:
Обозреватель

См. также

После ухода Slack из России в 2024 году бизнес стал переходить на отечественные корпоративные мессенджеры. Один из самых универсальных — 1С-Коннект. Расскажем подробнее о нём и других решениях российских разработчиков.

24.04.2025    360    AnastasiaKl    4       

3

С января по март 2025 года Ассоциация КП ПОО провела исследование отечественных систем виртуализации, коммуникации и контейнеризации по 266 показателям. Результаты показали, что медианная технологическая зрелость у этих ИТ-решений превышает 75%.

04.04.2025    1141    orenk0t    1       

0

Минцифры подготовило проект постановления по запуску платформы, на которой ИТ-специалисты могут пройти добровольное тестирование и подтвердить свою квалификацию.

11.12.2024    1142    user1915669    3       

2

Федеральная налоговая служба запустила интерактивный сервис, позволяющий формировать в машиночитаемом виде договоры, контракты, соглашения и спецификации. Чтобы создать документ и скачать получившийся файл, регистрация не требуется.

03.12.2024    919    user2114475    0       

2

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    1057    user1915669    0       

3

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    1394    AnastasiaKl    0       

4

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    1315    user1915669    2       

2

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    977    user1915669    0       

2

Комментарии

Инфостарт бот
1. vipetrov2 10.09.21 07:17 Сейчас в теме
Это по сути дорисовывание, а не увеличение. Для улучшения качества старых фильмов это очень хорошо. А вот для профессиональной деятельность это все баловство, например, для расследования увидеть на фото плохого качества из 10х10 пикселей лицо не выйдет.
Фотокамеры смартфонов уже давно этим занимаются, там реальные оптические камеры на 3-5М пикселей, а дают изображения на 16М пикселей, в итоге лица у всех, как из пластилина. Кому то нравится, прыщей, морщин не видно, но это уже не фотография, а художественный рисунок.
user790708; +1 Ответить
2. Xershi 10.09.21 08:59 Сейчас в теме
(1) так название метода об этом и говорит.
В целом отличный инструмент.
3. dka80 10.09.21 13:43 Сейчас в теме
(1)
реальные оптические камеры на 3-5М пикселей, а дают изображения на 16М пикселей

это так, но не совсем так. Действительно, реальных пикселей там примерно в 2,33 раза меньше, чем заявлено. Но это связано с тем, что один реальный пиксель обрабатывается тремя цветовыми пикселями. На хабре была хорошая статья про это.

Оставьте свое сообщение