Сервис ruDALL-E способен генерировать изображения с нуля по текстовому описанию на русском языке. Авторы полагают, что модель будет полезна для создания рекламного, архитектурного и промышленного дизайна.
Как работает
Нейросеть обучена одновременно на двух типах данных: иллюстрациях и текстовых материалах. Благодаря этому она способна генерировать неограниченное количество новых изображений по описанию, введенному пользователем. Опробовать результат машинного обучения можно на официальном сайте сервиса ruDALL-E.
Создание картинки проходит в три этапа. Сперва нейросеть обрабатывает введенный текст и генерирует определенное число иллюстраций. После этого алгоритм отбирает из получившихся вариантов наиболее удачные и подходящие под описание. На финальной стадии программа улучшает качество отобранного изображения, увеличивает его в размере и демонстрирует пользователю.
Примеры генерации нейросети по описанию «Ежик в тумане»
Подробности разработки
В разработке ruDALL-E принимали участие команды SberDevices, Sber AI и SberCloud. Разработчики на базе публикации OpenAI воспроизвели код и смогли запустить обучение нейросети на платформе ML Space, которая работает на мощностях суперкомпьютера «Кристофари».
В итоге проект «Сбера» стал самой большой моделью такого рода в мире, которая способна работать с русскими описаниями. Процесс обучения занял 24 тысячи GPU-часов, за это время программа обработала массив данных из 120 миллионов пар «текст-изображение».
По словам Давида Рафаловского, исполнительного вице-президента «Сбербанка» и руководителя блока «Технологии», проект ruDALL-E – настоящий прорыв для русскоязычной индустрии. Еще два года назад постановку подобной задачи было невозможно вообразить.
Результат генерации по запросу «1С программист»
Открытые модели
Сейчас у разработчиков готовы две модели разного размера, которые получили имена двух известных российских художников-абстракционистов – Василия Кандинского и Казимира Малевича:
- ruDALL-E Kandinsky (XXL), содержащая 12 миллиардов параметров;
- ruDALL-E Malevich (XL) с 1,3 миллиардов параметров.
Модель XL уже можно бесплатно скачать с Github и использовать. Также в open source «Сбер» выложил еще несколько своих разработок, связанных с генерацией изображений:
- Sber VQ-GAN;
- ruCLIP Small;
- Super Resolution (Real ESRGAN).
Также команда разработчиков рассказала о масштабах проделанной работы. Модель ruDALL-E Kandinsky прошла обучение в 37 дней на базе оборудования с 512 GPU TESLA V100, а после дообучалась 11 дней на 128 GPU TESLA V100. Всего подготовка модели заняла 20 352 GPU-дней. Для подготовки ruDALL-E Malevich потребовалось 8 дней и устройства с 128 GPU TESLA V100, а потом еще 15 дней на 192 GPU TESLA V100, что в сумме составило 3 904 GPU-дня.
Результат генерации по запросу «Инфостарт»