«Сбер» представил нейросеть для генерации картинок по описанию

11.11.2021      22088

Сервис ruDALL-E способен генерировать изображения с нуля по текстовому описанию на русском языке. Авторы полагают, что модель будет полезна для создания рекламного, архитектурного и промышленного дизайна.

Как работает

Нейросеть обучена одновременно на двух типах данных: иллюстрациях и текстовых материалах. Благодаря этому она способна генерировать неограниченное количество новых изображений по описанию, введенному пользователем. Опробовать результат машинного обучения можно на официальном сайте сервиса ruDALL-E.

Создание картинки проходит в три этапа. Сперва нейросеть обрабатывает введенный текст и генерирует определенное число иллюстраций. После этого алгоритм отбирает из получившихся вариантов наиболее удачные и подходящие под описание. На финальной стадии программа улучшает качество отобранного изображения, увеличивает его в размере и демонстрирует пользователю.

 

Примеры генерации нейросети по описанию «Ежик в тумане»

 

Подробности разработки

В разработке ruDALL-E принимали участие команды SberDevices, Sber AI и SberCloud. Разработчики на базе публикации OpenAI воспроизвели код и смогли запустить обучение нейросети на платформе ML Space, которая работает на мощностях суперкомпьютера «Кристофари».

В итоге проект «Сбера» стал самой большой моделью такого рода в мире, которая способна работать с русскими описаниями. Процесс обучения занял 24 тысячи GPU-часов, за это время программа обработала массив данных из 120 миллионов пар «текст-изображение».

По словам Давида Рафаловского, исполнительного вице-президента «Сбербанка» и руководителя блока «Технологии», проект ruDALL-E – настоящий прорыв для русскоязычной индустрии. Еще два года назад постановку подобной задачи было невозможно вообразить.

Результат генерации по запросу «1С программист»

 

Открытые модели

Сейчас у разработчиков готовы две модели разного размера, которые получили имена двух известных российских художников-абстракционистов – Василия Кандинского и Казимира Малевича:

  • ruDALL-E Kandinsky (XXL), содержащая 12 миллиардов параметров;
  • ruDALL-E Malevich (XL) с 1,3 миллиардов параметров.

Модель XL уже можно бесплатно скачать с Github и использовать. Также в open source «Сбер» выложил еще несколько своих разработок, связанных с генерацией изображений:

Также команда разработчиков рассказала о масштабах проделанной работы. Модель ruDALL-E Kandinsky прошла обучение в 37 дней на базе оборудования с 512 GPU TESLA V100, а после дообучалась 11 дней на 128 GPU TESLA V100. Всего подготовка модели заняла 20 352 GPU-дней. Для подготовки ruDALL-E Malevich потребовалось 8 дней и устройства с 128 GPU TESLA V100, а потом еще 15 дней на 192 GPU TESLA V100, что в сумме составило 3 904 GPU-дня.

 

Результат генерации по запросу «Инфостарт»


Автор:
Аналитик


См. также

Новость ИТ-Новость

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    669    user1915669    0       

2

Новость ИТ-Новость

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    895    AnastasiaKl    0       

3

Новость ИТ-компания ИТ-Новость

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    945    user1915669    2       

2

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    600    user1915669    0       

2

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    720    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    801    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    768    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1646    AnastasiaKl    3       

3
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Obertone 77 11.11.21 13:01 Сейчас в теме
Неизвестно, как эта технология будет полезна для создания рекламного, архитектурного и промышленного дизайна, а вот то, что качество этого дизайна и его реализаций может снизиться, нельзя исключить.

К тому же, как гласит один комментарий в статье о фальш-лицах,
"все эти "достижения" (распознавание лиц, фокусы с нейросетями) однажды будут запрещены международной конвенцией так же, как запрещены сейчас химическое оружие, кассетные боеприпасы и экспансивные пули. Когда-то это все тоже было достижением инженерии и вызывало восторг в определенных кругах. Вопрос только в том, понадобится ли для этого глобальный катаклизм".
2. starik-2005 3087 11.11.21 13:40 Сейчас в теме
Пенсионеры - что с них взять.
3. SergeyTerentyev 11.11.21 14:00 Сейчас в теме
Такой бред мне нагенерила
Obertone; +1 Ответить
4. info1i 236 11.11.21 21:16 Сейчас в теме
Прогресс, конечно велик!
Но решение еще сырое.
Описание:
"Светлый день, солнце светит ярко. Дом большой и крепкий, возле дома сад весь в зеленой траве. В саду длинные ряды деревьев: яблони, сливы, абрикосы, груши, персики, черешни, вишни.
Все деревья полны плодами.
"
Вот результат:
Прикрепленные файлы:
dpershin; +1 Ответить
5. papami 56 11.11.21 23:17 Сейчас в теме
Кот в сапогах
Прикрепленные файлы:
6. Tejmur 16.11.21 21:50 Сейчас в теме


Угадайте, что я написал?
7. Obertone 77 17.11.21 07:59 Сейчас в теме
(6) Всадник без головы? Конь апакелипсиз ("приехавшей мамы")? Гуигнгнм? :)
8. Obertone 77 17.11.21 09:51 Сейчас в теме
(6) Ещё один вариант ответа: роболошадь. :)
9. Tejmur 17.11.21 13:51 Сейчас в теме
(8) почти ) Это конь в пальто :)
10. Obertone 77 17.11.21 15:41 Сейчас в теме
(9) Глядя на картинку, подумаешь больше о пальто из коня на вешалке,
чем о коне в пальто. Или о лошади, которая поедает пальто и галстук (вообразите, что будет, если таковая окажется в жизни).

Вот если бы нейросети стали применять для отделения голоса от фоновой музыки....
Куда более практичная задача, нежели генерация картинок. А визуально можно вообразить и самому лучше картиночной нейросети.
11. for_sale 976 05.12.21 22:13 Сейчас в теме
(6) Глядя на эту картинку, словно слышу "УБЕЙТЕ МЕНЯ!!!"
Оставьте свое сообщение