Разработчики компании OpenAI представили нейронную сеть DALL-E. Она анализирует англоязычный текст и создает изображения на его основе.
В духе великого испанца
Создатели назвали нейросеть в честь испанского художника Сальвадора Дали и робота WALL-E из мультфильма Pixar.
DALL-E успешно справится даже со странными запросами. Вот так, например, выглядит кресло в форме авокадо:
А так – улитка в виде арфы:
Как работает нейросеть
В основу DALL-Е легла архитектура нейросети GPT-3, которая создает тексты на основе заданных параметров. Эта сеть неделю выдавала себя за человека, генерируя посты для блога.
DALL-E – расширение GPT-3 – задействует 12 млрд параметров. Она умеет анализировать текстовые запросы, находить в них объекты и смыслы, составлять изображения, пользуясь базой основных картинок.
Формально на вход поступает 1280 токенов: 256 содержат текст, 1024 – фрагменты изображения. Затем нейросеть по авторегрессионной модели создает новые картинки.
Основные навыки
DALL-Е может создавать картины с одним или несколькими объектами, передавать объем и перспективу, восстанавливать фото по его части. При создании фото она учитывает местные особенности: например, национальной еды или пейзажей.
Нейросеть добавляет надписи в различных стилях на дорожные знаки или рекламные таблички.
Кроме того, DALL-E умеет достраивать недостающие фрагменты изображений. Например, для решения задачи на уровень IQ.
Разработчики подчеркнули: DALL-Е понимает сложные фразы и способна генерировать абстракции. В результате создаются объекты, которых не существует в реальном мире – речь идет именно о генерации, а не о наилучшей поисковой выдаче.
В OpenAI отметили, что в будущем собираются применять DALL-E и подобные ей нейросети для решения мировых проблем. Например, прогнозировать востребованность профессий, как будут развиваться производства и экономика в целом.