В ходе серии экспериментов исследователи Google Brain научили искусственный интеллект менять свое строение для решения поставленных задач: например, «отращивать» ноги для преодоления препятствий.
Google Brain – исследовательский проект Google по изучению искусственного интеллекта на основе глубокого обучения.
Обучение вместо эволюции
Чаще всего цель обучения ИИ состоит в том, чтобы изучить политику манипулирования виртуальным агентом, конструкция которого фиксирована и редко подходит для выполнения конкретной задачи. Но разработчики утверждают, что агент может не только улучшить свою структуру, но и облегчить процесс обучения при этом.
Ходок из многоугольника с парой ног путешествовал в среде OpenAI Gym. Ландшафт при этом генерировался случайно. Боту нужно было пройти по этой местности, меняя толщину и размер ног для успешного выполнения задания.
Процесс обучения был аналогичен методу проб и ошибок, за исключением того, что боты вознаграждаются за хорошие стратегии и их реализации. Решения, принятые в таких условиях, оказываются нестандартными и предсказуемыми для человека.
Вооружившись способностью изменять конфигурацию тела агента, Дэвид Ха из Google Brain с коллегами решил изучить, как побудить бота бросить вызов себе, вознаграждая его за сложные решения. Например, перенос одной и той же полезной нагрузки с использованием меньших ног может привести к более высокой награде, чем в случае с длинными ногами.
За основу исследования программисты взяли принцип, согласно которому эволюция формирует общую структуру тела конкретного вида, но организм также может изменяться и адаптироваться к окружающей среде в течение жизни.
А я милого узнаю по походке
Эксперимент Google Brain не первый в своем роде. Аналогичные опыты проводила и компания Roboschool. У ее виртуальной среды есть собственный агент по имени Ant. Его тело поддерживают четыре ноги, и каждая из них состоит из трех частей, которые контролируются двумя моторными суставами.
Агент развивает более длинные и тонкие ноги, поддерживая одно и то же тело во время тренировки
На видео видно, как собственный дизайн тела агента отличается от оригинального: он учится развивать более длинные и тонкие ноги, параллельно изучая перенос тела через окружающую среду. При этом одна нога оказывается более крупной, обеспечивая большую стабильность.
Возможность улучшать версию своего тела помогает агенту достичь большей производительности. Но с помощью подобных опытов можно решать и другие задачи, не всегда полезные для производительности. Например, агент сможет изучать дизайн, для воплощения которого требуется меньшее количество материалов, достигая при этом удовлетворительного качества работы.
Результаты исследования
Программисты Google Brain пришли к выводу, что обучение агента с положительным подкреплением позволяет свести к минимуму вмешательство человека. Но повсеместно применять эту методику нельзя, ведь может случиться так, что требующего наименьших затрат решения не окажется, и робот не решит поставленную задачу без участия инженеров.
Использовать методику команда Google Brain предлагает для проектирования аэродинамических форм, испытаний материалов, создания роботов или улучшения компьютерной графики.