Искусственный интеллект научился обыгрывать людей, не зная правил игры

20.01.2021      16071

Британская компания DeepMind представила новую разработку в сфере искусственного интеллекта. Система MuZero успешно обыгрывает опытных спортсменов и геймеров, даже не зная правил игры.

База для разработки

DeepMind, которая вместе с Google входит в холдинг Alphabet, считается одним из лидеров в сфере разработки систем искусственного интеллекта. Несколько лет назад DeepMind представила систему, которая смогла победить чемпиона по игре в японские шашки го. Решение не раз выигрывало у профессионалов в шахматы и в японскую стратегическую игру сёги. 

 

 

Разработчики DeepMind научили ИИ проходить компьютерные игры, выпущенные Atari (для них создана специальная платформа для машинного обучения), а также Quake и StarCraft. Но во всех этих случаях в систему вводили четкие правила игры и использовали методики обучения с положительным подкреплением.

Новый этап

Главное отличие свежей разработки MuZero – в том, что эта система изначально не знает правил игры. При этом она демонстрирует столь же высокие результаты, что и предшественники, а часто даже превосходит их – и в го, и в шахматах, и в компьютерных играх.

 

 

В основу системы легли технологии упреждающего поиска. MuZero оценивает реакции и действия оппонента-человека, чтобы определить количество возможных ходов. В большинстве сложных игр число вариантов крайне велико, поэтому система выделяет самые актуальные и наиболее вероятные маневры. 

MuZero моделирует три элемента среды, которые имеют решающее значение для планирования:

  • Значение: насколько хороша текущая позиция?
  • Политика: какое действие лучше всего предпринять?
  • Награда: насколько хорошим было последнее действие?

На каждом шаге MuZero выполняет поиск по дереву методом Монте-Карло. Система оперирует информацией о текущем и предыдущем состояниях, а также об исходе последнего действия. На основе этой информации предсказывает возможные исходы следующего шага и выбирает действие, которое в долгосрочной перспективе приведет к наилучшему результату. Это помогает MuZero избегать неудачных путей развития событий и запоминать успешные шаги. 

Старший исследователь DeepMind Дэвид Сильвер отметил: «Впервые у нас действительно есть система, способная вывести собственное понимание того, как устроен мир, и использовать это понимание для выполнения такого сложного упреждающего планирования, которое вы могли наблюдать при игре в шахматы. … [MuZero] может начать с нуля и методом проб и ошибок открыть правила мира, а также использовать эти правила для достижения сверхчеловеческой производительности».

Варианты использования

MuZero обладает огромным потенциалом в решении практических задач. Например, она сможет улучшить показатели сжатия видео – а это для Google, которая занимается поддержкой крупнейшего в мире видеохостинга YouTube, крайне важно. Специалисты уже достигли 5% повышения качества сжатия и не собираются на этом останавливаться. 

Лаборатория Сильвера также запустила исследования в области программирования роботов и разработки архитектуры новых белковых соединений. Это потенциально поможет заменять людей на любых производствах и создавать персонализированные лекарства. 

Обратная сторона медали

Профессор информатики Саутгемптонского университета и члена Совета Англии по искусственному интеллекту Венди Холл отметила: решения DeepMind создаются на благо общества. Но разработчики не всегда могут предугадать, где именно будут применяться технологии. 

В прошлом году исследователи компании опубликовали ранние работы по MuZero. Американские ВВС использовали эти материалы для разработки системы искусственного интеллекта, которая могла бы запускать ракеты с самолета-разведчика U-2 по указанным целям.

Дэвид Сильвер признался, что разделяет эти опасения, и высказался против применения искусственного интеллекта в любом летальном оружии. Он выразил сожаление, что в деле запрета подобных разработок пока нет особого прогресса. 

Сильвер также добавил, что DeepMind и её сооснователи подписали Клятву о смертельном автономном оружии. В документе говорится, что смертоносные технологии всегда должны оставаться под контролем человека, а не алгоритмов на основе искусственного интеллекта.

Автор:
Обозреватель


См. также

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    213    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    264    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    498    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1028    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    851    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    641    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    791    VKuser24342747    2       

1

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    1025    VKuser24342747    2       

3
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Sikh 20.01.21 14:06 Сейчас в теме
Ну в играх с конечным набором правил это возможно и сработает. Но уже скажем управление автомобилем это игра с бесконечным набором правил, потому что предсказать и предусмотреть все возможные ситуации на дороге просто невозможно. Нужно постоянно адаптироваться. И тут искусственный интеллект не поможет. Любая принципиально новая ситуация и машина будет вставать в позу "А че так можно было?". Потом что делать, если ваш оппонент нарушает правила? Откуда машина об этом узнает? Вот в шашки есть просто шашки, есть поддавки и вообще есть вышибалы, в какую игру в данный момент идет игра как машина отличит?
2. vipetrov2 21.01.21 08:23 Сейчас в теме
(1) Да, там очень много логических проблем. Но главная это экономическая, энергопотребление таких систем мегаваттами измеряется и стоит очень дорого. А в свете остановки роста производительности процессоров, эта задача вообще не решаема в ближайшие десятиления.
Оставьте свое сообщение