Программист Эндрю Кантино рассказал, что сделал расширение для модификации страниц в Google Chrome, работающее на основе ИИ-ассистента для разработки OpenAI Codex.
«Умный» браузер
Плагин позволяет при помощи простых команд на английском языке изменять различные элементы веб-страницы и выполнять действия с ними. По словам разработчика, OpenAI Codex хорошо знает DOM-макеты веб-сайтов, благодаря чему почти всегда понимает, что именно хочет сделать пользователь.
При помощи расширения в специальном текстовом поле можно ввести фразы, например change URL to github profile («измени URL на профиль GitHub), find the biggest image on page («найди самое большое изображение на странице» и now open it in a new tab («теперь открой это изображение в новой вкладке»). Плагин способен корректно исполнять подобные команды и выполнять требуемые действия на открытой веб-странице.
Сейчас оценить все возможности разработки Эндрю Кантино нельзя – сервис OpenAI Codex доступен лишь для бета-тестеров. Однако программист записал видеоролик с демонстрацией работы плагина. В нем, кроме всего прочего, автор проекта показывает, как нейросеть умеет распознавать необходимую форму на веб-странице и заполнять ее текстом.
Потенциальные проблемы
Виртуальный ассистент для программистов Codex был представлен в середине августа компанией OpenAI, занимающейся разработкой языковых моделей для обучения нейросетей. Сервис предназначен для генерации программного кода на основе команд пользователя, введенных на обычном английском языке.
Для демонстрации возможностей сервиса было записано видео с созданием простой видеоигры. Однако эксперт по технологиям Бен Диксон отмечает, что в презентации можно заметить моменты, где искусственный интеллект не совсем корректно решает поставленные задачи. К примеру, при генерации кода, который выводит фразу «Hello World» пять раз подряд, нейросеть вместо цикла использовала метод, который вывел пять сообщений рядом друг с другом.
Также аналитик обращает внимание, что сервис не всегда применяет оптимальные способы решения проблем. Это заметно в моменте, где ИИ пытается увеличить изображение на веб-странице: нейросеть использовала неудобную инструкцию CSS, хотя было достаточно просто изменить ширину и высоту картинки.
Иногда Codex и вовсе не может правильно написать код без прямой подсказки разработчика. Диксон отмечает, что при создании игры искусственный интеллект не смог сгенерировать код, определяющий момент поражения игрока. Вместо этого нейросеть создавала функцию для отслеживания нажатия на пробел. Сотруднику OpenAI пришлось очень детально описать ИИ задачу, чтобы он смог правильно решить ее.