Команда общественного исследовательского Университета Пердью изучила, как искусственный интеллект справляется с задачами по разработке кода. Ученые выяснили, что чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки.
Процент неточностей
Команда ученых выяснила, как ChatGPT справится с 517 вопросами, взятыми со Stack Overflow. Цель эксперимента – оценить правильность, последовательность, полноту и краткость ответов искусственного интеллекта. Исследователи провели лингвистический анализ и анализ тональности сгенерированных решений. Также результаты работы чат-бота оценили 12 добровольцев.
В итоге 52% ответов ChatGPT оказались ошибочными, а 77% были расценены как излишне многословные. Ученые пришли к выводу, что корректность работы ИИ хуже, чем выбор ответа при помощи подбрасывания монетки. Чаще всего чат-бот допускает концептуальные неточности, а не фактические. Нейросеть не всегда могла правильно оценить контекст вопроса и генерировала неподходящий результат.
Как нейросети убеждают пользователя в том, что правы
Участники исследования при сравнении ответов от ChatGPT и пользователей Stack Overflow в 39,34% случаев отдали предпочтение нейросети. При этом 77% выбранных советов были ошибочными. Чаще всего участников эксперимента подкупала четкая формулировка текста от чат-бота. Они замечали неточности в ответах только при очевидных ошибках в коде. Если определить некорректность можно было только при обращении к документации или инструментам разработчика, то добровольцы пропускали ее.
По мнению исследователей, причина такого поведения – особенности стиля ChatGPT. Нейросеть старается генерировать ответы авторитетно, используя вежливые обращения, четкие формулировки, подробные описания с многочисленными уточнениями. Такой формат общения заставляет человека воспринимать совершенно неправильные решения как верные.
По словам ученых, двое добровольцев выбирали ответ ChatGPT вместо информации со Stack Overflow даже при наличии вопиющих ошибок в совете нейросети.
Дальнейший лингвистический анализ чат-бота позволил сделать вывод, что текст от чат-бота более формальный, выражает более аналитическое мышление, демонстрирует больше усилий для достижения целей. ИИ проявляет меньше негативных эмоций, его ответы более позитивные, чем рекомендации от пользователей Stack Overflow.
Как популярность ChatGPT повлияла на трафик Stack Overflow
Спойлер: не очень хорошо
Исследователи установили связь между ростом популярности ChatGPT и снижением трафика Stack Overflow. С января 2022 года форум разработчиков ежемесячно теряет 6% своей аудитории. В марте падение достигло 13,9%. При этом опрос пользователей площадки среди 90 тыс. программистов показал, что 77% респондентов позитивно оценивают инструменты на базе ИИ. Не доверяют нейросетям только 44% разработчиков.
Схожие данные приводит GitHub. Согласно данным исследования, 70% пользователей репозитория считают, что чат-боты положительно влияют на навыки программиста.