Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

Команда общественного исследовательского Университета Пердью изучила, как искусственный интеллект справляется с задачами по разработке кода. Ученые выяснили, что чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки.

Процент неточностей

Команда ученых выяснила, как ChatGPT справится с 517 вопросами, взятыми со Stack Overflow. Цель эксперимента – оценить правильность, последовательность, полноту и краткость ответов искусственного интеллекта. Исследователи провели лингвистический анализ и анализ тональности сгенерированных решений. Также результаты работы чат-бота оценили 12 добровольцев.

В итоге 52% ответов ChatGPT оказались ошибочными, а 77% были расценены как излишне многословные. Ученые пришли к выводу, что корректность работы ИИ хуже, чем выбор ответа при помощи подбрасывания монетки. Чаще всего чат-бот допускает концептуальные неточности, а не фактические. Нейросеть не всегда могла правильно оценить контекст вопроса и генерировала неподходящий результат.

Как нейросети убеждают пользователя в том, что правы

Участники исследования при сравнении ответов от ChatGPT и пользователей Stack Overflow в 39,34% случаев отдали предпочтение нейросети. При этом 77% выбранных советов были ошибочными. Чаще всего участников эксперимента подкупала четкая формулировка текста от чат-бота. Они замечали неточности в ответах только при очевидных ошибках в коде. Если определить некорректность можно было только при обращении к документации или инструментам разработчика, то добровольцы пропускали ее.

По мнению исследователей, причина такого поведения – особенности стиля ChatGPT. Нейросеть старается генерировать ответы авторитетно, используя вежливые обращения, четкие формулировки, подробные описания с многочисленными уточнениями. Такой формат общения заставляет человека воспринимать совершенно неправильные решения как верные.

По словам ученых, двое добровольцев выбирали ответ ChatGPT вместо информации со Stack Overflow даже при наличии вопиющих ошибок в совете нейросети.

Дальнейший лингвистический анализ чат-бота позволил сделать вывод, что текст от чат-бота более формальный, выражает более аналитическое мышление, демонстрирует больше усилий для достижения целей. ИИ проявляет меньше негативных эмоций, его ответы более позитивные, чем рекомендации от пользователей Stack Overflow.

Как популярность ChatGPT повлияла на трафик Stack Overflow

Спойлер: не очень хорошо

Исследователи установили связь между ростом популярности ChatGPT и снижением трафика Stack Overflow. С января 2022 года форум разработчиков ежемесячно теряет 6% своей аудитории. В марте падение достигло 13,9%. При этом опрос пользователей площадки среди 90 тыс. программистов показал, что 77% респондентов позитивно оценивают инструменты на базе ИИ. Не доверяют нейросетям только 44% разработчиков.

Схожие данные приводит GitHub. Согласно данным исследования, 70% пользователей репозитория считают, что чат-боты положительно влияют на навыки программиста.

Если вам удобнее смотреть новости в телеграме, то вот наша группа – ИНФОСТАРТ.

Автор:

Александр Вашкевич

Аналитик

Хакатон «Лидеры цифровой трансформации»: открыт прием заявок

+3 –

Новость ИТ и 1С Бизнес-аналитик Программист

До 18 сентября подавайте заявку на цифровое событие года – хакатон «Лидеры цифровой трансформации». Участников ждут 20 задач от крупных компаний, 40 млн рублей призового фонда, 14 дней онлайн-кодинга и финальный фестиваль в Москве.

16.09.2025 1264 AnastasiaKl 0

Slack ушел – 1С-Коннект и другие российские мессенджеры занимают его место

+3 –

Новость Импортозамещение ИТ и 1С

После ухода Slack из России в 2024 году бизнес стал переходить на отечественные корпоративные мессенджеры. Один из самых универсальных — 1С-Коннект. Расскажем подробнее о нём и других решениях российских разработчиков.

24.04.2025 3075 AnastasiaKl 5

Российские решения готовы занять место зарубежных в трех классах ИТ-средств

+3 –3

Новость ИТ-компания ИТ и 1С

С января по март 2025 года Ассоциация КП ПОО провела исследование отечественных систем виртуализации, коммуникации и контейнеризации по 266 показателям. Результаты показали, что медианная технологическая зрелость у этих ИТ-решений превышает 75%.

04.04.2025 2692 orenk0t 1

Минцифры планирует создать платформу для подтверждения навыков ИТ-специалистов

+2 –

Новость ИТ и 1С

Минцифры подготовило проект постановления по запуску платформы, на которой ИТ-специалисты могут пройти добровольное тестирование и подтвердить свою квалификацию.

11.12.2024 3125 user1915669 3

ФНС открыла бесплатный сервис для формирования машиночитаемых документов

+2 –

Новость ИТ и 1С ФНС ЭДО

Федеральная налоговая служба запустила интерактивный сервис, позволяющий формировать в машиночитаемом виде договоры, контракты, соглашения и спецификации. Чтобы создать документ и скачать получившийся файл, регистрация не требуется.

03.12.2024 2492 user2114475 0

Альянс по ИИ опубликовал новую модель с профессиями и компетенциями

+3 –

Новость ИТ и 1С

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024 2737 user1915669 0

В России планируют внедрять новые системы безналичных расчетов: «Волна» и BRICS Pay

+4 –

Новость ИТ и 1С

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев iPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024 3371 AnastasiaKl 0

Конструктор сайтов Wix уходит из России с 12 сентября

+2 –

Новость ИТ-компания ИТ и 1С

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024 3094 user1915669 2

Для отправки сообщения требуется регистрация/авторизация

Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

Процент неточностей

Как нейросети убеждают пользователя в том, что правы

Как популярность ChatGPT повлияла на трафик Stack Overflow

Спойлер: не очень хорошо

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис