Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

14.08.2023      1720

Команда общественного исследовательского Университета Пердью изучила, как искусственный интеллект справляется с задачами по разработке кода. Ученые выяснили, что чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки. 

Процент неточностей

Команда ученых выяснила, как ChatGPT справится с 517 вопросами, взятыми со Stack Overflow. Цель эксперимента – оценить правильность, последовательность, полноту и краткость ответов искусственного интеллекта. Исследователи провели лингвистический анализ и анализ тональности сгенерированных решений. Также результаты работы чат-бота оценили 12 добровольцев. 

В итоге 52% ответов ChatGPT оказались ошибочными, а 77% были расценены как излишне многословные. Ученые пришли к выводу, что корректность работы ИИ хуже, чем выбор ответа при помощи подбрасывания монетки. Чаще всего чат-бот допускает концептуальные неточности, а не фактические. Нейросеть не всегда могла правильно оценить контекст вопроса и генерировала неподходящий результат. 

Как нейросети убеждают пользователя в том, что правы

Участники исследования при сравнении ответов от ChatGPT и пользователей Stack Overflow в 39,34% случаев отдали предпочтение нейросети. При этом 77% выбранных советов были ошибочными. Чаще всего участников эксперимента подкупала четкая формулировка текста от чат-бота. Они замечали неточности в ответах только при очевидных ошибках в коде. Если определить некорректность можно было только при обращении к документации или инструментам разработчика, то добровольцы пропускали ее. 

По мнению исследователей, причина такого поведения – особенности стиля ChatGPT. Нейросеть старается генерировать ответы авторитетно, используя вежливые обращения, четкие формулировки, подробные описания с многочисленными уточнениями. Такой формат общения заставляет человека воспринимать совершенно неправильные решения как верные. 

По словам ученых, двое добровольцев выбирали ответ ChatGPT вместо информации со Stack Overflow даже при наличии вопиющих ошибок в совете нейросети. 

Дальнейший лингвистический анализ чат-бота позволил сделать вывод, что текст от чат-бота более формальный, выражает более аналитическое мышление, демонстрирует больше усилий для достижения целей. ИИ проявляет меньше негативных эмоций, его ответы более позитивные, чем рекомендации от пользователей Stack Overflow.

Как популярность ChatGPT повлияла на трафик Stack Overflow

Спойлер: не очень хорошо

Исследователи установили связь между ростом популярности ChatGPT и снижением трафика Stack Overflow. С января 2022 года форум разработчиков ежемесячно теряет 6% своей аудитории. В марте падение достигло 13,9%. При этом опрос пользователей площадки среди 90 тыс. программистов показал, что 77% респондентов позитивно оценивают инструменты на базе ИИ. Не доверяют нейросетям только 44% разработчиков. 

Схожие данные приводит GitHub. Согласно данным исследования, 70% пользователей репозитория считают, что чат-боты положительно влияют на навыки программиста.


Автор:
Аналитик


См. также

Новость ИТ-компания ИТ-Новость

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    807    user1915669    2       

2

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    511    user1915669    0       

2

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    643    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    692    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    669    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1395    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    948    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    773    VKuser24342747    0       

2
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. butters 15.08.23 09:01 Сейчас в теме
А примеры какие-то есть? Ну и не указана версия Chat-gpt, я так понимаю для разных версий точность ответов очень разная
4. siamagic 15.08.23 12:14 Сейчас в теме
(1)на очень простые вещи реально помогает, особенно если синтаксис не знаком, а так это же языковая модель = тупое создание, там интеллекта в приницпе нету.
2. smit1c 106 15.08.23 10:39 Сейчас в теме
На форуме получить неправильный ответ также велик
3. booksfill 15.08.23 10:47 Сейчас в теме
Полоний. ...Что вы читаете, мой принц?
Гамлет. Слова, слова, слова.

ChatGPT наглядно дает понять как мало люди заинтересованы в конечном результате и как много чудаков, готовых им за это платить.

Он им дает искомое - "слова, слова, слова", какая разница насколько это чушь иль правда, когда блеснуть умом мы можем, пусть чужим?

Такой подход работает для юристов (сослались на несуществующий закон, и что? Не поймали - вот и славно),
журналистов - они хоть врать станут более занятно, копирайтеров - этим все равно какую мантру написать, студентов, которые не хотят учиться, но хотят диплом и т.п.

Технари же должны отвечать за последствия своих решений и ИИ может сильно помочь, предлагая информацию для размышления.
Некий брэйн-штурм
- уважаемый ИИ, предлагайте самые любые решения, остальные попробуют найти среди них озарения.

И давать гранату пользователю, решившему, что он сам умеет в отчеты и программирование я бы не стал.
Печально, но иногда встречаю откровения про то, как здорово, что пользователь теперь может сказать ИИ - выдай мне остатки по "рубашка поло" и ИИ ему составит рабочий запрос, за который программиста бы не похвалили, потом опять не похвалили, а потом уволили за профнепригодность.
Angealtor; +1 Ответить
5. Angealtor 23 16.10.23 16:28 Сейчас в теме
"ежемесячно теряет 6% своей аудитории" - скорее всего это "специалисты" уровня "пре-разработчик", т.е. разработчики уровня "даже еще не нуб". И на данный момент, действительно, ИИ дает очень уверенно неправильные ответы как правильные - поэтому абсолютно согласен с "давать гранату пользователю, решившему, что он сам умеет в отчеты и программирование я бы не стал". Когда можно будет такой ИИ поставить локально и обучить индивидуально - только тогда появится необходимый минимальный уровень доверия и он сможет претендовать на младшего помощника разработчика на тестовых базах.
Оставьте свое сообщение