Исследование: ChatGPT дает неправильный ответ на половину вопросов о программировании

14.08.2023      1078

Команда общественного исследовательского Университета Пердью изучила, как искусственный интеллект справляется с задачами по разработке кода. Ученые выяснили, что чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки. 

Процент неточностей

Команда ученых выяснила, как ChatGPT справится с 517 вопросами, взятыми со Stack Overflow. Цель эксперимента – оценить правильность, последовательность, полноту и краткость ответов искусственного интеллекта. Исследователи провели лингвистический анализ и анализ тональности сгенерированных решений. Также результаты работы чат-бота оценили 12 добровольцев. 

В итоге 52% ответов ChatGPT оказались ошибочными, а 77% были расценены как излишне многословные. Ученые пришли к выводу, что корректность работы ИИ хуже, чем выбор ответа при помощи подбрасывания монетки. Чаще всего чат-бот допускает концептуальные неточности, а не фактические. Нейросеть не всегда могла правильно оценить контекст вопроса и генерировала неподходящий результат. 

Как нейросети убеждают пользователя в том, что правы

Участники исследования при сравнении ответов от ChatGPT и пользователей Stack Overflow в 39,34% случаев отдали предпочтение нейросети. При этом 77% выбранных советов были ошибочными. Чаще всего участников эксперимента подкупала четкая формулировка текста от чат-бота. Они замечали неточности в ответах только при очевидных ошибках в коде. Если определить некорректность можно было только при обращении к документации или инструментам разработчика, то добровольцы пропускали ее. 

По мнению исследователей, причина такого поведения – особенности стиля ChatGPT. Нейросеть старается генерировать ответы авторитетно, используя вежливые обращения, четкие формулировки, подробные описания с многочисленными уточнениями. Такой формат общения заставляет человека воспринимать совершенно неправильные решения как верные. 

По словам ученых, двое добровольцев выбирали ответ ChatGPT вместо информации со Stack Overflow даже при наличии вопиющих ошибок в совете нейросети. 

Дальнейший лингвистический анализ чат-бота позволил сделать вывод, что текст от чат-бота более формальный, выражает более аналитическое мышление, демонстрирует больше усилий для достижения целей. ИИ проявляет меньше негативных эмоций, его ответы более позитивные, чем рекомендации от пользователей Stack Overflow.

Как популярность ChatGPT повлияла на трафик Stack Overflow

Спойлер: не очень хорошо

Исследователи установили связь между ростом популярности ChatGPT и снижением трафика Stack Overflow. С января 2022 года форум разработчиков ежемесячно теряет 6% своей аудитории. В марте падение достигло 13,9%. При этом опрос пользователей площадки среди 90 тыс. программистов показал, что 77% респондентов позитивно оценивают инструменты на базе ИИ. Не доверяют нейросетям только 44% разработчиков. 

Схожие данные приводит GitHub. Согласно данным исследования, 70% пользователей репозитория считают, что чат-боты положительно влияют на навыки программиста.


Автор:
Аналитик


Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. butters 15.08.23 09:01 Сейчас в теме
А примеры какие-то есть? Ну и не указана версия Chat-gpt, я так понимаю для разных версий точность ответов очень разная
4. siamagic 15.08.23 12:14 Сейчас в теме
(1)на очень простые вещи реально помогает, особенно если синтаксис не знаком, а так это же языковая модель = тупое создание, там интеллекта в приницпе нету.
2. smit1c 106 15.08.23 10:39 Сейчас в теме
На форуме получить неправильный ответ также велик
3. booksfill 15.08.23 10:47 Сейчас в теме
Полоний. ...Что вы читаете, мой принц?
Гамлет. Слова, слова, слова.

ChatGPT наглядно дает понять как мало люди заинтересованы в конечном результате и как много чудаков, готовых им за это платить.

Он им дает искомое - "слова, слова, слова", какая разница насколько это чушь иль правда, когда блеснуть умом мы можем, пусть чужим?

Такой подход работает для юристов (сослались на несуществующий закон, и что? Не поймали - вот и славно),
журналистов - они хоть врать станут более занятно, копирайтеров - этим все равно какую мантру написать, студентов, которые не хотят учиться, но хотят диплом и т.п.

Технари же должны отвечать за последствия своих решений и ИИ может сильно помочь, предлагая информацию для размышления.
Некий брэйн-штурм
- уважаемый ИИ, предлагайте самые любые решения, остальные попробуют найти среди них озарения.

И давать гранату пользователю, решившему, что он сам умеет в отчеты и программирование я бы не стал.
Печально, но иногда встречаю откровения про то, как здорово, что пользователь теперь может сказать ИИ - выдай мне остатки по "рубашка поло" и ИИ ему составит рабочий запрос, за который программиста бы не похвалили, потом опять не похвалили, а потом уволили за профнепригодность.
Angealtor; +1 Ответить
5. Angealtor 32 16.10.23 16:28 Сейчас в теме
"ежемесячно теряет 6% своей аудитории" - скорее всего это "специалисты" уровня "пре-разработчик", т.е. разработчики уровня "даже еще не нуб". И на данный момент, действительно, ИИ дает очень уверенно неправильные ответы как правильные - поэтому абсолютно согласен с "давать гранату пользователю, решившему, что он сам умеет в отчеты и программирование я бы не стал". Когда можно будет такой ИИ поставить локально и обучить индивидуально - только тогда появится необходимый минимальный уровень доверия и он сможет претендовать на младшего помощника разработчика на тестовых базах.
Оставьте свое сообщение

См. также

«Сколково» объявил отбор перспективных ИИ-проектов для получения грантов

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    618    AnastasiaKl    3       

3

В программу подготовки спортивных программистов вошли бег и скорость печати

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    728    VKuser24342747    2       

1

Росстандарт утвердил протокол LoRaWAN для интернета вещей

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    502    VKuser24342747    0       

2

Новый закон откладывает на год вступление в силу изменений в порядок регистрации на сайтах

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    671    VKuser24342747    2       

1

Вышло крупное обновление для Android Studio

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    830    VKuser24342747    2       

3

GitHub опубликовал результаты ежегодного исследования проектов с открытым исходным кодом

Новость GitHub ИТ-Новость

GitHub собрал данные об Open Source проектах в рамках ежегодного исследования Octoverse. Компания изучила географию репозиториев, используемые языки программирования и нейросети, а также активность сообщества.

15.11.2023    544    VKuser24342747    1       

2

Некоммерческие проекты смогут получить бесплатный доступ к GigaChat API

Новость ИТ-компания ИТ-Новость

Компания «Сбер» заявила, что будет бесплатно предоставлять доступ к API нейросети для генерации текста GigaChat для некоммерческих проектов. Однако для них будет ограничено число доступных токенов.

01.11.2023    676    VKuser24342747    2       

3

Состоялся релиз свободной среды разработки Geany 2.0

Новость ИТ-Новость Программист

Вышла новая версия Geany 2.0. Обновление затронуло внешний вид программы, расширило поддержку файлов и сторонних проектов, добавило новые способы работы с кодом.

25.10.2023    728    VKuser24342747    0       

1

Минцифры подготовило критерии по выбору оператора реестра провайдеров хостинга

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило проект постановления, которое утверждает требования к организации, претендующей на статус оператора реестра провайдеров хостинга.

25.10.2023    398    VKuser24342747    0       

1

Минцифры составило алгоритм действий для компаний, у которых не работает VPN

Новость Минцифры ИТ-Новость

Минцифры подготовило разъяснения для российских организаций, у которых возникли перебои в работе VPN-сервисов для клиентов и сотрудников из-за блокировки запрещенных ресурсов Роскомнадзором.

24.10.2023    657    VKuser24342747    0       

0

«Сбер» объявила о доступности SberLinux OS Server для российских компаний

Новость Импортозамещение ИТ-Новость

«СберТех», дочерняя компания «Сбера», объявила о предоставлении доступа к собственной серверной операционной системе SberLinux OS Server российским компаниям. ОС включена в реестр отечественного ПО.

20.10.2023    924    VKuser24342747    0       

2

Минцифры внесло изменения в проект правил идентификации клиентов веб-хостингов

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило изменения в пакет документов, которые устанавливают новые требования для провайдеров хостинга. Ведомство расширило перечень допустимых методов идентификации клиентов.

18.10.2023    483    VKuser24342747    0       

1

Google выпустила финальную версию Android 14

Новость Android Google ИТ-Новость

Google выпустила новую версию мобильной ОС Android 14. Изменения затронули настройки внешнего вида и безопасности. Были расширены возможности камеры и инструментов для хранения данных.

12.10.2023    716    VKuser24342747    0       

1

Яндекс объявил об открытии исходного кода DataLens

Новость Аналитика ИТ-Новость Яндекс

BI-система Yandex DataLens теперь развивается в опенсорс. Код продукта выложен для всех на GitHub. Любой желающий сможет развернуть DataLens на своем железе и доработать его под свои сценарии применения.

03.10.2023    1476    ЕленаЧерепнева    1       

6

Роскомнадзор создаст реестр хостинг-провайдеров

Новость Минцифры ИТ-Новость Роскомнадзор

Минцифры подготовило несколько проектов постановлений, которые утверждают правила ведения реестра поставщиков хостинг-услуг, а также новые требования к провайдерам.

02.10.2023    623    VKuser24342747    0       

1

«СберТех» представил репозиторий GitVerse с ИИ-помощником для написания кода

Новость Импортозамещение ИТ-Новость Программист

«СберТех» начал прием заявок на тестирование веб-сервиса для публикации ИТ-проектов GitVerse. Платформа подходит для разработки программ с открытым и закрытым кодом.

26.09.2023    864    VKuser24342747    2       

1

ИП и юрлица смогут использовать смартфон для создания и замены электронной подписи

Новость ИТ-Новость ФНС Цифровая подпись

ФНС внесла изменения в правила оформления электронной подписи руководителя организации и ИП. Станет возможным продлевать ее и записывать при помощи мобильного устройства.

18.09.2023    449    VKuser24342747    1       

1

Журнал IEEE Spectrum опубликовал рейтинг популярности языков программирования

Новость ИТ-Новость Языки программирования

Журнал Института инженеров электротехники и электроники IEEE Spectrum подготовил рейтинг самых популярных языков программирования в 2023 году. Статистика разделена на три категории.

01.09.2023    1344    VKuser24342747    4       

2

В бета-версии Microsoft 365 появилась поддержка языка Python для Excel

Новость ИТ-Новость Языки программирования

С помощью библиотек и средств визуализации Python можно будет манипулировать данными Excel, а затем использовать полученные результаты в формулах, диаграммах и сводных таблицах.

28.08.2023    725    VKuser24342747    0       

2

Специалисты Калифорнийского университета установили, что боты справляются с CAPTCHA лучше, чем люди

Новость ИТ-Новость

Международная группа исследователей изучила эффективность тестов CAPTCHA. Ученые пришли к выводу, что технология больше мешает людям, потому что боты научились с ней справляться.

24.08.2023    1183    VKuser24342747    23       

2

Google Chrome начнет поддерживать квантово-устойчивые алгоритмы шифрования

Новость Google Безопасность ИТ-Новость

В версии Google Chrome 116 появится поддержка алгоритмов шифрования, устойчивых к попыткам дешифрации при помощи квантовых вычислений. Технология объединяет преимущества классической и инновационной криптографии.

24.08.2023    498    VKuser24342747    0       

1

В реестр российского ПО включен первый комплекс обработки больших данных

Новость Импортозамещение Минцифры ИТ-Новость Реестр ПО

Минцифры внесло в реестр отечественного ПО программно-аппаратный комплекс «Скала-Р», предназначенный для обработки больших данных. Это первый комплекс с таким функционалом, включенный в перечень.

22.08.2023    486    VKuser24342747    0       

1

Microsoft внедрила новые функции в GitHub Copilot и анонсировала Windows Copilot

Новость GitHub Искусственный интеллект

ИИ-помощник для разработчиков GitHub Copilot теперь не только в реальном времени анализирует код, предлагает варианты для его улучшения и помогает найти решение проблем в разработке, но и  показывает ссылки на репозитории, из которых взят код. 

17.08.2023    1197    VKuser24342747    0       

1

В JetBrains разработали ИИ-помощника для аналитиков данных

Новость Аналитика Искусственный интеллект

JetBrains представила нейросеть Ask AI для онлайн-блокнота Datalore. Виртуальный ассистент способен генерировать код на нескольких языках, предлагать доработки и упрощать процесс аналитики данных. 

16.08.2023    687    VKuser24342747    0       

1

Минцифры проведет эксперимент по цифровизации «жизненного цикла» госслужащего

Новость Минцифры ИТ-Новость

Минцифры подготовило постановление о проведении эксперимента по внедрению ИТ в управление «жизненным циклом» госслужащего. Ведомство намерено автоматизировать все этапы работы сотрудников госструктур.

04.08.2023    578    VKuser24342747    0       

2