К вопросу о надежности искусственного интеллекта в бизнесе

10.01.25

Я занимаюсь практическим применением больших языковых моделей в бизнесе. При этом постоянно приходится слышать, что искусственный интеллект нельзя использовать в бизнесе, потому что "галлюцинации". Откуда взялось это расхожее мнение, что на самом деле и какие есть простые и эффективные способы повышения надежности, обо всем этом попробую сейчас рассказать.

Ох уж эти галлюцинации! Кто только не попался на эту удочку. От рядовых пользователей до целых коллективов с академическим статусом, публикующихся на arxiv. Наиболее яркий пример тому: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models Эта же статья не так давно обсуждалась на Хабре Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Если хотите разобраться с этим, забудьте на время это слово галлюцинации и обратите внимание на другое слово семплирование. Что это такое. Большая языковая модель выдает вам ответ на ваш вопрос по частям, которые называются токенами. Это не слово и не буква, а нечто среднее между ними. На каждом шаге модель выбирает из нескольких возможных вариантов продолжения. Варианты не равны между собой. Какие-то считаются более подходящими, какие-то менее. Например, у вас может быть вариант 1 с рейтингом 70%, вариант 2 с рейтингом 29% и вариант 3 с рейтингом 1%. Это будет означать, что в 70 случаях из 100 для продолжения будет выбран вариант 1, в 29 случаях вариант 2 и в 1 случае вариант 3. На практике это может означать, что вы получите пресловутую галлюцинацию в 30 случаях из 100. Более того, в 1 случае из 100 вы получите такую галлюцинацию, о которой будете долго рассказывать всем, кто только будет вас слушать.

Самое важное здесь в том, что семплирование не является органической частью модели. Семплирование это нечто "прикрученное" сбоку. Зачем так сделали, и почему не стали просто выбирать всегда наилучший вариант? Представьте себе, что семплирование отключено и на каждом шаге выбирается наилучший вариант. Вы просите модель рассказать сказку. Она расскажет вам сказку. Возможно даже неплохую. Но она расскажет ее и вам, и Васе, и Пете... И сегодня, и завтра, и послезавтра. Каждый раз одну и ту же сказку. Если речь идет о сказке, то это никуда не годится. С другой стороны, если вам надо решать задачу на логику или математику (а бизнес-задачи чаще всего именно такие), тогда одна "сказка" для всех и всегда, это именно то, что вам нужно.

Провайдеры больших языковых моделей предусмотрели возможность управлять семплированием. Есть две управляющие опции при вызове через API, а у некоторых провайдеров есть еще третья. Вот они:

temperature
top_p
top_k

Самая простая из них top_k. С ее помощью мы можем установить количество рассматриваемых на каждом шагу результатов. Понятно, что если задать top_k=1, то это и будет полным отключением семплирования. Но это слишком просто. В OpenAI, например, считают, что не по пацански просто, поэтому у них такой опции нет. Опция top_p работает сложнее. На каждом шаге из всех возможных кандидатов выбираются самые лучшие один за другим до тех пор пока их суммарный "рейтинг" (или суммарная вероятность, как это чаще называют) не станет больше либо равен установленного порога. Если установить top_p=0.1, то это тоже будет равносильно отключению семплирования, за исключением экзотических случаев, когда у вас будет много кандидатов с низким рейтингом (вероятностью). Например: 0.05, 0.04, 0.03, 0.03... Но это и будет означать, что выбор на этом конкретном шаге почти не играет значения.

Самая замудренная опция temperature. Тут используется логарифмическая функция для изменения изначальных рейтингов. При значении temperature=1 распределение рейтингов (вероятностей) остается неизменным. При значениях выше 1, разница между рейтингами сглаживается, при значениях ниже 1, разница обостряется. Допустим, изначально у вас было два кандидата с рейтингами 60% и 40% (0.6 и 0.4). Вы задаете низкую температуру и разница обостряется, превращается, условно говоря, в 98% и 2% (0.98 и 0.02). Чтобы отключить семплирование, надо установить как можно более низкую температуру. Некоторые провайдеры разрешают указывать temperature=0, другие занимаются буквоедством и не разрешают этого делать (ну да, на значении 0 эта функция не определена). Приходится указывать что-то типа temperature=0.01

Несмотря на свою сложность, опция temperature пользуется наибольшей популярностью. Видимо, в силу прозрачности ассоциации. Высокая температура - бред. Низкая - холодный расчет.

Как видите, в этом смысле управлять моделью не сложнее чем, краном на кухне. Холодное-горячее. Тем удивительнее то, что так много людей обожглось и продолжает обжигаться горячими. Видимо, здесь нет ничей вины. Большие языковые модели были явлены широкой публике в виде чата. Для поболтать-поразвлекаться. Температура в чате была установлена в значение 1. Регулировка температуры отсутствовала (она и сейчас чаще всего отсутствует), дабы не смущать публику логарифмами. Для решения задач на логику это никуда не годилось, но сказочки получались знатные. А если какой-нибудь Вася пробовал чат на логику, то получалось еще лучше! Вася с некоторой, довольно высокой вероятностью получал очень странный результат и него тут же возникало желание поведать об этом всему свету. На его крики приходили Петя и Коля. Проверяли у себя решение задачи на логику. Получали нормальный результат и разгорался жаркий спор, привлекающий все новых и новых участников, из которых кто-то потом становился подписчиком. Business as usual.

Можно сказать, что все мы, кто сейчас занимается внедрением искусственного интеллекта в бизнес, отчасти стали жертвой первоначального маркетингового успеха больших языковых моделей. Спутником этого успеха стал миф о галлюцинациях, с которым теперь приходится бороться.

В истории с галлюцинациями больших языковых моделей большая часть это миф. Но это все же часть. Отключив семплирование, мы получим ... Но прежде, чем перейти к тому, что мы получим, хочу обратить ваше внимание на Debate: Sparks versus embers. Здесь два математика обсуждают тему: "Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез..." В дебатах есть примечательный момент. Когда условный ИИ-скептик говорит, что в длинных цепочках рассуждений обязательно будут галлюцинации, оппонент ему возражает так: "Послушай, ну мы-то с тобой знаем, что если человеком написана статья в 50+ страниц, то там будут галлюцинации 100%. И что? И ничего, показываем ревьюверам, исправляем. Все это запросто воспроизводится и в искусственном интеллекте. Одна модель проверяет другую..."

Отключив семплирование мы конечно же не получим абсолютного отсутствия галлюцинаций. Оно в принципе недостижимо. Но мы получим уровень галлюцинаций не выше, а скорее всего значительно ниже, чем у человека.

Но и это еще не все. С этим можно еще поработать. В особо ответственных случаях, да, можно будет организовать ревью на нескольких других моделях. Но для основной массы бизнес-задач, я думаю, это будет излишним. Есть более простой и достаточно эффективный метод.

Допустим, мы знаем, что на наших задачах уровень галлюцинаций составляет 1 к 1000 на запрос. Это означает, что на 1 запрос из 1000 будет выдан неверный результат. Если мы делаем около 1000 запросов в год, тогда примерно раз в год модель нам будет подкидывать неприятности. Будем тогда дублировать каждый запрос, т.е. отправлять один и тот же запрос к большой языковой модели дважды. Всякий раз мы будем получать один и тот же ответ, но раз в год ответы будут разными. Тогда мы отправим запрос в третий раз и воспользуемся тем результатом, который встретился в двух случаях из трех. Таким нехитрым приемом, мы хоть и не достигнем абсолюта, но теперь неприятности нас будут ожидать не раз в год, а раз в тысячу лет.

Этот метод хорош тем, что его можно очень просто масштабировать. Если нас не устраивает тысяча лет, можно превратить ее в миллион или миллиард простым повторением запросов. Это, конечно, увеличивает затраты, но тут хочу напомнить, что бизнес-задачи стоят существенно дешевле, чем развлечения. У вас может быть миллион записей о продажах. Но практически любой запрос на получение статистики даст вам на выходе текст SQL запроса, который уложится в 100 токенов. Текущая цена 100 выходных токенов у модели gpt-4o-mini всего лишь 0.00006 долларов. Т.е. 1000 запросов вам обойдутся в 6 центов, ну а две тысячи в целых 12. Есть, конечно, еще входные токены, но они стоят в разы меньше. Gpt-4o-mini прекрасно справляется с бизнес-задачами. Но есть, например китайская Deepseek coder v3, которая по утверждениям некоторых работает еще лучше. Так она стоит еще дешевле.

Подведем итоги. Миф о невозможности использования искусственного интеллекта в бизнесе возник на базе маркетингового успеха развлекательного направления. Отключение семплирования дает уровень галлюцинаций не выше, а скорее ниже, чем у людей. И есть простые методы получения любого желаемого уровня надежности при использовании больших языковых моделей в бизнесе.

+32 –

См. также

Серверы, которые обеспечивают LLM необходимым контекстом для вайб кодинга в 1С

Администрирование веб-серверов Сервера Нейросети Программист Платные (руб)

Сервер поиска по метаданным и поиска по коду, Сервер экспорта и поиска по документации, Сервер синтаксической проверки кода

17.06.2025 2119 27 comol 2

Заполнение описания номенклатуры с помощью GigaChat

Нейросети Мастера заполнения 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для заполнения описания номенклатуры с помощью модели ИИ GigaChat от Сбера. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ.

5000 руб.

08.11.2023 4174 16 0

Анализ продаж вместе с ИИ

Нейросети Анализ продаж Пользователь 1С v8.3 1С:Управление торговлей 11 Абонемент ($m)

Новая (портабельная) версия анализа продаж вместе с ИИ. Не требует установки расширения Библиотека искусственного интеллекта для 1С.

10 стартмани

17.06.2025 1263 9 mkalimulin 6

Инвестируем с 1С и Клод

Нейросети Финансовые услуги, инвестиции Бесплатно (free)

Вплоть до текущего года я скептически относился к новостям о нейросетях. Мне казалось, что всё это просто очередной хайп и уж точно они не скоро смогут помочь в чём-то разработчику ПО. Но решил немного поэкспериментировать с пет-проектом, который пылился уже пару лет. Результат меня удивил, поэтому решил поделиться опытом с вами.

16.06.2025 2760 oyti 3

Свой MCP-сервер для метаданных 1С

Нейросети Инструментарий разработчика Программист 1С v8.3 Абонемент ($m)

Для эффективного использования современных LLM им не хватает контекста об 1С, как минимум, знания структуры метаданных 1С, а еще лучше знаний БСП и синтакс-помощника :) Технология MCP помогает решать эту проблему. Под катом описание MVP-решения, которое можно далее дорабатывать под себя. Мне сильно не хватало подобной статьи, чтобы сэкономить бессонные ночи.

1 стартмани

16.06.2025 5576 20 FSerg 25

Как я писал книгу с помощью нейросети

Нейросети Россия Абонемент ($m)

Нейросетями становится пользоваться все удобнее и интереснее. Правильное применение инструмента помогает сэкономить много времени сил и сосредоточиться на творчестве, а не на рутине.

1 стартмани

11.06.2025 500 Ликреонский 9

Вайб кодинг в 1С 2. Новые сети и инструменты

Нейросети Программист 1С:Библиотека стандартных подсистем Бесплатно (free)

Рассмотрим Claude Sonnet 4, GPT o3 и 4.1, Qwen3, Llama 4 Maverick, Grok. Cursor и плагин для EDT.

28.05.2025 7255 comol 53

ИИ престиж

Нейросети 1С v8.3 1С:Управление торговлей 11 Платные (руб)

ИИ престиж это уникальное готовое решение для того, чтобы начать применять современные технологии искусственного интеллекта в вашей учетной системе и сразу получать выраженный экономический эффект. Для этого вам не надо будет отказываться от устоявшихся практик. ИИ престиж дополнит вашу рабочую систему инструментами, операторами, агентами на базе искусственного интеллекта. Вы получите учетную систему совершенно другого уровня, которую вы сможете развивать в нужном направлении.

600000 руб.

23.05.2025 2128 0 0

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. XilDen 683 10.01.25 12:48 Сейчас в теме

Очень интересно и доступно всё описано) Спасибо за статью!

2. DmitryKSL 175 10.01.25 14:03 Сейчас в теме

Есть практика замены искусственным интеллектом работы программиста? Хотя бы банальные вещи. Просто интересно об этом было бы почитать. Если что я про 1С.

4. AlexanderEkb 25 10.01.25 15:28 Сейчас в теме

(2) Конечно. Уже с 1с работает всё отлично. Я только так программирую в 1с с использованием аи-агентов. Без них уже сложно, и медленно будет.

8. DmitryKSL 175 10.01.25 16:17 Сейчас в теме

(4) Что именно используете? Можно немного подробнее?

9. AlexanderEkb 25 10.01.25 16:52 Сейчас в теме

(8) IDE: Cursor, в первую очередь. Для генерации больших обьёмов тестовых данных, тестовым модулей. Для написания кода и форм. Для анализа конфигураций, для изменение кода в конфигурации по промту пока не использую

6. mkalimulin 1541 10.01.25 15:45 Сейчас в теме

(2) На сегодняшний день достаточно надежно работает получение произвольных отчетов. Т.е. тут мы имеем полную замену программиста. Пользователь работает напрямую, без человека-посредника.
На подходе реструктуризация базы и создание произвольных алгоритмов. Т.е. пользователь говорит что-то типа: "А теперь мне надо вести учет по размерам", а в результате происходит перестройка базы

53. утюгчеловек 42 17.01.25 16:12 Сейчас в теме

(6)

На сегодняшний день достаточно надежно работает получение произвольных отчетов. Т.е. тут мы имеем полную замену программиста. Пользователь работает напрямую, без человека-посредника.
На подходе реструктуризация базы и создание произвольных алгоритмов. Т.е. пользователь говорит что-то типа: "А теперь мне надо вести учет по размерам", а в результате происходит перестройка базы

Разрешите поинтересоваться где это внедрено?

54. mkalimulin 1541 17.01.25 17:10 Сейчас в теме

(53) С какой целью?

55. утюгчеловек 42 17.01.25 21:43 Сейчас в теме

(54) Хотел узнать есть ли люди или компании, которые могли бы подтвердить, что это работает так, как вы это преподносите

Похоже речь об этой работе
https://infostart.ru/1c/reports/2027806/

Если так, то вопросов нет

56. mkalimulin 1541 17.01.25 21:59 Сейчас в теме

(55) Нет. Речь не об этой работе. Эта слишком старая. У меня есть несколько рабочих сервисов. Берите, пробуйте. Это бесплатно

74. muskul 27.01.25 02:46 Сейчас в теме

(6) некоторые пользователи не могут понять как отборы в 8 работает. что есть три колоночки подписанные между прочим, что, как и значение. а вы про ИИ )

75. mkalimulin 1541 27.01.25 10:21 Сейчас в теме

(74) Вот именно! А с ИИ пользователю и не потребуется ничего понимать. Он просто скажет, что ему надо и получит, что ему надо.

Я сам давно заметил, что пользователи en masse не работают с отборами, сколько им не объясняй. И тут нет смысла злиться на пользователей. Не надо говорить, что пользователи плохие. Надо сказать себе, что это отборы плохие. А для пользователей надо придумать что-то другое

79. muskul 28.01.25 01:58 Сейчас в теме

(75) Поэтому в супер пупер варианте я за какую то локальную модель, которая бы могла взаимодействовать напрямую с программой.

80. mkalimulin 1541 28.01.25 02:05 Сейчас в теме

(79) Локальная будет дорого стоить

7. wonderboy 566 10.01.25 16:14 Сейчас в теме

(2) Прям замены врядли такое успешно практикуют. Но помощь программисту - действительно очень существенная. Вот показывал пример:
https://rutube.ru/video/aea514d0d1882a158393428f0e00f93a/

3. SerVer1C 924 10.01.25 14:36 Сейчас в теме

Расскажите, в каких бизнес-кейсах (штук 5, хотя бы) вы применяете БЯМ ?

5. mkalimulin 1541 10.01.25 15:40 Сейчас в теме

(3) Прием заказов от покупателей. Получение произвольных отчетов.
https://infostart.ru/1c/articles/2269344/ вот здесь подробно описано

10. quazare 3940 10.01.25 17:02 Сейчас в теме

(5) забавно, сейчас выглядит как «игрушка», но за подобным будущее

11. grumagargler 731 10.01.25 18:57 Сейчас в теме

Сегодня ИИ в нагнетании ажиотажа не нуждается, но проблемки всё-таки есть, и мне кажется в задачах для бизнеса, нечестно оправдывать галлюцинации машины, сравнивая её с галлюцинациями человека. Если про бизнес, то на мой взгляд, это всё равно что если бы арифметические операции машиной выполнялись почти всегда точно, а если есть претензии - ну так попробуй сам в уме подсчитать. Другими словами, несмотря на то, что это новое-прорывное-прекрасное, бизнес-требования всё-таки диктуются жизнью, и это нормально, что нам хочется чтобы машина не ошибалась. А она к сожалению, пока ещё ошибается.

Один из примеров (тоже очень активно занимаемся темой виртуальных ассистентов). Допустим, одна из функций агента добавляет задачу для пользователя в информационную базу. Функция принимает на вход текст задачи, дату и время, продолжительность. Всё работает, если диалог строится примерно таким образом: Я: Создай задачу ИИ: Скажите текст задачи, дату и продолжительность. Я: Позвонить клиенту, завтра в два часа дня. ИИ: Я создал для вас задачу #123.

Затем, я например говорю: Я: Я должен завтра позвонить клиенту и обсудить детали договора. ИИ: Я создал для вас задачу #124. Время он не спросил и передал в мою функцию 9 утра, при этом и в описании параметров и в самой функции указано, что ИИ обязан спросить время у пользователя. Тоже и с продолжительностью, передано 30 минут, хотя ни значения по умолчанию ни каких-то других указаний в схеме описания функции нет.

Это один из примеров, есть и другие.

По поводу решения проблемы не детерминированности путем многократного выполнения запросов, не очень понятно с практической точки зрения. ИИ может параллельно запрашивать функции, результаты которых лежат в основе дальнейших рассуждений модели, ещё не видимых пользователю, а также вовлекает создание объектов в информационной базе, что существенно меняет ответ функции при повторном запуске всего цикла. Для голосовых помощников, это в принципе неприемлемо, мы на пупе крутимся за десятые доли секунды, чтобы максимально обеспечить естественность общения с помощником.

12. mkalimulin 1541 10.01.25 20:42 Сейчас в теме

(11) Мне кажется ваша проблема в том, что вы слишком прямолинейно подходите к решению задач.
Почему бы не делать то, что вы делаете в два прогона? Сначала промт от пользователя и получение структурированной задачи. Если вы в тулзах укажете все параметры необязательными, тогда и никаких 9 утра и 30 минут не будет. На втором шаге сравниваете эту не полностью заполненную структуру с тем, что должно быть и получаете список того, что надо заполнить...
Вы "на пупе крутитесь" потому, что сами себя туда загнали. Я вот принимаю голосовое сообщение в Телеграм и через некоторое время выдаю пользователю ответ. И это тоже естественно. Все уже так привыкли: пишешь что-то в мессенджер, а тебе через какое-то время отвечают. Вы уперлись в то, что должен быть именно разговор. А это, кстати, не самое "естественное", если можно так выразиться. Есть определенная ассиметрия. Для человека комфортнее когда он выдает на выход голосом, а принимает текстом. Человеку так легче. Говорить легче, чем писать, но читать легче, чем слушать

13. grumagargler 731 10.01.25 22:10 Сейчас в теме

(12) > Мне кажется ваша проблема в том, что вы слишком прямолинейно подходите к решению задач

Интересная интерпретация, возможно вам стоит попробовать углубиться в практическое применение ИИ чуть глубже, чтобы нащупать проблему, о которой я говорю. Не обижайтесь, но вот это "а попробуйте то, а попробуйте сё", уже порядком надоело и на форуме опенай от теоретиков, которые занимаются исследованиями, а не практическим применением.

> Вы "на пупе крутитесь" потому, что сами себя туда загнали.

Мне кажется вы изолировали себя от реальности и смотрите на задачи с позиции уже полученного опыта работы с ИИ, а не потребностей бизнеса. Мне почти неудобно вас спрашивать, а зачем тогда OpenAI разрабатывает модели gpt-4o-realtime* (эти модели позволяют создавать разговорные среды с низкой задержкой, и поддерживают ввод и вывод аудиоданных в реальном времени) и представляете ли вы себе что такое требования заказчика и существование категории работников, у которых руки, например, в перчатках, а из техники, смартфон в халате или автономный raspberry pi.

14. mkalimulin 1541 10.01.25 22:51 Сейчас в теме

(13) Ну раз такие требования заказчика, тогда да, ничего не поделаешь.
А чем вам рецепт с необязательными параметрами не понравился?

17. AlexanderEkb 25 11.01.25 06:13 Сейчас в теме

(11) я читал ту переписку, которые вы на инфостарте скидывали про эту проблему с function calling, где вам много давали по теме и не по теме советов как обойти это. Я так понял проблема эта так и не решилась. Интересно, у вас запрос разве не попадает в вашу функцию в коде, которая потом его пересылает llm-ке? В этой функции перед тем как передать запрос пользователя дальше по цепочке, вроде можно же закинуть llm-ке запрос на получение параметров из запроса и прервать цепочку отправки запроса дальше при отсутствии необходимого. Те, я так понимаю, эта проблема есть, но, если я вам правильно понимаю, она специфична для function calling в gpt. Те, при другой реализации - это проблема решается парой лишней строчек кода?

19. grumagargler 731 11.01.25 17:58 Сейчас в теме

(17)

Интересно, у вас запрос разве не попадает в вашу функцию в коде, которая потом его пересылает llm-ке?

ИИ просит меня вызвать функцию, имя которой и параметры, ИИ для меня уже подготовил. И если я могу проверить, все ли параметры переданы по составу и заполненности, то я не могу проверить сами значения параметров на предмет их подлинности. Например, если ИИ просит меня вызвать функцию добавления напоминания и передает мне 9 утра, то вне зависимости, обязательный в схеме это был параметр или нет, у меня нет быстрого способа проверить, что пользователь таки действительно просил ему что-то напомнить в 9 утра, а не потому что так решила модель (про температуру, сэмплирование, об этом всём в курсе).

18. AlexanderEkb 25 11.01.25 06:22 Сейчас в теме

(11) А какие фреймоврки используете? CrewAI не пробовали?

20. grumagargler 731 11.01.25 18:06 Сейчас в теме

(18)

CrewAI

нет, разработка началась ещё до жпт, всё успели сами написать.

57. Torin57 45 17.01.25 23:24 Сейчас в теме

(11)

Один из примеров (тоже очень активно занимаемся темой виртуальных ассистентов). Допустим, одна из функций агента добавляет задачу для пользователя в информационную базу. Функция принимает на вход текст задачи, дату и время, продолжительность. Всё работает, если диалог строится примерно таким образом: Я: Создай задачу ИИ: Скажите текст задачи, дату и продолжительность. Я: Позвонить клиенту, завтра в два часа дня. ИИ: Я создал для вас задачу #123.

Затем, я например говорю: Я: Я должен завтра позвонить клиенту и обсудить детали договора. ИИ: Я создал для вас задачу #124. Время он не спросил и передал в мою функцию 9 утра, при этом и в описании параметров и в самой функции указано, что ИИ обязан спросить время у пользователя. Тоже и с продолжительностью, передано 30 минут, хотя ни значения по умолчанию ни каких-то других указаний в схеме описания функции нет.

Немножко абстрактно для понимания. Сможете привести текст промта целиком? Там где ИИ обязан спросить время у пользователя. Любопытно понять, почему не спросил. Модель claude-3.5-sonnet?

76. grumagargler 731 27.01.25 18:31 Сейчас в теме

(57) Вот пришла ещё жалоба. Сейчас январь 25го. Пользователь просит "закрой мне все задачи прошлого месяца", ИИ понимает, что нужно вызвать функцию получения текущего времени, потом он вызывает функцию закрытия задач передавая 01.12.2024 - 31.12.2024, тоже всё хорошо. Затем пользователь говорит "О, и закрой задачи от 24 января". Для пользователя, это 24.01.2025, но ИИ уже по какой-то причине, пытается закрыть задачу 24.01.2024, пока пользователь не запросит новое обсуждение, или уточнит, что речь о задаче от 24.01.2025.

77. Torin57 45 27.01.25 18:51 Сейчас в теме

(76) Ну да, ИИ слишком гибкий. Впрочем, в общении с человеком все то же самое. Бывает искреннее недопонимание. Допустим, общаемся в телеграм чате ботхаба (bothub.chat - агрегатор нейросетей с api).
Я пишу живому человеку:

Базу знаний ИИ при обучении наполняют из интернета? Вопрос вот в чем. Яндекс ГПТ не хочет обсуждать географию России и Крым. При этом про Кольский полуостров отвечает с блеском. Непонятно почему. Боится что-то лишнее "ляпнуть"? Потому что источники инфы в интернете бывают разные. Чат ГПТ может, например, упомянуть резолюцию ГА ООН от 27 марта 2014 года.

Меня интересуют источники информации, которыми "пичкают" ИИ при обучении. Это что, весь интернет? Или умные дядьки пишут 100 тыс пар вопросов-ответов? Или инфу можно как-то фильтровать? А то мало ли чего там ИИ начитается. Зайдет на сайт ИГИЛ и начнет выдавать какой-нибудь экстремизм.
И что же я слышу в ответ?

Нет там «базы знаний» это не ИИ времен пролога.. там огромный набор вероятностей - какое слово обычно идет после кучи других слов

Охренеть. Я спрашиваю про запись концерта какого-нибудь музыканта, где он проходил, сколько стоили билеты, а в ответ слышу лекцию о том как звуковые волны преобразуются в электромагнитные.

Поэтому выход только один. Заставить ИИ каждый раз переспрашивать у пользователя "Я вас правильно понял?". Или какую-нибудь кнопочку добавить "Да/Нет". Но это, наверно, тоже неудобно пользователю. ИИ должен сам "догадаться". Нельзя ли собрать статистику таких "ляпов", чтобы потом на ее основе написать подробные инструкции для ИИ, что и как ему понимать в ответах пользователя? Наверно, именно это вы и делаете сейчас? Серьезная у вас задача, быть первопроходцем.

78. Torin57 45 27.01.25 19:01 Сейчас в теме

(76) А если такой промт написать "Если есть сомнения, какой год пользователь имеет ввиду, то переспроси у пользователя". Как думаете, сработает?
И еще. Переписка с пользователем между сеансами сохраняется? Потому что один раз ИИ переспросит какой год, 2024 или 2025, а потом уже будет учитывать предыдущие ответы, и переспрашивать не будет.

58. Torin57 45 21.01.25 00:01 Сейчас в теме

(11) Понимаю, что вам со мной неинтересно, немножко не ваш уровень, но все-таки.
Я задал Клод Соннету 3.5 от 20 июня следующий промт:

Твоя задача - принимать на вход заявки на создание встреч и на выходе возвращать формализованные данные о встрече. Диалог должен строиться в таком формате:

Я: Создай задачу ИИ: Скажите текст задачи, дату и время, продолжительность. Я: Позвонить клиенту, завтра в два часа дня, встреча на полчаса. ИИ: Я создал для вас задачу #123. ИИ:{позвонить клиенту}{завтра в два часа дня}{полчаса}
Давай начнем.
Создай задачу

Четыре раза просил его создать задачу, он меня ни разу не подвел. Если я не задавал продолжительность, то ИИ писал {Не указано}. Когда я в четвертый раз еще и дату/время не указал, то ИИ не захотел создавать задачу. Видимо, у вас как-то по-другому это работает.
Что нужно, чтобы воспроизвести вашу ситуацию? Несколько сотен раз задать вопрос? Просто любопытно.

Прикрепленные файлы:

60. mkalimulin 1541 21.01.25 00:34 Сейчас в теме

(58) Как раз с Клодом у них все получилось. Проблемы были с OIpenAI

61. Torin57 45 21.01.25 09:21 Сейчас в теме

(60) То есть если ту же задачу поставить перед gpt-4o-mini, то она не справится?

62. mkalimulin 1541 21.01.25 09:51 Сейчас в теме

(61) Справится. Они столкнулись с тем, что модель вместо пустых значений выдумывала свои дефолтные. Пытались решить это через дополнительные инструкции в описании функции. Столкнулись с незадокументированным ограничением на длину описания функции. Плюнули и ушли к Anthropic.
Обратите внимание, что задача решалась не так, как у вас, а через функции (tools)

63. Torin57 45 21.01.25 09:55 Сейчас в теме

(62)

Обратите внимание, что задача решалась не так, как у вас, а через функции (tools)

То есть это некие функции встроенные в API чат гпт? Там нет промта в общеизвестном понимании?

64. mkalimulin 1541 21.01.25 09:59 Сейчас в теме

(63) Есть и promt и systempromt и tools и еще много чего. Если хотите заниматься вопросом серьезно, заводите аккаунты у провайдеров моделей и работайте через API. Но я вижу, вы в курсе

65. Torin57 45 21.01.25 10:03 Сейчас в теме

(64)

Если хотите заниматься вопросом серьезно

Не хочу. Я убедился, что это слишком сложно для меня.
У автомобиля есть газ и тормоз, а что под капотом - пусть разбираются автомеханики. И то, я даже газ и тормоз не трогаю. Стараюсь все вопросы решать через промт. Тогда понятно, почему автор (11) мне не ответил. Слишком долго и сложно объяснять, да и бесполезно.

66. Torin57 45 21.01.25 10:14 Сейчас в теме

(62)

Столкнулись с незадокументированным ограничением на длину описания функции. Плюнули и ушли к Anthropic.

А что тех поддержка Open AI сказала? Вы с их саппортом общаетесь? Там могли бы подсказать, по идее.

67. mkalimulin 1541 21.01.25 10:19 Сейчас в теме

(66) Они пытались на форуме OpenAI получить ответ. Подсказок получили много, но, как я понимаю, ни одна им не помогла.
Я занимаюсь примерно тем, же. Но у меня таких проблем не было

68. Torin57 45 21.01.25 12:57 Сейчас в теме

(67)

Они пытались на форуме OpenAI получить ответ.

Может ссылочкой форума поделитесь, где вопрос обсуждался? Любопытно будет почитать. У нас на форуме что-то спрашивать бесполезно. Тебе начнут рассказывать про космические корабли, которые бороздят просторы вселенной. Если интересно, то могу даже рассказать почему.

69. mkalimulin 1541 21.01.25 13:48 Сейчас в теме

(68)
https://community.openai.com/t/required-numeric-fields-and-the-purpose-of-parameter-descriptions

71. grumagargler 731 21.01.25 17:30 Сейчас в теме

(62)

Плюнули и ушли к Anthropic.

к сожалению или нет, но в архитектуру заложили высокую доступность, и независимость от провайдера. И как бы нам не нравился антропик (у которого нередко падает API, как бы там их графики доступности не врали), задачу связки с openai не отменили.

72. Torin57 45 21.01.25 17:58 Сейчас в теме

(71) А что тех поддержка Open AI говорит? Например, насчет затруднения которое обсуждалось на форуме?

73. grumagargler 731 21.01.25 18:24 Сейчас в теме

(72) не уверен, что она есть в том понимании, как мы привыкли писать на v8@1c.ru. Судя по форуму, это не проблема, а нюансы и каждый выкручивается как умеет в конкретном случае. Вот например тут имеют проблемы с количеством функций: https://community.openai.com/t/best-practices-for-improving-assistants-function-calling-reasoning-ability/596180/3

70. grumagargler 731 21.01.25 17:20 Сейчас в теме

(58) Извините, не всегда удается вовремя отвечать. Сейчас, наши промпты превратились во что-то вроде заклинаний, выложить их как есть я не могу (да и на английском они), но как уже отметил Михаил, мы используем "function calling", и вот с этим у нас есть к openai вопросики. Но судя по всему, у Михаила с этим проблем нет, поэтому возможно в ваших сценариях, их тоже не будет.

59. Torin57 45 21.01.25 00:04 Сейчас в теме

(11) Последние 3 картинки. Досказал Клоду информацию про обед в ресторане.

Прикрепленные файлы:

15. grumagargler 731 10.01.25 23:13 Сейчас в теме

> А чем вам рецепт с необязательными параметрами не понравился?

В одном комментарии сложно передать всё, что приходилось пробовать. Рецепт рабочий в одной ситуации, но вылазит в другой. Чтобы бы вы понимали, мы уже дошли до того, что записываем разговоры (теперь мы понимаем больших вендоров), чтобы потом у себя воспроизводить общение пользователя и смотреть, где лажает. Потому что у себя - всё работает, а потом пользователи жалуются, и правильно жалуются, видим по логам что передает или запрашивает или не запрашивает (а должен) ИИ. И главное, как это надёжно тестировать? Да, есть у нас своя консоль, есть свой прокси-сервер, который смотрит параметры запроса от сервера ИИ, сравнивает со схемой функций, вычисляет что обязательно, что не обязательно, что обязательно, но можно передать 0 или пустую строку и т.д., есть тесты-промпты и т.д., но потом у заказчика - всё равно как-то что-то скажет, и что-то ломается. В целом - работает, но наша практика показывает, что для того, чтобы оно очень хорошо работало, пользователю нужно всё-таки учиться определенной схеме общения с ИИ, чтобы ИИ не ошибался.

16. mkalimulin 1541 11.01.25 00:06 Сейчас в теме

(15) Я тоже одно время думал, что пользователи со временем наработают опыт общения с ИИ и все наладится.
Но сейчас склонен считать, что это было заблуждением. Надо стремиться создавать такие сервисы, где от пользователя не потребуется никакой опыт. Он просто говорит, что ему надо и получает, что ему надо

21. CheBurator 3230 11.01.25 23:24 Сейчас в теме

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей
https://infostart.ru/redirect.php?url=aHR0cHM6Ly9oYWJyLmNvbS9ydS9hcnRpY2xlcy84MzQ5NTYv
дает 404

22. mkalimulin 1541 12.01.25 00:05 Сейчас в теме

(21) У меня открывается. Также можно на Хабре поиском найти

23. CheBurator 3230 12.01.25 00:08 Сейчас в теме

(22) найти не проблема.
может это у меня косячит что-то.
ИС из РБ бывает не открывается почему-то...
А может туплю...

24. CheBurator 3230 12.01.25 00:11 Сейчас в теме

тут вопрос в том, что вот, допустим, ИИ.
Пользователь (!) к ИИ обращается для решения задачи.
Он-то и задачу не может сформулировать толком, но это ладно. ИИ как-то вытащит уточняющими вопросами может быть. А сам пользователь может адекватно оценить "валидность" ответа ИИ?

28. mkalimulin 1541 12.01.25 00:40 Сейчас в теме

(24) Давай представим себе, что есть некий дядя. В программировании, базах данных и запросах этот дядя "ни бум-бум", у него другие скиллы. Этому дяде нужно узнать, что у него не продавалось на прошлой неделе. (Кстати, для 1С вполне себе реальная бизнес-задача. Ни в одной типовой конфигурации нет простого отчета на тему "не продавалось") Дядя обращается к программисту. Программист делает для дяди отчет. Внимание вопрос: может ли дядя адекватно оценить валидность результата, который ему дал программист? В большинстве случаев ответ будет: да. Дядины скиллы позволяют это сделать. Все очень просто. Если бы дядины скиллы не позволяли, он бы сейчас не раздавал задачи программистам, а подметал улицу (ну, или работал падаваном у того же программиста).
Я думаю, что ты неправильно ставишь вопрос. Может ли пользователь оценить... Кто-то может, кто-то не может. Первый становится дядей, второй идет подметать улицу. ИИ не сделает из дурака умного.

31. CheBurator 3230 12.01.25 01:03 Сейчас в теме

(28) из 10 пользователей - "умных" 2. Проверено и подтверждено. Если ко мне приходят с тупыми запросами - я их могу отсечь или аккуратно продинамить. Если такие пользователи дорвутся до ИИ...? и..?

25. CheBurator 3230 12.01.25 00:19 Сейчас в теме

ради интереса тыкнул во всякие "бесплатные" ИИ задачу
"Реши задачу: буханка хлеба стоит 100 рублей. Буханка подешевела на 20%, а потом подорожала на 20%. Сколько стоит буханка после подорожания?"
- После подорожания буханка стоит 124 рубля.
Запустил там же второй раз
"Реши задачу: буханка хлеба стоит 100 рублей. Буханка подешевела на 20%, а потом подорожала на 20%. Сколько стоит буханка после подорожания? Покажи ход решения задачи."
- Буханка хлеба стоит 100 рублей.
Буханка подешевела на 20%, значит, новая цена: 100 - (20/100) 100 = 80 рублей.
Потом буханка подорожала на 20%, значит, новая цена: 80 + (20/100) 80 = 96 рублей.
Ответ: после подорожания буханка стоит 96 рублей.

30. mkalimulin 1541 12.01.25 00:47 Сейчас в теме

(25) Ну так не тыкай в бесплатные

26. CheBurator 3230 12.01.25 00:20 Сейчас в теме

Понятно, что все эти халявные боты в телеге - хрень полная.
Все будет как всегда: людям с деньгами будет доступна качественная еда, остальнеы будут есть бич-пакеты...

29. mkalimulin 1541 12.01.25 00:46 Сейчас в теме

(26) Ээээ....мммм
Если решать твою задачу за деньги, то это будет стоить не более 6 (Шести) копеек. О каких деньгах речь?

32. CheBurator 3230 12.01.25 01:06 Сейчас в теме

(29) тут вопрос: кто кому будет платить эти "6 копеек"...? В этой цепочке, я думаю, нас ждет много интересного.
.
ИС тоже когда-то был бесплатным, когда был молодым...
.
Попробовал заставить MS-Copilot сварганить прямой запрос на 7.7.
Рожает разные варианты 8-оподобных шаблонов запросов...
Жуть...
Ни знаний, ни мозгов...

33. JohnyDeath 302 12.01.25 01:10 Сейчас в теме

(32)

Попробовал заставить MS-Copilot сварганить прямой запрос на 7.7.

Откуда по-твоему он знает про такие экзотики как "прямой запрос для 7.7"? ) Тут людей, которые знают эту технологию, осталось не больше сотни на всей земле ))

34. CheBurator 3230 12.01.25 02:14 Сейчас в теме

(33) Проблемы индейца шерифа не волнуют. Пусть поищет. В Интернете есть. Или он настолько тупой, что даже поискать не сообразит? и нахрена нам такой футбол?

36. JohnyDeath 302 12.01.25 10:25 Сейчас в теме

(34) Оно же не так работает. Тут дело не в просто "поискать". Если хочешь натренировать на своей очень узкой специфики - бери и докручивай на этих данных. Все эти модели умеют хорошо кодить на питоне только потому что в интернетах (в том числе и на гитхабе) есть тонны открытого кода. Я вообще был удивлен, когда модели начали-таки кодить и на языке 1С, хотя изначально все они выдавали крайне скудный результат.

37. mkalimulin 1541 12.01.25 10:42 Сейчас в теме

(36) Жестокий дефицит данных для обучения привёл к тому, что интернет выжали досуха, вместе с 1С в том числе

47. Torin57 45 13.01.25 22:47 Сейчас в теме

(33)

Тут людей, которые знают эту технологию, осталось не больше сотни на всей земле ))

Я один из них, я избранный ))

35. mkalimulin 1541 12.01.25 09:46 Сейчас в теме

(32) Все мы будем платить дяде кожаной курточке

27. CheBurator 3230 12.01.25 00:31 Сейчас в теме

Были погромисты. Будут промпт-инженеры.
"Сумлеваюсь я"...

38. stopa85 46 12.01.25 14:56 Сейчас в теме

А какое решение этой задачи выдаст хороший ИИ.

Интересно посмотреть?

Прикрепленные файлы:

39. SerVer1C 924 13.01.25 08:42 Сейчас в теме

(38) ИИ не решает Я.задачи
Суть ИИ в том, чтобы взять из "супа" сухой остаток и на основании вашего запроса разбавить его определенным количеством воды, чтобы получить другой новый "суп".
Т.е. ИИ не сделает больше, чем есть инфы в Инетах.

41. mkalimulin 1541 13.01.25 10:39 Сейчас в теме

(39) Еще одно распространенное заблуждение. У больших моделей есть такое свойство, которое называется генерализацией. Впервые о нем стали говорить еще тогда, когда исследователи с удивлением обнаружили, что модель решает задачи на сложение чисел. Понятно же, что нет в Интернете абсолютно всех примеров сложения. Что-то типа 238975489325446378664+985674657848971132 вряд ли встречается, а модель решает.
С таким же успехом можно говорить, что ни один ученый в мире не делает больше того, что сделал Аристотель со своей логикой

43. SerVer1C 924 13.01.25 10:56 Сейчас в теме

(41) Зачем мне тогда эти ваши LLM, если я и питоном вычислю сложение больших чисел. Я, конечно, понимаю, что вы в восторге от языковых моделей, но как показывает практика, их круг задач узко специализирован, они не заменят программистов. Логические задачи ИИ пока не способен решить.

44. mkalimulin 1541 13.01.25 10:57 Сейчас в теме

(43) Способен. И делает это лучше 99.9% людей
Какая у вас практика? На основании чего вы делаете выводы?

45. SerVer1C 924 13.01.25 11:03 Сейчас в теме

(44) Вот вам 2 скрина: про лошадей и про Алису
P.S. снизу именно 2 скрина, а не 1, как может показаться

Прикрепленные файлы:

46. mkalimulin 1541 13.01.25 11:50 Сейчас в теме

(45) Блииин! Пишешь людям, пишешь. А потом выясняется, что они ничего не читают. У них потребность самим что-нибудь написать, как им кажется, умное.
Ну вы серьезно? Вы статью читали? Там самая первая ссылка на ту самую "Алису". Откройте ее. Там ссылка на исходный код в гитхаб. Посмотрите код и убедитесь, что это ха-ха, а не исследование. Таким образом логические задачи не решаются в принципе. В статье подробно расписано почему.

40. mkalimulin 1541 13.01.25 10:34 Сейчас в теме

(38) Пожалуйста.
o1 выдаст вам такое решение этой задачи

def minimum_starting_mana(n, changes):
    min_cumulative = 0
    cumulative = 0
    for change in changes:
        cumulative += change
        if cumulative < min_cumulative:
            min_cumulative = cumulative
    return max(0, -min_cumulative)

if __name__ == "__main__":
    import sys
    # Считываем количество источников
    input_data = sys.stdin.read().split()
    n = int(input_data[0])
    changes = list(map(int, input_data[1:n+1]))
    result = minimum_starting_mana(n, changes)
    print(result)

Показать

Но это не так интересно. Потому что это задача начального уровня и, кроме того, она может быть уже была в интернете и попала в обучающую выборку.
Гораздо интереснее другое. Представленная в конце прошлого года o3 имеет вычисленный рейтинг на Codeforces 2727. Это лучше, чем у 99.9% людей, участвующих в соревнованиях. 175 место в мире и соответствует уровню международного гроссмейстера. Вычисление рейтинга производится на только что прошедших соревнованиях, поэтому задачи модель точно не видела. Это при том, что еще совсем недавно передовые модели имели рейтинг ниже 1900 и относились ко второму дивизиону (любители)

42. stopa85 46 13.01.25 10:49 Сейчас в теме

(40) ~~Вообще я вижу тут одну ошибку, но мне нужно время, чтобы проверить.~~

~~Но, в целом,~~ убедили - иду искать новую работу.

48. AlexanderEkb 25 14.01.25 12:23 Сейчас в теме

(42) Мне АИ-агент сформировал с нуля конфигурацию. Я такой смотрю, изучаю, ничего не подозревая. А потом вижу в конце приписка от АИ: "Вы уволены!".

49. Torin57 45 14.01.25 12:37 Сейчас в теме

(48)

АИ: "Вы уволены!".

Чем АИ объяснил свою приписку? Вы не спрашивали?

50. AlexanderEkb 25 14.01.25 13:12 Сейчас в теме

(49) Это юмор у меня такой. Не было такого, просто придумал я.

51. Torin57 45 14.01.25 14:18 Сейчас в теме

(50) Понятно, не читал всю переписку.

52. CheBurator 3230 15.01.25 17:35 Сейчас в теме

(49)

Чем АИ объяснил свою приписку? Вы не спрашивали?

а смысл спрашивать? кто будет что-то объяснять совершенно потороннему челу с улицы (уволенному уже)..?

81. skyadmin 62 26.02.25 21:15 Сейчас в теме

(40) С majorana 1 запустит ИИ параллельные вычисления в параллельных измерениях, вот начнется веселуха)

Оставьте свое сообщение

E-mail:

Автор:

Михаил Калимулин (mkalimulin)

Рейтинг: 1541

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 2278473

Создание 10.01.25 12:00

Обновление 10.01.25 12:00

Статистика:

Просмотры 3323

Загрузки 0

Рейтинг 32

Комментарии 81

Характеристики:

Код открыт Да

Рубрики Нейросети

Кому Для всех

Тип файла Нет файла

Платформа Не имеет значения

Конфигурация Универсальные

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)