К вопросу о надежности искусственного интеллекта в бизнесе

10.01.25

Интеграция - Нейросети

Я занимаюсь практическим применением больших языковых моделей в бизнесе. При этом постоянно приходится слышать, что искусственный интеллект нельзя использовать в бизнесе, потому что "галлюцинации". Откуда взялось это расхожее мнение, что на самом деле и какие есть простые и эффективные способы повышения надежности, обо всем этом попробую сейчас рассказать.

Ох уж эти галлюцинации! Кто только не попался на эту удочку. От рядовых пользователей до целых коллективов с академическим статусом, публикующихся на arxiv. Наиболее яркий пример тому: Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models Эта же статья не так давно обсуждалась на Хабре Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей

Если хотите разобраться с этим, забудьте на время это слово галлюцинации и обратите внимание на другое слово семплирование. Что это такое. Большая языковая модель выдает вам ответ на ваш вопрос по частям, которые называются токенами. Это не слово и не буква, а нечто среднее между ними. На каждом шаге модель выбирает из нескольких возможных вариантов продолжения. Варианты не равны между собой. Какие-то считаются более подходящими, какие-то менее. Например, у вас может быть вариант 1 с рейтингом 70%, вариант 2 с рейтингом 29% и вариант 3 с рейтингом 1%. Это будет означать, что в 70 случаях из 100 для продолжения будет выбран вариант 1, в 29 случаях вариант 2 и в 1 случае вариант 3. На практике это может означать, что вы получите пресловутую галлюцинацию в 30 случаях из 100. Более того, в 1 случае из 100 вы получите такую галлюцинацию, о которой будете долго рассказывать всем, кто только будет вас слушать.

Самое важное здесь в том, что семплирование не является органической частью модели. Семплирование это нечто "прикрученное" сбоку. Зачем так сделали, и почему не стали просто выбирать всегда наилучший вариант? Представьте себе, что семплирование отключено и на каждом шаге выбирается наилучший вариант. Вы просите модель рассказать сказку. Она расскажет вам сказку. Возможно даже неплохую. Но она расскажет ее и вам, и Васе, и Пете... И сегодня, и завтра, и послезавтра. Каждый раз одну и ту же сказку. Если речь идет о сказке, то это никуда не годится. С другой стороны, если вам надо решать задачу на логику или математику (а бизнес-задачи чаще всего именно такие), тогда одна "сказка" для всех и всегда, это именно то, что вам нужно.

Провайдеры больших языковых моделей предусмотрели возможность управлять семплированием. Есть две управляющие опции при вызове через API, а у некоторых провайдеров есть еще третья. Вот они:

  • temperature

  • top_p

  • top_k

Самая простая из них top_k. С ее помощью мы можем установить количество рассматриваемых на каждом шагу результатов. Понятно, что если задать top_k=1, то это и будет полным отключением семплирования. Но это слишком просто. В OpenAI, например, считают, что не по пацански просто, поэтому у них такой опции нет. Опция top_p работает сложнее. На каждом шаге из всех возможных кандидатов выбираются самые лучшие один за другим до тех пор пока их суммарный "рейтинг" (или суммарная вероятность, как это чаще называют) не станет больше либо равен установленного порога. Если установить top_p=0.1, то это тоже будет равносильно отключению семплирования, за исключением экзотических случаев, когда у вас будет много кандидатов с низким рейтингом (вероятностью). Например: 0.05, 0.04, 0.03, 0.03... Но это и будет означать, что выбор на этом конкретном шаге почти не играет значения.

Самая замудренная опция temperature. Тут используется логарифмическая функция для изменения изначальных рейтингов. При значении temperature=1 распределение рейтингов (вероятностей) остается неизменным. При значениях выше 1, разница между рейтингами сглаживается, при значениях ниже 1, разница обостряется. Допустим, изначально у вас было два кандидата с рейтингами 60% и 40% (0.6 и 0.4). Вы задаете низкую температуру и разница обостряется, превращается, условно говоря, в 98% и 2% (0.98 и 0.02). Чтобы отключить семплирование, надо установить как можно более низкую температуру. Некоторые провайдеры разрешают указывать temperature=0, другие занимаются буквоедством и не разрешают этого делать (ну да, на значении 0 эта функция не определена). Приходится указывать что-то типа temperature=0.01

Несмотря на свою сложность, опция temperature пользуется наибольшей популярностью. Видимо, в силу прозрачности ассоциации. Высокая температура - бред. Низкая - холодный расчет.

Как видите, в этом смысле управлять моделью не сложнее чем, краном на кухне. Холодное-горячее. Тем удивительнее то, что так много людей обожглось и продолжает обжигаться горячими. Видимо, здесь нет ничей вины. Большие языковые модели были явлены широкой публике в виде чата. Для поболтать-поразвлекаться. Температура в чате была установлена в значение 1. Регулировка температуры отсутствовала (она и сейчас чаще всего отсутствует), дабы не смущать публику логарифмами. Для решения задач на логику это никуда не годилось, но сказочки получались знатные. А если какой-нибудь Вася пробовал чат на логику, то получалось еще лучше! Вася с некоторой, довольно высокой вероятностью получал очень странный результат и него тут же возникало желание поведать об этом всему свету. На его крики приходили Петя и Коля. Проверяли у себя решение задачи на логику. Получали нормальный результат и разгорался жаркий спор, привлекающий все новых и новых участников, из которых кто-то потом становился подписчиком. Business as usual.

Можно сказать, что все мы, кто сейчас занимается внедрением искусственного интеллекта в бизнес, отчасти стали жертвой первоначального маркетингового успеха больших языковых моделей. Спутником этого успеха стал миф о галлюцинациях, с которым теперь приходится бороться.

В истории с галлюцинациями больших языковых моделей большая часть это миф. Но это все же часть. Отключив семплирование, мы получим ... Но прежде, чем перейти к тому, что мы получим, хочу обратить ваше внимание на Debate: Sparks versus embers. Здесь два математика обсуждают тему: "Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез..." В дебатах есть примечательный момент. Когда условный ИИ-скептик говорит, что в длинных цепочках рассуждений обязательно будут галлюцинации, оппонент ему возражает так: "Послушай, ну мы-то с тобой знаем, что если человеком написана статья в 50+ страниц, то там будут галлюцинации 100%. И что? И ничего, показываем ревьюверам, исправляем. Все это запросто воспроизводится и в искусственном интеллекте. Одна модель проверяет другую..."

Отключив семплирование мы конечно же не получим абсолютного отсутствия галлюцинаций. Оно в принципе недостижимо. Но мы получим уровень галлюцинаций не выше, а скорее всего значительно ниже, чем у человека.

Но и это еще не все. С этим можно еще поработать. В особо ответственных случаях, да, можно будет организовать ревью на нескольких других моделях. Но для основной массы бизнес-задач, я думаю, это будет излишним. Есть более простой и достаточно эффективный метод.

Допустим, мы знаем, что на наших задачах уровень галлюцинаций составляет 1 к 1000 на запрос. Это означает, что на 1 запрос из 1000 будет выдан неверный результат. Если мы делаем около 1000 запросов в год, тогда примерно раз в год модель нам будет подкидывать неприятности. Будем тогда дублировать каждый запрос, т.е. отправлять один и тот же запрос к большой языковой модели дважды. Всякий раз мы будем получать один и тот же ответ, но раз в год ответы будут разными. Тогда мы отправим запрос в третий раз и воспользуемся тем результатом, который встретился в двух случаях из трех. Таким нехитрым приемом, мы хоть и не достигнем абсолюта, но теперь неприятности нас будут ожидать не раз в год, а раз в тысячу лет.

Этот метод хорош тем, что его можно очень просто масштабировать. Если нас не устраивает тысяча лет, можно превратить ее в миллион или миллиард простым повторением запросов. Это, конечно, увеличивает затраты, но тут хочу напомнить, что бизнес-задачи стоят существенно дешевле, чем развлечения. У вас может быть миллион записей о продажах. Но практически любой запрос на получение статистики даст вам на выходе текст SQL запроса, который уложится в 100 токенов. Текущая цена 100 выходных токенов у модели gpt-4o-mini всего лишь 0.00006 долларов. Т.е. 1000 запросов вам обойдутся в 6 центов, ну а две тысячи в целых 12. Есть, конечно, еще входные токены, но они стоят в разы меньше. Gpt-4o-mini прекрасно справляется с бизнес-задачами. Но есть, например китайская Deepseek coder v3, которая по утверждениям некоторых работает еще лучше. Так она стоит еще дешевле.

Подведем итоги. Миф о невозможности использования искусственного интеллекта в бизнесе возник на базе маркетингового успеха развлекательного направления. Отключение семплирования дает уровень галлюцинаций не выше, а скорее ниже, чем у людей. И есть простые методы получения любого желаемого уровня надежности при использовании больших языковых моделей в бизнесе.

См. также

Нейросети 8.3.6 1С:Управление торговлей 11 Управленческий учет Платные (руб)

Обработка подключения фотокамер Canon и Nikon к Управление торговлей 11.4 для потоковой загрузки фотографий в карточки товаров с автоматическим удалением фона

22800 руб.

24.06.2021    10122    4    4    

15

Нейросети Мастера заполнения Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для заполнения описания номенклатуры с помощью модели ИИ GigaChat от Сбера. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ.

5000 руб.

08.11.2023    3091    13    0    

22

Мастера заполнения Нейросети Платформа 1С v8.3 1C:Бухгалтерия 1С:Управление торговлей 11 Платные (руб)

Расширение для заполнения описания товара (номенклатуры) с помощью модели ИИ ChatGPT с ключевыми словами. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ. Прошло аудит на 1cfresh.com. Версия для автоматического заполнения

5000 руб.

13.03.2023    18777    47    50    

77

Нейросети Программист Платформа 1С v8.3 Абонемент ($m)

В библиотеке искусственного интеллекта для 1С появилась опция анализа изображения. Можно попросить большую языковую модель (LLM) выдать информацию на основании того, что она видит. Будет полезно познакомиться с тем, как это работает и что является best practice при работе с изображениями и LLM

1 стартмани

17.02.2025    3017    6    mkalimulin    11    

28

Нейросети Бесплатно (free)

В этой статье расскажу, какие задачи можно и даже нужно делегировать искусственному интеллекту, в чём трудности применения Chat GPT в России. Попробуем составить полноценное ТЗ для создания мобильного приложения на базе 1С:Предприятие с помощью ИИ и сервиса MAKER-STUDIO.

14.02.2025    624    1Concept    0    

3

Нейросети Программист Пользователь Абонемент ($m)

Вам нравится набирать сообщения и другую информацию в телефоне голосом? Вы хотите делать то же самое на компьютере? С помощью голосового ввода Вы можете упростить работу с текстом на компьютере, транскрибируя речь в реальном времени с SimpleVoiceInput.

3 стартмани

12.02.2025    528    8    Smikle    2    

8

Нейросети Распознавание документов и образов Программист Платформа 1С v8.3 Отраслевые Бесплатно (free)

Пример использования механизма голосового распознавания платформы 1С: Предприятия на примере Демоприложения речевого распознавания от 1С с примером добавленной библиотеки ИИ от Михаила Калимулина с интегрированным голосовым управлением для формирования текста запроса к ИИ.

07.02.2025    435    24    m_aster    2    

6

Нейросети Бесплатно (free)

Искусственный интеллект постепенно становится неотъемлемой частью нашей жизни, ускоряя и упрощая рутинные процессы. Но ИИ – это не замена сотрудника, а лишь инструмент. Расскажем о применении дообученного ChatGPT для основных задач аналитиков: составления глоссария, моделирования процессов и User Story Mapping.

04.02.2025    1596    alenkaiva    0    

11
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. XilDen 560 10.01.25 12:48 Сейчас в теме
Очень интересно и доступно всё описано) Спасибо за статью!
2. DmitryKSL 158 10.01.25 14:03 Сейчас в теме
Есть практика замены искусственным интеллектом работы программиста? Хотя бы банальные вещи. Просто интересно об этом было бы почитать. Если что я про 1С.
4. AlexanderEkb 25 10.01.25 15:28 Сейчас в теме
(2) Конечно. Уже с 1с работает всё отлично. Я только так программирую в 1с с использованием аи-агентов. Без них уже сложно, и медленно будет.
8. DmitryKSL 158 10.01.25 16:17 Сейчас в теме
(4) Что именно используете? Можно немного подробнее?
9. AlexanderEkb 25 10.01.25 16:52 Сейчас в теме
(8) IDE: Cursor, в первую очередь. Для генерации больших обьёмов тестовых данных, тестовым модулей. Для написания кода и форм. Для анализа конфигураций, для изменение кода в конфигурации по промту пока не использую
6. mkalimulin 1366 10.01.25 15:45 Сейчас в теме
(2) На сегодняшний день достаточно надежно работает получение произвольных отчетов. Т.е. тут мы имеем полную замену программиста. Пользователь работает напрямую, без человека-посредника.
На подходе реструктуризация базы и создание произвольных алгоритмов. Т.е. пользователь говорит что-то типа: "А теперь мне надо вести учет по размерам", а в результате происходит перестройка базы
53. утюгчеловек 42 17.01.25 16:12 Сейчас в теме
(6)
На сегодняшний день достаточно надежно работает получение произвольных отчетов. Т.е. тут мы имеем полную замену программиста. Пользователь работает напрямую, без человека-посредника.
На подходе реструктуризация базы и создание произвольных алгоритмов. Т.е. пользователь говорит что-то типа: "А теперь мне надо вести учет по размерам", а в результате происходит перестройка базы


Разрешите поинтересоваться где это внедрено?
54. mkalimulin 1366 17.01.25 17:10 Сейчас в теме
55. утюгчеловек 42 17.01.25 21:43 Сейчас в теме
(54) Хотел узнать есть ли люди или компании, которые могли бы подтвердить, что это работает так, как вы это преподносите

Похоже речь об этой работе
https://infostart.ru/1c/reports/2027806/

Если так, то вопросов нет
56. mkalimulin 1366 17.01.25 21:59 Сейчас в теме
(55) Нет. Речь не об этой работе. Эта слишком старая. У меня есть несколько рабочих сервисов. Берите, пробуйте. Это бесплатно
74. muskul 27.01.25 02:46 Сейчас в теме
(6) некоторые пользователи не могут понять как отборы в 8 работает. что есть три колоночки подписанные между прочим, что, как и значение. а вы про ИИ )
75. mkalimulin 1366 27.01.25 10:21 Сейчас в теме
(74) Вот именно! А с ИИ пользователю и не потребуется ничего понимать. Он просто скажет, что ему надо и получит, что ему надо.

Я сам давно заметил, что пользователи en masse не работают с отборами, сколько им не объясняй. И тут нет смысла злиться на пользователей. Не надо говорить, что пользователи плохие. Надо сказать себе, что это отборы плохие. А для пользователей надо придумать что-то другое
79. muskul 28.01.25 01:58 Сейчас в теме
(75) Поэтому в супер пупер варианте я за какую то локальную модель, которая бы могла взаимодействовать напрямую с программой.
80. mkalimulin 1366 28.01.25 02:05 Сейчас в теме
(79) Локальная будет дорого стоить
7. wonderboy 501 10.01.25 16:14 Сейчас в теме
(2) Прям замены врядли такое успешно практикуют. Но помощь программисту - действительно очень существенная. Вот показывал пример:
https://rutube.ru/video/aea514d0d1882a158393428f0e00f93a/
3. SerVer1C 872 10.01.25 14:36 Сейчас в теме
Расскажите, в каких бизнес-кейсах (штук 5, хотя бы) вы применяете БЯМ ?
5. mkalimulin 1366 10.01.25 15:40 Сейчас в теме
(3) Прием заказов от покупателей. Получение произвольных отчетов.
https://infostart.ru/1c/articles/2269344/ вот здесь подробно описано
10. quazare 3874 10.01.25 17:02 Сейчас в теме
(5) забавно, сейчас выглядит как «игрушка», но за подобным будущее
11. grumagargler 728 10.01.25 18:57 Сейчас в теме
Сегодня ИИ в нагнетании ажиотажа не нуждается, но проблемки всё-таки есть, и мне кажется в задачах для бизнеса, нечестно оправдывать галлюцинации машины, сравнивая её с галлюцинациями человека. Если про бизнес, то на мой взгляд, это всё равно что если бы арифметические операции машиной выполнялись почти всегда точно, а если есть претензии - ну так попробуй сам в уме подсчитать. Другими словами, несмотря на то, что это новое-прорывное-прекрасное, бизнес-требования всё-таки диктуются жизнью, и это нормально, что нам хочется чтобы машина не ошибалась. А она к сожалению, пока ещё ошибается.

Один из примеров (тоже очень активно занимаемся темой виртуальных ассистентов). Допустим, одна из функций агента добавляет задачу для пользователя в информационную базу. Функция принимает на вход текст задачи, дату и время, продолжительность. Всё работает, если диалог строится примерно таким образом: Я: Создай задачу ИИ: Скажите текст задачи, дату и продолжительность. Я: Позвонить клиенту, завтра в два часа дня. ИИ: Я создал для вас задачу #123.

Затем, я например говорю: Я: Я должен завтра позвонить клиенту и обсудить детали договора. ИИ: Я создал для вас задачу #124. Время он не спросил и передал в мою функцию 9 утра, при этом и в описании параметров и в самой функции указано, что ИИ обязан спросить время у пользователя. Тоже и с продолжительностью, передано 30 минут, хотя ни значения по умолчанию ни каких-то других указаний в схеме описания функции нет.

Это один из примеров, есть и другие.

По поводу решения проблемы не детерминированности путем многократного выполнения запросов, не очень понятно с практической точки зрения. ИИ может параллельно запрашивать функции, результаты которых лежат в основе дальнейших рассуждений модели, ещё не видимых пользователю, а также вовлекает создание объектов в информационной базе, что существенно меняет ответ функции при повторном запуске всего цикла. Для голосовых помощников, это в принципе неприемлемо, мы на пупе крутимся за десятые доли секунды, чтобы максимально обеспечить естественность общения с помощником.
12. mkalimulin 1366 10.01.25 20:42 Сейчас в теме
(11) Мне кажется ваша проблема в том, что вы слишком прямолинейно подходите к решению задач.
Почему бы не делать то, что вы делаете в два прогона? Сначала промт от пользователя и получение структурированной задачи. Если вы в тулзах укажете все параметры необязательными, тогда и никаких 9 утра и 30 минут не будет. На втором шаге сравниваете эту не полностью заполненную структуру с тем, что должно быть и получаете список того, что надо заполнить...
Вы "на пупе крутитесь" потому, что сами себя туда загнали. Я вот принимаю голосовое сообщение в Телеграм и через некоторое время выдаю пользователю ответ. И это тоже естественно. Все уже так привыкли: пишешь что-то в мессенджер, а тебе через какое-то время отвечают. Вы уперлись в то, что должен быть именно разговор. А это, кстати, не самое "естественное", если можно так выразиться. Есть определенная ассиметрия. Для человека комфортнее когда он выдает на выход голосом, а принимает текстом. Человеку так легче. Говорить легче, чем писать, но читать легче, чем слушать
13. grumagargler 728 10.01.25 22:10 Сейчас в теме
(12) > Мне кажется ваша проблема в том, что вы слишком прямолинейно подходите к решению задач

Интересная интерпретация, возможно вам стоит попробовать углубиться в практическое применение ИИ чуть глубже, чтобы нащупать проблему, о которой я говорю. Не обижайтесь, но вот это "а попробуйте то, а попробуйте сё", уже порядком надоело и на форуме опенай от теоретиков, которые занимаются исследованиями, а не практическим применением.

> Вы "на пупе крутитесь" потому, что сами себя туда загнали.

Мне кажется вы изолировали себя от реальности и смотрите на задачи с позиции уже полученного опыта работы с ИИ, а не потребностей бизнеса. Мне почти неудобно вас спрашивать, а зачем тогда OpenAI разрабатывает модели gpt-4o-realtime* (эти модели позволяют создавать разговорные среды с низкой задержкой, и поддерживают ввод и вывод аудиоданных в реальном времени) и представляете ли вы себе что такое требования заказчика и существование категории работников, у которых руки, например, в перчатках, а из техники, смартфон в халате или автономный raspberry pi.
14. mkalimulin 1366 10.01.25 22:51 Сейчас в теме
(13) Ну раз такие требования заказчика, тогда да, ничего не поделаешь.
А чем вам рецепт с необязательными параметрами не понравился?
17. AlexanderEkb 25 11.01.25 06:13 Сейчас в теме
(11) я читал ту переписку, которые вы на инфостарте скидывали про эту проблему с function calling, где вам много давали по теме и не по теме советов как обойти это. Я так понял проблема эта так и не решилась. Интересно, у вас запрос разве не попадает в вашу функцию в коде, которая потом его пересылает llm-ке? В этой функции перед тем как передать запрос пользователя дальше по цепочке, вроде можно же закинуть llm-ке запрос на получение параметров из запроса и прервать цепочку отправки запроса дальше при отсутствии необходимого. Те, я так понимаю, эта проблема есть, но, если я вам правильно понимаю, она специфична для function calling в gpt. Те, при другой реализации - это проблема решается парой лишней строчек кода?
wonderboy; +1 Ответить
19. grumagargler 728 11.01.25 17:58 Сейчас в теме
(17)
Интересно, у вас запрос разве не попадает в вашу функцию в коде, которая потом его пересылает llm-ке?


ИИ просит меня вызвать функцию, имя которой и параметры, ИИ для меня уже подготовил. И если я могу проверить, все ли параметры переданы по составу и заполненности, то я не могу проверить сами значения параметров на предмет их подлинности. Например, если ИИ просит меня вызвать функцию добавления напоминания и передает мне 9 утра, то вне зависимости, обязательный в схеме это был параметр или нет, у меня нет быстрого способа проверить, что пользователь таки действительно просил ему что-то напомнить в 9 утра, а не потому что так решила модель (про температуру, сэмплирование, об этом всём в курсе).
AlexanderEkb; +1 Ответить
18. AlexanderEkb 25 11.01.25 06:22 Сейчас в теме
(11) А какие фреймоврки используете? CrewAI не пробовали?
20. grumagargler 728 11.01.25 18:06 Сейчас в теме
(18)
CrewAI

нет, разработка началась ещё до жпт, всё успели сами написать.
AlexanderEkb; +1 Ответить
57. Torin57 34 17.01.25 23:24 Сейчас в теме
(11)
Один из примеров (тоже очень активно занимаемся темой виртуальных ассистентов). Допустим, одна из функций агента добавляет задачу для пользователя в информационную базу. Функция принимает на вход текст задачи, дату и время, продолжительность. Всё работает, если диалог строится примерно таким образом: Я: Создай задачу ИИ: Скажите текст задачи, дату и продолжительность. Я: Позвонить клиенту, завтра в два часа дня. ИИ: Я создал для вас задачу #123.

Затем, я например говорю: Я: Я должен завтра позвонить клиенту и обсудить детали договора. ИИ: Я создал для вас задачу #124. Время он не спросил и передал в мою функцию 9 утра, при этом и в описании параметров и в самой функции указано, что ИИ обязан спросить время у пользователя. Тоже и с продолжительностью, передано 30 минут, хотя ни значения по умолчанию ни каких-то других указаний в схеме описания функции нет.


Немножко абстрактно для понимания. Сможете привести текст промта целиком? Там где ИИ обязан спросить время у пользователя. Любопытно понять, почему не спросил. Модель claude-3.5-sonnet?
76. grumagargler 728 27.01.25 18:31 Сейчас в теме
(57) Вот пришла ещё жалоба. Сейчас январь 25го. Пользователь просит "закрой мне все задачи прошлого месяца", ИИ понимает, что нужно вызвать функцию получения текущего времени, потом он вызывает функцию закрытия задач передавая 01.12.2024 - 31.12.2024, тоже всё хорошо. Затем пользователь говорит "О, и закрой задачи от 24 января". Для пользователя, это 24.01.2025, но ИИ уже по какой-то причине, пытается закрыть задачу 24.01.2024, пока пользователь не запросит новое обсуждение, или уточнит, что речь о задаче от 24.01.2025.
77. Torin57 34 27.01.25 18:51 Сейчас в теме
(76) Ну да, ИИ слишком гибкий. Впрочем, в общении с человеком все то же самое. Бывает искреннее недопонимание. Допустим, общаемся в телеграм чате ботхаба (bothub.chat - агрегатор нейросетей с api).
Я пишу живому человеку:
Базу знаний ИИ при обучении наполняют из интернета? Вопрос вот в чем. Яндекс ГПТ не хочет обсуждать географию России и Крым. При этом про Кольский полуостров отвечает с блеском. Непонятно почему. Боится что-то лишнее "ляпнуть"? Потому что источники инфы в интернете бывают разные. Чат ГПТ может, например, упомянуть резолюцию ГА ООН от 27 марта 2014 года.

Меня интересуют источники информации, которыми "пичкают" ИИ при обучении. Это что, весь интернет? Или умные дядьки пишут 100 тыс пар вопросов-ответов? Или инфу можно как-то фильтровать? А то мало ли чего там ИИ начитается. Зайдет на сайт ИГИЛ и начнет выдавать какой-нибудь экстремизм.
И что же я слышу в ответ?
Нет там «базы знаний» это не ИИ времен пролога.. там огромный набор вероятностей - какое слово обычно идет после кучи других слов

Охренеть. Я спрашиваю про запись концерта какого-нибудь музыканта, где он проходил, сколько стоили билеты, а в ответ слышу лекцию о том как звуковые волны преобразуются в электромагнитные.

Поэтому выход только один. Заставить ИИ каждый раз переспрашивать у пользователя "Я вас правильно понял?". Или какую-нибудь кнопочку добавить "Да/Нет". Но это, наверно, тоже неудобно пользователю. ИИ должен сам "догадаться". Нельзя ли собрать статистику таких "ляпов", чтобы потом на ее основе написать подробные инструкции для ИИ, что и как ему понимать в ответах пользователя? Наверно, именно это вы и делаете сейчас? Серьезная у вас задача, быть первопроходцем.
78. Torin57 34 27.01.25 19:01 Сейчас в теме
(76) А если такой промт написать "Если есть сомнения, какой год пользователь имеет ввиду, то переспроси у пользователя". Как думаете, сработает?
И еще. Переписка с пользователем между сеансами сохраняется? Потому что один раз ИИ переспросит какой год, 2024 или 2025, а потом уже будет учитывать предыдущие ответы, и переспрашивать не будет.
58. Torin57 34 21.01.25 00:01 Сейчас в теме
(11) Понимаю, что вам со мной неинтересно, немножко не ваш уровень, но все-таки.
Я задал Клод Соннету 3.5 от 20 июня следующий промт:
Твоя задача - принимать на вход заявки на создание встреч и на выходе возвращать формализованные данные о встрече. Диалог должен строиться в таком формате:

Я: Создай задачу ИИ: Скажите текст задачи, дату и время, продолжительность. Я: Позвонить клиенту, завтра в два часа дня, встреча на полчаса. ИИ: Я создал для вас задачу #123. ИИ:{позвонить клиенту}{завтра в два часа дня}{полчаса}
Давай начнем.
Создай задачу

Четыре раза просил его создать задачу, он меня ни разу не подвел. Если я не задавал продолжительность, то ИИ писал {Не указано}. Когда я в четвертый раз еще и дату/время не указал, то ИИ не захотел создавать задачу. Видимо, у вас как-то по-другому это работает.
Что нужно, чтобы воспроизвести вашу ситуацию? Несколько сотен раз задать вопрос? Просто любопытно.
Прикрепленные файлы:
60. mkalimulin 1366 21.01.25 00:34 Сейчас в теме
(58) Как раз с Клодом у них все получилось. Проблемы были с OIpenAI
61. Torin57 34 21.01.25 09:21 Сейчас в теме
(60) То есть если ту же задачу поставить перед gpt-4o-mini, то она не справится?
62. mkalimulin 1366 21.01.25 09:51 Сейчас в теме
(61) Справится. Они столкнулись с тем, что модель вместо пустых значений выдумывала свои дефолтные. Пытались решить это через дополнительные инструкции в описании функции. Столкнулись с незадокументированным ограничением на длину описания функции. Плюнули и ушли к Anthropic.
Обратите внимание, что задача решалась не так, как у вас, а через функции (tools)
63. Torin57 34 21.01.25 09:55 Сейчас в теме
(62)
Обратите внимание, что задача решалась не так, как у вас, а через функции (tools)

То есть это некие функции встроенные в API чат гпт? Там нет промта в общеизвестном понимании?
64. mkalimulin 1366 21.01.25 09:59 Сейчас в теме
(63) Есть и promt и systempromt и tools и еще много чего. Если хотите заниматься вопросом серьезно, заводите аккаунты у провайдеров моделей и работайте через API. Но я вижу, вы в курсе
65. Torin57 34 21.01.25 10:03 Сейчас в теме
(64)
Если хотите заниматься вопросом серьезно

Не хочу. Я убедился, что это слишком сложно для меня.
У автомобиля есть газ и тормоз, а что под капотом - пусть разбираются автомеханики. И то, я даже газ и тормоз не трогаю. Стараюсь все вопросы решать через промт. Тогда понятно, почему автор (11) мне не ответил. Слишком долго и сложно объяснять, да и бесполезно.
66. Torin57 34 21.01.25 10:14 Сейчас в теме
(62)
Столкнулись с незадокументированным ограничением на длину описания функции. Плюнули и ушли к Anthropic.

А что тех поддержка Open AI сказала? Вы с их саппортом общаетесь? Там могли бы подсказать, по идее.
67. mkalimulin 1366 21.01.25 10:19 Сейчас в теме
(66) Они пытались на форуме OpenAI получить ответ. Подсказок получили много, но, как я понимаю, ни одна им не помогла.
Я занимаюсь примерно тем, же. Но у меня таких проблем не было
68. Torin57 34 21.01.25 12:57 Сейчас в теме
(67)
Они пытались на форуме OpenAI получить ответ.

Может ссылочкой форума поделитесь, где вопрос обсуждался? Любопытно будет почитать. У нас на форуме что-то спрашивать бесполезно. Тебе начнут рассказывать про космические корабли, которые бороздят просторы вселенной. Если интересно, то могу даже рассказать почему.
71. grumagargler 728 21.01.25 17:30 Сейчас в теме
(62)
Плюнули и ушли к Anthropic.

к сожалению или нет, но в архитектуру заложили высокую доступность, и независимость от провайдера. И как бы нам не нравился антропик (у которого нередко падает API, как бы там их графики доступности не врали), задачу связки с openai не отменили.
72. Torin57 34 21.01.25 17:58 Сейчас в теме
(71) А что тех поддержка Open AI говорит? Например, насчет затруднения которое обсуждалось на форуме?
73. grumagargler 728 21.01.25 18:24 Сейчас в теме
(72) не уверен, что она есть в том понимании, как мы привыкли писать на v8@1c.ru. Судя по форуму, это не проблема, а нюансы и каждый выкручивается как умеет в конкретном случае. Вот например тут имеют проблемы с количеством функций: https://community.openai.com/t/best-practices-for-improving-assistants-function-calling-reasoning-ability/596180/3
70. grumagargler 728 21.01.25 17:20 Сейчас в теме
(58) Извините, не всегда удается вовремя отвечать. Сейчас, наши промпты превратились во что-то вроде заклинаний, выложить их как есть я не могу (да и на английском они), но как уже отметил Михаил, мы используем "function calling", и вот с этим у нас есть к openai вопросики. Но судя по всему, у Михаила с этим проблем нет, поэтому возможно в ваших сценариях, их тоже не будет.
59. Torin57 34 21.01.25 00:04 Сейчас в теме
(11) Последние 3 картинки. Досказал Клоду информацию про обед в ресторане.
Прикрепленные файлы:
15. grumagargler 728 10.01.25 23:13 Сейчас в теме
> А чем вам рецепт с необязательными параметрами не понравился?

В одном комментарии сложно передать всё, что приходилось пробовать. Рецепт рабочий в одной ситуации, но вылазит в другой. Чтобы бы вы понимали, мы уже дошли до того, что записываем разговоры (теперь мы понимаем больших вендоров), чтобы потом у себя воспроизводить общение пользователя и смотреть, где лажает. Потому что у себя - всё работает, а потом пользователи жалуются, и правильно жалуются, видим по логам что передает или запрашивает или не запрашивает (а должен) ИИ. И главное, как это надёжно тестировать? Да, есть у нас своя консоль, есть свой прокси-сервер, который смотрит параметры запроса от сервера ИИ, сравнивает со схемой функций, вычисляет что обязательно, что не обязательно, что обязательно, но можно передать 0 или пустую строку и т.д., есть тесты-промпты и т.д., но потом у заказчика - всё равно как-то что-то скажет, и что-то ломается. В целом - работает, но наша практика показывает, что для того, чтобы оно очень хорошо работало, пользователю нужно всё-таки учиться определенной схеме общения с ИИ, чтобы ИИ не ошибался.
16. mkalimulin 1366 11.01.25 00:06 Сейчас в теме
(15) Я тоже одно время думал, что пользователи со временем наработают опыт общения с ИИ и все наладится.
Но сейчас склонен считать, что это было заблуждением. Надо стремиться создавать такие сервисы, где от пользователя не потребуется никакой опыт. Он просто говорит, что ему надо и получает, что ему надо
21. CheBurator 2697 11.01.25 23:24 Сейчас в теме
Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей
https://infostart.ru/redirect.php?url=aHR0cHM6Ly9oYWJyLmNvbS9ydS9hcnRpY2xlcy84MzQ5NTYv
дает 404
22. mkalimulin 1366 12.01.25 00:05 Сейчас в теме
(21) У меня открывается. Также можно на Хабре поиском найти
23. CheBurator 2697 12.01.25 00:08 Сейчас в теме
(22) найти не проблема.
может это у меня косячит что-то.
ИС из РБ бывает не открывается почему-то...
А может туплю...
24. CheBurator 2697 12.01.25 00:11 Сейчас в теме
тут вопрос в том, что вот, допустим, ИИ.
Пользователь (!) к ИИ обращается для решения задачи.
Он-то и задачу не может сформулировать толком, но это ладно. ИИ как-то вытащит уточняющими вопросами может быть. А сам пользователь может адекватно оценить "валидность" ответа ИИ?
28. mkalimulin 1366 12.01.25 00:40 Сейчас в теме
(24) Давай представим себе, что есть некий дядя. В программировании, базах данных и запросах этот дядя "ни бум-бум", у него другие скиллы. Этому дяде нужно узнать, что у него не продавалось на прошлой неделе. (Кстати, для 1С вполне себе реальная бизнес-задача. Ни в одной типовой конфигурации нет простого отчета на тему "не продавалось") Дядя обращается к программисту. Программист делает для дяди отчет. Внимание вопрос: может ли дядя адекватно оценить валидность результата, который ему дал программист? В большинстве случаев ответ будет: да. Дядины скиллы позволяют это сделать. Все очень просто. Если бы дядины скиллы не позволяли, он бы сейчас не раздавал задачи программистам, а подметал улицу (ну, или работал падаваном у того же программиста).
Я думаю, что ты неправильно ставишь вопрос. Может ли пользователь оценить... Кто-то может, кто-то не может. Первый становится дядей, второй идет подметать улицу. ИИ не сделает из дурака умного.
31. CheBurator 2697 12.01.25 01:03 Сейчас в теме
(28) из 10 пользователей - "умных" 2. Проверено и подтверждено. Если ко мне приходят с тупыми запросами - я их могу отсечь или аккуратно продинамить. Если такие пользователи дорвутся до ИИ...? и..?
25. CheBurator 2697 12.01.25 00:19 Сейчас в теме
ради интереса тыкнул во всякие "бесплатные" ИИ задачу
"Реши задачу: буханка хлеба стоит 100 рублей. Буханка подешевела на 20%, а потом подорожала на 20%. Сколько стоит буханка после подорожания?"
- После подорожания буханка стоит 124 рубля.
Запустил там же второй раз
"Реши задачу: буханка хлеба стоит 100 рублей. Буханка подешевела на 20%, а потом подорожала на 20%. Сколько стоит буханка после подорожания? Покажи ход решения задачи."
- Буханка хлеба стоит 100 рублей.
Буханка подешевела на 20%, значит, новая цена: 100 - (20/100) 100 = 80 рублей.
Потом буханка подорожала на 20%, значит, новая цена: 80 + (20/100) 80 = 96 рублей.
Ответ: после подорожания буханка стоит 96 рублей.
30. mkalimulin 1366 12.01.25 00:47 Сейчас в теме
(25) Ну так не тыкай в бесплатные
26. CheBurator 2697 12.01.25 00:20 Сейчас в теме
Понятно, что все эти халявные боты в телеге - хрень полная.
Все будет как всегда: людям с деньгами будет доступна качественная еда, остальнеы будут есть бич-пакеты...
29. mkalimulin 1366 12.01.25 00:46 Сейчас в теме
(26) Ээээ....мммм
Если решать твою задачу за деньги, то это будет стоить не более 6 (Шести) копеек. О каких деньгах речь?
32. CheBurator 2697 12.01.25 01:06 Сейчас в теме
(29) тут вопрос: кто кому будет платить эти "6 копеек"...? В этой цепочке, я думаю, нас ждет много интересного.
.
ИС тоже когда-то был бесплатным, когда был молодым...
.
Попробовал заставить MS-Copilot сварганить прямой запрос на 7.7.
Рожает разные варианты 8-оподобных шаблонов запросов...
Жуть...
Ни знаний, ни мозгов...
33. JohnyDeath 302 12.01.25 01:10 Сейчас в теме
(32)
Попробовал заставить MS-Copilot сварганить прямой запрос на 7.7.

Откуда по-твоему он знает про такие экзотики как "прямой запрос для 7.7"? ) Тут людей, которые знают эту технологию, осталось не больше сотни на всей земле ))
34. CheBurator 2697 12.01.25 02:14 Сейчас в теме
(33) Проблемы индейца шерифа не волнуют. Пусть поищет. В Интернете есть. Или он настолько тупой, что даже поискать не сообразит? и нахрена нам такой футбол?
36. JohnyDeath 302 12.01.25 10:25 Сейчас в теме
(34) Оно же не так работает. Тут дело не в просто "поискать". Если хочешь натренировать на своей очень узкой специфики - бери и докручивай на этих данных. Все эти модели умеют хорошо кодить на питоне только потому что в интернетах (в том числе и на гитхабе) есть тонны открытого кода. Я вообще был удивлен, когда модели начали-таки кодить и на языке 1С, хотя изначально все они выдавали крайне скудный результат.
37. mkalimulin 1366 12.01.25 10:42 Сейчас в теме
(36) Жестокий дефицит данных для обучения привёл к тому, что интернет выжали досуха, вместе с 1С в том числе
47. Torin57 34 13.01.25 22:47 Сейчас в теме
(33)
Тут людей, которые знают эту технологию, осталось не больше сотни на всей земле ))

Я один из них, я избранный ))
SerVer1C; +1 Ответить
35. mkalimulin 1366 12.01.25 09:46 Сейчас в теме
(32) Все мы будем платить дяде кожаной курточке
27. CheBurator 2697 12.01.25 00:31 Сейчас в теме
Были погромисты. Будут промпт-инженеры.
"Сумлеваюсь я"...
38. stopa85 43 12.01.25 14:56 Сейчас в теме
А какое решение этой задачи выдаст хороший ИИ.

Интересно посмотреть?
Прикрепленные файлы:
39. SerVer1C 872 13.01.25 08:42 Сейчас в теме
(38) ИИ не решает Я.задачи
Суть ИИ в том, чтобы взять из "супа" сухой остаток и на основании вашего запроса разбавить его определенным количеством воды, чтобы получить другой новый "суп".
Т.е. ИИ не сделает больше, чем есть инфы в Инетах.
41. mkalimulin 1366 13.01.25 10:39 Сейчас в теме
(39) Еще одно распространенное заблуждение. У больших моделей есть такое свойство, которое называется генерализацией. Впервые о нем стали говорить еще тогда, когда исследователи с удивлением обнаружили, что модель решает задачи на сложение чисел. Понятно же, что нет в Интернете абсолютно всех примеров сложения. Что-то типа 238975489325446378664+985674657848971132 вряд ли встречается, а модель решает.
С таким же успехом можно говорить, что ни один ученый в мире не делает больше того, что сделал Аристотель со своей логикой
43. SerVer1C 872 13.01.25 10:56 Сейчас в теме
(41) Зачем мне тогда эти ваши LLM, если я и питоном вычислю сложение больших чисел. Я, конечно, понимаю, что вы в восторге от языковых моделей, но как показывает практика, их круг задач узко специализирован, они не заменят программистов. Логические задачи ИИ пока не способен решить.
44. mkalimulin 1366 13.01.25 10:57 Сейчас в теме
(43) Способен. И делает это лучше 99.9% людей
Какая у вас практика? На основании чего вы делаете выводы?
45. SerVer1C 872 13.01.25 11:03 Сейчас в теме
(44) Вот вам 2 скрина: про лошадей и про Алису
P.S. снизу именно 2 скрина, а не 1, как может показаться
Прикрепленные файлы:
46. mkalimulin 1366 13.01.25 11:50 Сейчас в теме
(45) Блииин! Пишешь людям, пишешь. А потом выясняется, что они ничего не читают. У них потребность самим что-нибудь написать, как им кажется, умное.
Ну вы серьезно? Вы статью читали? Там самая первая ссылка на ту самую "Алису". Откройте ее. Там ссылка на исходный код в гитхаб. Посмотрите код и убедитесь, что это ха-ха, а не исследование. Таким образом логические задачи не решаются в принципе. В статье подробно расписано почему.
40. mkalimulin 1366 13.01.25 10:34 Сейчас в теме
(38) Пожалуйста.
o1 выдаст вам такое решение этой задачи
def minimum_starting_mana(n, changes):
    min_cumulative = 0
    cumulative = 0
    for change in changes:
        cumulative += change
        if cumulative < min_cumulative:
            min_cumulative = cumulative
    return max(0, -min_cumulative)

if __name__ == "__main__":
    import sys
    # Считываем количество источников
    input_data = sys.stdin.read().split()
    n = int(input_data[0])
    changes = list(map(int, input_data[1:n+1]))
    result = minimum_starting_mana(n, changes)
    print(result)
Показать

Но это не так интересно. Потому что это задача начального уровня и, кроме того, она может быть уже была в интернете и попала в обучающую выборку.
Гораздо интереснее другое. Представленная в конце прошлого года o3 имеет вычисленный рейтинг на Codeforces 2727. Это лучше, чем у 99.9% людей, участвующих в соревнованиях. 175 место в мире и соответствует уровню международного гроссмейстера. Вычисление рейтинга производится на только что прошедших соревнованиях, поэтому задачи модель точно не видела. Это при том, что еще совсем недавно передовые модели имели рейтинг ниже 1900 и относились ко второму дивизиону (любители)
42. stopa85 43 13.01.25 10:49 Сейчас в теме
(40) Вообще я вижу тут одну ошибку, но мне нужно время, чтобы проверить.

Но, в целом, убедили - иду искать новую работу.
48. AlexanderEkb 25 14.01.25 12:23 Сейчас в теме
(42) Мне АИ-агент сформировал с нуля конфигурацию. Я такой смотрю, изучаю, ничего не подозревая. А потом вижу в конце приписка от АИ: "Вы уволены!".
49. Torin57 34 14.01.25 12:37 Сейчас в теме
(48)
АИ: "Вы уволены!".

Чем АИ объяснил свою приписку? Вы не спрашивали?
50. AlexanderEkb 25 14.01.25 13:12 Сейчас в теме
(49) Это юмор у меня такой. Не было такого, просто придумал я.
51. Torin57 34 14.01.25 14:18 Сейчас в теме
(50) Понятно, не читал всю переписку.
52. CheBurator 2697 15.01.25 17:35 Сейчас в теме
(49)
Чем АИ объяснил свою приписку? Вы не спрашивали?

а смысл спрашивать? кто будет что-то объяснять совершенно потороннему челу с улицы (уволенному уже)..?
Оставьте свое сообщение