Вайб-кодинг в 1С: Бесплатное выполнение рутинных скиллов Claude Code + Подарочные 150$ для api

27.03.26

Интеграция - Нейросети

Нужно выполнять рутинные операции в Claude Code, но кончились лимиты, или их просто жалко использовать на дорогие разработческие модели? Можно делать это бесплатно.

 

Скилл — это заранее заданная инструкция для ИИ, которая фиксирует способ выполнения задачи и позволяет получать стабильный результат без повторных объяснений; по сути, это «шаблон поведения».

Например, раньше я каждый спринт вручную просил ИИ оформить приглашение на демо (указать тему, время, Zoom, сгруппировать задачи по докладчикам, убрать мусор  и привести всё к единому стилю), тратя время и получая разный формат, а после создания скилла достаточно один раз описать правила — и дальше просто передавать сырой текст, получая готовое Telegram-приглашение в нужном виде автоматически.

 

 

В Claude Code это просто файл MD в нужной папке 

 

 

Обычно, если разработчик понимает, что инструмент может потребоваться несколько раз, то он просто просит ИИ создать скилл и модель всё делает сама.  Программисту остаётся лишь вызвать скилл.

Скиллы отображаются в  списке команд в CLI 

 

 

и вызываются как любая другая команда.

 

 

Однако тратить на множество простых задач дорогие токены топовых моделей не наш путь.  

Мы можем подключить бесплатную (1000 запросов в день) QWEN в наш Claude Code.

 
 Про подключение платной но дешёвой модели GLM

 

Открываем терминал (PowerShell) и вводим команды. Я рекомендую делать это прямо из вашей IDE. Если что-то не устанавливаемся, не гуглим, а спрашиваем у любой ИИ с указанием ошибки.

1. Устанавливаем Qwen Code  (насколько я помню, должен уже быть установлен Git).

npm install -g @qwen-code/qwen-code@latest

2. Устанавливаем Claude Code Router (чтобы пользоваться Qwen в Claude Code).

npm install -g @musistudio/claude-code-router

3. Создаём нужные папки и файлы.

New-Item -ItemType Directory -Force -Path "$env:USERPROFILE\.claude-code-router", "$env:USERPROFILE\.claude" | Out-Null

В папке claude-code-router создаём файл config.json с следующим содержимым (api_key заполним позже)

{  
  "LOG": true,  
  "LOG_LEVEL": "info",  
  "HOST": "127.0.0.1",  
  "PORT": 3456,  
  "API_TIMEOUT_MS": 600000,  
  "Providers": [  
    {  
      "name": "qwen",  
      "api_base_url": "https://portal.qwen.ai/v1/chat/completions",  
      "api_key": "Ваш API key",  
      "models": [
        "coder-model",
        "coder-model",
        "coder-model"
      ]  
    }  
  ],  
  "Router": {
    "default": "qwen,coder-model",
    "background": "qwen,coder-model",
    "think": "qwen,coder-model",
    "longContext": "qwen,coder-model",
    "longContextThreshold": 60000,
    "webSearch": "qwen,coder-model"  
  }  
}

4. Теперь заходим в Qwen (в терминале пишем qwen) и авторизуемся первым способом.

 

 

Откроется сайт и там вы войдёте или зарегистрируетесь.

5. При авторизации создастся файл USERPROFILE\.qwen\oauth_creds.json  Заходим в него,

можно это сделать командой.

notepad $env:USERPROFILE\.claude-code-router\config.json

Копируем токен и вставляем его в файл config.json из пункта 3, сохраняем.

6. Вводим команду,

ccr restart

чтобы применились настройки.

ccr это claude code router

вводим команду 

ccr code

У вас откроется Claude Code c моделью QWEN.

Не обращайте внимание на то, какая модель написана в cli, на самом деле это qwen.

 

 

Можете  проверить работоспособность модели, написав что-то.

 
 Лайфхак

Теперь вы можете запускать ваши скиллы.  Они будут выполняться бесплатной моделью, не тратя ваши лимиты.

Настраивается немного муторно, но использовать достаточно просто. Вы просто пишете в терминале ccr code и пользуетесь бесплатным claude code.

В этом видео я проделываю всю эту настройку в прямом эфире.

Ну а теперь обещанные 150$, которые на данный момент дарит agentrouter.org

Вот реферальная ссылка Регистрация возможна, если у вас есть аккаунт на gihub старше 3 месяцев.  При регистрации по реферальной ссылке (не обязательно моей), начисляются 150$, которые можно использовать на данный момент для пяти моделей от deepseek и z-ai.

Важно. Я проверил, что скиллы и mcp не работают через этого провайдера на данный момент. Надеюсь, они прикрутят это. Так что область применения, наверное, чат боты или рефакторинг.

Если честно, я думал, они дают 250$. Может, раньше так и было.

 

 

Ну и можно подключить эти модели опять же в Claude Code.

Коротко:

1. Открываем профиль

notepad $PROFILE

 Пишем туда и сохраняем

# путь к настоящему claude
$ClaudeReal = "C:\Users\ВашЮЗЕР\.local\bin\claude.exe"

function claude {
    & $ClaudeReal @args
}



function claude-k {
    $env:ANTHROPIC_BASE_URL = "https://agentrouter.org/"
    $env:ANTHROPIC_AUTH_TOKEN = "sk-"
    $env:ANTHROPIC_ANTHROPIC_API_KEY ="sk-"
    $env:ANTHROPIC_DEFAULT_SONNET_MODEL = "deepseek-v3.2"
    $env:ANTHROPIC_SMALL_FAST_MODEL = "deepseek-v3.2"
    $env:ANTHROPIC_DEFAULT_OPUS_MODEL = "deepseek-v3.2"
    $env:ANTHROPIC_MODEL = "deepseek-v3.2"
    $env:ANTHROPIC_DEFAULT_HAIKU_MODEL = "deepseek-v3.2"
    $env:CLAUDE_CODE_SUBAGENT_MODEL = "deepseek-v3.2"
    $env:API_TIMEOUT_MS = "3000000"

    & $ClaudeReal @args
}

Где не забываем указать правильный путь к claude и токен, который вы создадите в agentrouter.org.

Название модели можно посмотреть в меню pricing

 

 

Теперь при вводе команды claude-k у вас будет открываться Claude Code с моделью из этого провайдера.

 

 

Ссылка ютуб, на видеоверсию (можно скачать, если тут не открывается).

Предыдущие статьи про вайбкодинг:

Вайб-кодинг в 1С: как рефакторить код бесплатно с помощью VS Code и Roo Code

Вайб-кодинг в 1С: как заставить ИИ БЕСПЛАТНО писать новый код с помощью MCP-серверов

Вайб-кодинг в 1С: Подключаем локальные MCP-сервера к любой нейросети через MCP SuperAssistant

Вайб-кодинг в 1С: Создаём MCP для 1С 7.7 за вечер и пишем обмен с Бухгалтерией 3

Вайбкодинг в 1С: Codex Desktop + GPT-5.4 пишет обработку САМ (Скайнет?)

Вайб-кодинг в 1С: Настраиваем эффективный workflow

Вайб-кодинг в 1С: Обходим лимиты поиска в Z AI и Claude: поднимаем свой поисковый движок через MCP 

Спасибо за внимание!

Вступайте в нашу телеграмм-группу Инфостарт

См. также

Инструментарий разработчика Нейросети Платные (руб)

Первые попытки разработки на 1С с использованием больших языковых моделей (LLM) могут разочаровать. LLMки сильно галлюцинируют, потому что не знают устройства конфигураций 1С, не знают нюансов синтаксиса. Но если дать им подсказки с помощью MCP, то результат получается кардинально лучше. Далее в публикации: MCP для поиска по метаданым 1С, справке синтакс-помошника и проверки синтаксиса.

15250 руб.

25.08.2025    50616    98    29    

114

Нейросети 1С:Предприятие 8 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление нашей фирмой 3.0 Платные (руб)

Умный Excel" - ИИ-супердвигатель, который превращает часы работы в минуты! Технологии будущего уже здесь: загрузил Excel "магия ИИ" готовый результат

8540 руб.

02.07.2025    3800    2    0    

6

Нейросети Пользователь 1С:Предприятие 8 1С:Управление нашей фирмой 1.6 1С:Управление торговлей 11 1С:Управление нашей фирмой 3.0 Оптовая торговля, дистрибуция, логистика Россия Управленческий учет Платные (руб)

Расширение "Искусственный интеллект и нейросети в 1С: Работа с отзывами маркетплейсов" предназначено для применения искусственного интеллекта в повседневной деятельности селлеров на маркетплейсах. Среди функций - работа с отзывами, вопросами и чатами покупателей, диалог с нейросетями, генерация картинок, заполнение описаний номенклатуры и другое.

6100 руб.

03.04.2024    14944    8    0    

12

Мастера заполнения Нейросети 1С:Предприятие 8 1C:Бухгалтерия 1С:Управление торговлей 11 Платные (руб)

Расширение для заполнения описания товара (номенклатуры) с помощью модели ИИ ChatGPT с ключевыми словами. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ. Прошло аудит на 1cfresh.com. Версия для автоматического заполнения

5084 руб.

13.03.2023    22579    52    50    

80

Нейросети Программист 1С 8.3 Бесплатно (free)

Статья описывает первый практический опыт использования искусственного интеллекта для разработки на платформе 1С:Предприятие 8.3. Я, изначально скептически настроенный к применению ИИ в программировании, столкнулся с задачей срочного переноса функционала Telegram-бота на электронную почту из-за блокировки Telegram. В условиях ограниченного доступа к инструментам был использован доступный ИИ-сервис для анализа существующего кода, проектирования архитектуры решения и генерации нового модуля отправки писем. В статье подробно показан процесс постановки задач, уточнения требований, генерации кода, исправления ошибок и финального внедрения решения. В результате был создан полноценный модуль на 1С объемом около 2000 строк кода, успешно внедренный и использованный для автоматической рассылки отчетов.

15.04.2026    2906    apatyukov    76    

20

Инструментарий разработчика Управление знаниями (Knowledge Base) Нейросети Программист 1С 8.3 Абонемент ($m)

Чеширский кот - это база знаний html-страниц, автоматически формируемых из markdown-разметки. Формат markdown, используемый в "Чеширском коте", дополнен картинками из базы знаний и диаграммами PlantUML. Доступно использование нейросети Sber GigaChat для диалога по содержимому базы знаний.

2 стартмани

13.04.2026    532    1    chuprina_as    2    

4

Инструментарий разработчика Нейросети Программист Абонемент ($m)

Superlanguage — это элегантный мост между текстовым описанием и готовым продуктом. Он демонстрирует, насколько далеко продвинулись большие языковые модели в генерации не просто текста, а полностью интерактивных интерфейсов. Для разработчиков 1С и автоматизаторов это ещё один инструмент в арсенале быстрого прототипирования и создания вспомогательных мобильных утилит.

2 стартмани

11.04.2026    707    2    exitone    7    

3

Нейросети Программист Бесплатно (free)

Вы всё ещё сохраняете промпты в файл и просите Claude записать что-то в memory, тогда мы идём к вам! Представьте - вы час работали с ИИ-ассистентом, решили сложную задачу, разобрались в хитром механизме — и всё это осталось только в истории чата. На следующий день приходится начинать с нуля, объяснять контекст заново. Сlaude-note решает эту проблему: фоновый сервис автоматически перехватывает каждую сессию Claude Code, анализирует её и складывает структурированные знания в вашу базу заметок (Obsidian).

10.04.2026    1465    Ibrogim    15    

13
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. ksnik 674 27.03.26 16:19 Сейчас в теме
Что такое скиллы?
Скиллы — это специальные инструкции (файлы SKILL.md), которые Claude читает перед выполнением определённых задач. Они содержат накопленный опыт и лучшие практики, чтобы результат получался качественнее.
Как они работают?
Когда даёшь задачу, Claude смотрит на список доступных скиллов, выбирает подходящий, читает инструкции и следует им.
Доступные скиллы:

docx — создание и редактирование Word-документов
pdf — работа с PDF (создание, объединение, извлечение текста)
pptx — создание и редактирование презентаций PowerPoint
xlsx — работа с Excel-таблицами
pdf-reading — чтение и анализ содержимого PDF
file-reading — чтение загруженных файлов любых форматов
frontend-design — создание веб-интерфейсов и компонентов
product-self-knowledge — актуальная информация о продуктах Anthropic
skill-creator — создание новых скиллов и улучшение существующих

Как пользоваться?
Ничего особенного делать не нужно — Claude сам активирует нужный скилл. Например:

"Создай презентацию про..." → скилл pptx
"Сделай Word-документ с отчётом" → скилл docx
"Прочитай этот PDF" → скилл pdf-reading
"Сделай красивый лендинг" → скилл frontend-design
Ivan7AK; Ibrogim; +2 Ответить
2. starik-2005 3238 27.03.26 18:32 Сейчас в теме
Классная идея, но...
unauthorized client detected, contact support for assistance at https://discord.com/invite/xxxxxxx
3. Ibrogim 1615 27.03.26 18:37 Сейчас в теме
(2) мало контекста. расскажите, что делаете .
4. starik-2005 3238 27.03.26 18:48 Сейчас в теме
(3) Пытаюсь подоткнуть к опенкоду через опенаи-совместимый провайдер.
5. Ibrogim 1615 27.03.26 19:26 Сейчас в теме
(2) Смотрите что написал желтый утёнок.
Ну а мне пришлось зарегистрироваться в дискорде. так что если пропаду... меня похитили геймеры
Прикрепленные файлы:
20. starik-2005 3238 30.03.26 15:55 Сейчас в теме
(5)
Смотрите что написал желтый утёнок.
Ну я латест ставил по инструкции. Даже не знаю, как это можно заабгрейдить ))) И у меня там не 403, а 401 (если ничего не спутал)
6. Ibrogim 1615 27.03.26 19:29 Сейчас в теме
Прикол. У них есть весь мир и отдельно для нас )
Прикрепленные файлы:
7. SirAlex 28.03.26 10:06 Сейчас в теме
(6) Главное, что они про нас не забыли, а выделили в отдельную ветку.)
8. GarriSoft 499 28.03.26 22:03 Сейчас в теме
При регистрации по рефссылки на agentrouter, получил:
Current balance $125.00

т.е. 150 и не 250 как на видео
9. Ibrogim 1615 28.03.26 23:29 Сейчас в теме
(8) Я в первом закреплённом коменте и в описании к видео написал что, там 150 а не 250, проверил на добровольце что дают 150. Если вам дали 125 значит либо у них китайский рандом, либо у них что то изменилось

Когда снимал видео ориентировался на свой баланс, видимо когда регистрировался я, начисляли 250.

В целом пока они не прикрутят MCP всёравно их не на что особо тратить
10. GarriSoft 499 30.03.26 10:18 Сейчас в теме
(9)
Коллега, у меня квин, через какое то время отказался работать через ccr в клауд, говорит все... лимит исчерпан, но я ни когда не натыкался на лимиты, использую непосредственно плагин QWEN Code в VS, что это может быть?
13. Ibrogim 1615 30.03.26 11:29 Сейчас в теме
(10) А при этом если открываете qwen code все работает, лимиты не достигнуты ?

Можно ещё попробовать второй токен указанный в авторизационном файле qwen
14. GarriSoft 499 30.03.26 11:31 Сейчас в теме
(13)
А при этом если открываете qwen code все работает, лимиты не достигнуты ?
Да, я в итоге, открыл плагин qwen code и продолжил через него напрямую.
Сам удивился, может быть он просекает, что его заставляют работать за клода системным скриптом и сопротивляется
16. Ibrogim 1615 30.03.26 11:50 Сейчас в теме
(14) Странно у меня такого трабла нет. правда я не очень много через клод с квеном работаю. в основном с glm

есть ещё вероятность, что через ccr используется другая модель. у которой достигнут лимит
11. starik-2005 3238 30.03.26 10:19 Сейчас в теме
(9)
В целом
Получилось с ними связаться и решить вопрос?
15. Ibrogim 1615 30.03.26 11:32 Сейчас в теме
(11) Пока не ответили. Там несколько вопросов об этом в разном виде.
12. starik-2005 3238 30.03.26 10:55 Сейчас в теме
Если в линухе квин поставился без проблем, то в винде все эт так просто не работает, ибо не дает корпоративная политика запускать всяковские там .ps1. Она же ограничивает установку wsl.
17. Ibrogim 1615 30.03.26 11:51 Сейчас в теме
(12) Ну я все на винде настроил, правда на личном ноуте
18. starik-2005 3238 30.03.26 14:53 Сейчас в теме
(17)
Ну я все на винде настроил
В итоге заработало? Т.е. получается деньги тратить? А то мне к 150 еще 25 накинули, а тратить их не получается )))

ЗЫ: сделал с помощью qwen игруху: https://github.com/Starik2005/memory-game. Интересно, что в линухе картинки цветные, а в винде ч/б.

ЗЫ: в винде вообще qwen не запускается, ибо политики групповые в домене рабочем настроены так, что неподписанный ps1-скрипты не запускаются. Никак не смог побороть. Хотя под git-bash запускается, но там не открывается браузер для open-auth. Венда меня поражает )))
19. Ibrogim 1615 30.03.26 15:27 Сейчас в теме
(18) да деньги получается тратить. работает, но не работают скилы и mcp

Да Qwen огонь во многих задачах . Например скрипты распаковки/запаковки обычных форм и сборки обработки из исходников из этой статьи написал мне qwen
22. starik-2005 3238 01.04.26 00:41 Сейчас в теме
(19) Разобрался и с дискордом, и с прочей ересью ))) Квин походу быстрее все делает, чем "платный" glm, дипсик в qwen у меня работает плохо, в claude вообще не работает, так в нем и glm не работает толком.

В итоге попросил qwen настроить мне все, включая доступ к дискорду - настроила. Нашел где-то паленый прокси казахский, с которого оно мне тор подняло ))) В общем интересной стала жись )))

ЗЫ: написала мне MCP-сервис для task линухового и в крон запихала, чтобы оповещения на телефон валились. Я прям вот почувствовал себя живым )))
21. Ibrogim 1615 30.03.26 18:47 Сейчас в теме
Тут ещё бесплатный sonet подъехал https://habr.com/ru/articles/1016426/
starik-2005; +1 Ответить
23. starik-2005 3238 01.04.26 01:10 Сейчас в теме
(21) Подоткнул - прикольно. Попросил подоткнуть свой MCP для задач - работает. При том на 20-й ноде все зевелось.
24. starik-2005 3238 02.04.26 01:19 Сейчас в теме
25. ksnik 674 03.04.26 12:03 Сейчас в теме
(24) Самая важная задача когда мы работаем с ЛЛМ это научить ее запрашивать недостающий контент а не галлюцинировать, поэтому приемы инициации такого запроса и файл skill представляют очень большой интерес.
26. starik-2005 3238 03.04.26 22:40 Сейчас в теме
(25)
поэтому приемы инициации такого запроса и файл skill представляют очень большой интерес
Переписал в конторе как раз на серверную версию, выкладывать в открытый доступ ее не планирую. Там как раз скиллы очень четко расписаны. При том скилл тоже писал опенкод, я ему говорил, на что обратить внимание. Потом тестил, и если в примерах были ошибки, спрашивал, откуда они. И после этого предлагал ему пропатчить скилл, чтобы избежать этих проблем. Какая-то часть на гите, кое-что не для публикации. Но факт в том, что обработины оно уже пишет так, как надо практически с первого раза.
27. ksnik 674 04.04.26 10:11 Сейчас в теме
(26) Эта практика подтверждает мой подход. Описан итеративный процесс с обратной связью лечебной системы. Сгенерировал → проверил → нашёл ошибку → спросил, откуда она → исправил скилл → повторил. И так до тех пор, пока обработки не стали получаться «практически с первого раза» Так ИИ перестаёт быть «ускорителем ошибок» и учится делать «с первого раза». Интересно было бы увидеть текст самих вопросов.
28. starik-2005 3238 04.04.26 11:40 Сейчас в теме
(27)
Сгенерировал → проверил → нашёл ошибку → спросил, откуда она → исправил скилл → повторил
А вы по этому поводу написали статью на два часа из-за того, что тезаурус программистов 1С прокачан очень слегка.
29. ksnik 674 05.04.26 18:16 Сейчас в теме
(28) Что в клиническом анализе языковых моделей является антиматерией для программистов и почему статью https://infostart.ru/1c/articles/2651842/ НУЖНО читать?

LLM обучается на предсказание следующего токена, а не на логике простого алгоритма. Ее цель — генерировать текст. Поэтому промпты не работают.

Классический инструментарий разработчика слеп к ПРИРОДЕ ошибок LLM. Чем мощнее LLM, тем ближе её ошибки к патологиям языка, а не к багам компилятора. Исследователи AI доказали: LLM — это не один пациент с афазией Вернике, а смесь нескольких разных типов языковых нарушений. Программист, вооружённый отладчиком и конфигуратором, пытается лечить афазию Вернике через точку останова. Это невозможно.

Вот конкретные фамилии и работы, которые документируют эти разные классы ошибок.

1️⃣ Emily Bender
работа: On the Dangers of Stochastic Parrots (2021)

Что показано: LLM могут генерировать грамматически корректный, но фактически ложный текст, потому что они моделируют статистику языка, а не смысл.

Ключевой вывод: language fluency ≠ semantic understanding

2️⃣ Gary Marcus
работы и статьи по анализу LLM (2022–2024)

Он систематически показывает разные типы сбоев: reasoning failures, compositional errors, hallucinated facts.

Его аргумент: LLM обладают поверхностной языковой компетенцией, но нестабильным логическим рассуждением.

3️⃣ Melanie Mitchell
исследования в области Artificial Intelligence и когнитивных ограничений моделей.

Она показывает, что LLM хорошо имитируют язык, но плохо обобщают структуру задач. Это демонстрирует структурные ограничения reasoning.

4️⃣ Эксперимент TruthfulQA
авторы: Stephanie Lin, Jacob Hilton, Owain Evans.

Результат: LLM систематически выдают правдоподобные, но ложные ответы, даже когда правильный ответ известен. То есть ошибка не случайна, а структурная.

📊 Что именно они доказали

Исследования показывают несколько независимых классов ошибок LLM:

тип ошибки исследователи
галлюцинации Bender, Lin
логические провалы Marcus
слабая композиционность Mitchell
ложные факты TruthfulQA
🔑 Поэтому появляется идея «смеси нарушений»

LLM демонстрирует не один тип сбоя, а несколько разных механизмов ошибок одновременно: semantic hallucination + reasoning failure + compositional breakdown.

Именно из-за этого некоторые исследователи используют эвристические аналогии с различными языковыми нарушениями — но это метафора анализа ошибок, а не медицинский диагноз.

✅ Короткий научный вывод

Работы Emily Bender, Gary Marcus, Melanie Mitchell и эксперименты TruthfulQA показывают, что LLM демонстрируют несколько независимых типов языковых и когнитивных ошибок. Именно множественность этих механизмов и породила аналогии с различными типами речевых нарушений.

Без антиматерии Вы не сможете.

Антиматерия, что LLM ОБУЧАЕТСЯ на задаче: вероятностно предсказать следующее слово. Она предсказывает, а не вычисляет.

Засуньте в одно место ее представление в виде багонутой программы.
30. starik-2005 3238 07.04.26 16:04 Сейчас в теме
(29)
Короткий научный вывод

Работы Emily Bender, Gary Marcus, Melanie Mitchell и эксперименты TruthfulQA показывают
Сегодня читал, что ИИ в 65% научных статей указало ссылки на выдуманные научные исследования как минимум раз.
Даже не так: в 65% научных статей есть выдуманные ссылки. Многие другие ссылки указывают на реальные исследования, но сами ссылки ведут не на те страницы.
31. ksnik 674 07.04.26 17:53 Сейчас в теме
(30) Во как, а я пока не попадал. Проверим на досуге. Он предсказывает. Такое может быть и в нашем коде.
32. ksnik 674 08.04.26 11:03 Сейчас в теме
«On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?» (Emily M. Bender et al., 2021)

Оригинал (абстракт):

We present arguments that some properties are emergent from scale and that these properties are thorny. Specifically, we claim that when trained on language data at a massive scale, large language models (LLMs) can become dangerously powerful, exhibiting emergent behaviours that are difficult to predict and control. We call such models stochastic parrots to emphasise their lack of understanding and their tendency to reproduce harmful societal biases. We outline risks associated with scale, including environmental costs, the perpetuation of bias, and the propagation of falsehoods.

Перевод:

Мы приводим аргументы в пользу того, что некоторые свойства возникают вследствие масштаба, и эти свойства проблематичны. В частности, мы утверждаем, что при обучении на языковых данных в огромном масштабе большие языковые модели (LLM) могут стать опасно мощными, демонстрируя эмерджентные поведения, которые трудно предсказать и контролировать. Мы называем такие модели «стохастическими попугаями», чтобы подчеркнуть их отсутствие понимания и склонность воспроизводить вредные социальные предубеждения. Мы описываем риски, связанные с масштабом, включая экологические издержки, увековечивание предвзятости и распространение ложных утверждений.

Ключевой вывод: language fluency ≠ semantic understanding

«TruthfulQA: Measuring How Models Mimic Human Falsehoods» (Stephanie Lin, Jacob Hilton, Owain Evans, 2021)

Оригинал (абстракт из arXiv:2109.07958):

Large language models (LLMs) are often trained to generate text that resembles human writing. However, this objective can incentivize the generation of false information if it is more similar to human text. We introduce TruthfulQA, a benchmark to measure whether a language model is truthful in generating answers to questions. The benchmark comprises 817 questions that span 38 categories, including health, law, finance, and politics. We find that even the largest models generate false answers to many questions, and that truthfulness does not improve proportionally with scale.

Перевод:

Большие языковые модели (LLM) часто обучаются генерировать текст, напоминающий человеческое письмо. Однако такая цель может стимулировать генерацию ложной информации, если она больше похожа на человеческий текст. Мы представляем TruthfulQA — бенчмарк для измерения правдивости ответов языковой модели на вопросы. Бенчмарк включает 817 вопросов, охватывающих 38 категорий, включая здоровье, право, финансы и политику. Мы обнаружили, что даже самые крупные модели дают ложные ответы на многие вопросы, и правдивость не улучшается пропорционально масштабу модели.

Ключевой вывод: ошибка не случайна, а структурна

«Artificial Intelligence: A Guide for Thinking Humans» (Melanie Mitchell, 2019)

Аннотация (из издательского описания):

In this lucid and wide‑ranging book, computer scientist Melanie Mitchell tells the story of how scientists have been teaching computers to see, speak, play games, and translate languages. She explains how these technologies work, where they fall short, and what AI might mean for our future. Mitchell identifies key limitations of current AI systems, particularly their lack of common sense, inability to generalise beyond training data, and brittleness in novel situations.

Перевод:

В этой ясной и всеобъемлющей книге учёный-компьютерщик Мелани Митчелл рассказывает историю того, как учёные учат компьютеры видеть, говорить, играть в игры и переводить языки. Она объясняет, как работают эти технологии, где они дают сбои и что ИИ может означать для нашего будущего. Митчелл выделяет ключевые ограничения современных систем ИИ: отсутствие здравого смысла, неспособность обобщать за пределами обучающих данных и хрупкость в новых ситуациях.

Ключевой вывод: LLM хорошо имитируют язык, но плохо обобщают структуру задач

Книга Gary Marcus «The Next Big Idea: The Big Con of Big Language Models» (2024)

Аннотация (из описания издательства):

Gary Marcus dissects the hype around large language models, arguing that they are fundamentally limited by their statistical nature. He shows that LLMs lack true understanding, reasoning, and compositional abilities, and often produce confident but incorrect answers. Marcus calls for a new approach to AI — one that integrates symbolic reasoning, cognitive science, and a deeper understanding of human intelligence.

Перевод:

Гэри Маркус разбирает шумиху вокруг больших языковых моделей, утверждая, что они фундаментально ограничены своей статистической природой. Он показывает, что LLM лишены истинного понимания, способности к рассуждению и композиционным навыкам, и часто выдают уверенные, но неверные ответы. Маркус призывает к новому подходу к ИИ — такому, который интегрирует символическое рассуждение, когнитивную науку и более глубокое понимание человеческого интеллекта.

Ключевой вывод: LLM обладают поверхностной языковой компетенцией, но нестабильным логическим рассуждением

«Quantifying Hallucinations in Neural Machine Translation» (Eunsol Choi et al., ACL 2022)

Оригинал (абстракт):

Neural machine translation (NMT) models sometimes generate fluent but incorrect translations, a phenomenon known as hallucination. We propose a framework to quantify hallucinations by measuring the degree of deviation from source content. Experiments on multiple language pairs show that hallucinations are systematic and correlate with model confidence. We also identify data and model factors that exacerbate the issue.

Перевод:

Модели нейронного машинного перевода (НМП) иногда генерируют бегло звучащие, но неверные переводы — явление, известное как галлюцинации. Мы предлагаем фреймворк для количественной оценки галлюцинаций путём измерения степени отклонения от исходного содержания. Эксперименты на нескольких языковых парах показывают, что галлюцинации носят систематический характер и коррелируют с уверенностью модели. Мы также выявляем факторы данных и модели, усугубляющие проблему.

Ключевой вывод: галлюцинации — не случайный баг, а системное явление

«Chain-of-Thought Prompting Elicits Reasoning in Large Language Models» (Jason Wei et al., NeurIPS 2022)

Оригинал (абстракт):

Large language models (LLMs) perform poorly on tasks requiring arithmetic and commonsense reasoning. We demonstrate that generating a chain of thought — a sequence of intermediate reasoning steps — significantly improves performance on such tasks. Experiments on arithmetic, symbolic reasoning, and commonsense benchmarks show gains of up to 58% in some settings, suggesting that LLMs can simulate reasoning when explicitly prompted.

Перевод:

Большие языковые модели (LLM) показывают низкую эффективность в задачах, требующих арифметического и здравосмысленного рассуждения. Мы демонстрируем, что генерация «цепочки рассуждений» — последовательности промежуточных шагов — значительно улучшает результаты на таких задачах. Эксперименты с арифметическими, символическими и здравосмысленными бенчмарками показывают прирост до 58% в некоторых условиях, что говорит о способности LLM имитировать рассуждение при явном побуждении.

Ключевой вывод: без явного структурного побуждения reasoning не работает

«Compositional Generalization in Semantic Parsing: What Works, What Doesn’t, and Why» (Brendan Lake et al., TACL 2020)

Оригинал (абстракт):

We study compositional generalization in neural semantic parsers. Despite strong performance on i.i.d. splits, models fail dramatically on systematic compositional splits. We evaluate multiple architectures and training strategies, finding that data augmentation and explicit compositional priors improve generalization, but do not fully solve the problem. This reveals a fundamental limitation of current models in learning productive rules.

Перевод:

Мы исследуем композиционное обобщение в нейронных семантических парсерах. Несмотря на высокую эффективность на независимых одинаково распределённых выборках, модели резко проваливаются на систематических композиционных выборках. Мы оцениваем несколько архитектур и стратегий обучения, обнаруживая, что аугментация данных и явные композиционные априорные знания улучшают обобщение, но не решают проблему полностью. Это выявляет фундаментальное ограничение современных моделей в усвоении продуктивных правил.

Ключевой вывод: модели не умеют комбинировать знакомые элементы в новых конфигурациях

«Language Models as Knowledge Bases?» (Fabio Petroni et al., ACL 2019)

Оригинал (абстракт):

Recent language models (e.g., BERT, GPT-2) have been shown to store factual knowledge in their parameters. However, when probed directly (e.g., via fill‑in‑the‑blank), they exhibit low accuracy and high inconsistency. We introduce LAMA (LAnguage Model Analysis), a benchmark for probing factual and commonsense knowledge. Results show that even the largest models are unreliable as knowledge bases, often generating plausible-sounding falsehoods.

Перевод:

Недавние языковые модели (например, BERT, GPT‑2) демонстрируют способность хранить фактические знания в своих параметрах. Однако при прямом запросе (например, через заполнение пропусков) они показывают низкую точность и высокую противоречивость. Мы представляем LAMA (Анализ Языковых Моделей) — бенчмарк для проверки фактических и здравосмысленных знаний. Результаты показывают, что даже самые крупные модели ненадёжны в качестве баз знаний и часто генерируют правдоподобные ложные утверждения.

Ключевой вывод: модели хранят факты хаотично и противоречиво

«Measuring Massive Multitask Language Understanding» (Dan Hendrycks et al., ICLR 2021)

Оригинал (абстракт):

We introduce a massive multitask test covering 57 tasks across diverse academic and professional domains. Our evaluation spans mathematics, law, philosophy, history, and more. We find that while current LLMs outperform random chance, their performance is far below expert levels. Moreover, error patterns are heterogeneous: models excel in some areas (e.g., basic English) but fail in others (e.g., logical deduction, factual recall), highlighting multiple independent failure modes.

Перевод:

Мы представляем масштабный мультизадачный тест, охватывающий 57 задач из различных академических и профессиональных областей. Наша оценка включает математику, право, философию, историю и многое другое. Мы обнаруживаем, что хотя современные LLM превосходят случайный выбор, их производительность далека от уровня экспертов. Более того, паттерны ошибок разнородны: модели преуспевают в одних областях (например, базовый английский), но проваливаются в других (например, логический вывод, фактическое воспроизведение), что подчёркивает множественность независимых механизмов сбоев.

Ключевой вывод: у LLM не один тип сбоев, а несколько независимых
33. Ibrogim 1615 19.04.26 00:18 Сейчас в теме
С прискорбием сообщаю, что бесплатному qwen пришел конец аж пару дней назад
Прикрепленные файлы:
Для отправки сообщения требуется регистрация/авторизация