А мы все видим

17.02.25

Интеграция - Нейросети

В библиотеке искусственного интеллекта для 1С появилась опция анализа изображения. Можно попросить большую языковую модель (LLM) выдать информацию на основании того, что она видит. Будет полезно познакомиться с тем, как это работает и что является best practice при работе с изображениями и LLM

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
БиблиотекаИскусственногоИнтеллекта_v14(10)
.cfe 50,10Kb
2
2 Скачать (10 SM) Купить за 4 550 руб.
БиблиотекаИскусственногоИнтеллекта_v14(5)
.cfe 50,10Kb
4
4 Скачать (5 SM) Купить за 3 050 руб.
ПримерРаспознаванияУПД
.epf 6,71Kb
8
8 Скачать (1 SM) Купить за 1 850 руб.

Для работы нам понадобится Библиотека искусственного интеллекта для 1С. Она распространяется бесплатно, и, более того, под лицензией CC BY 4.0. Это означает, что вы можете использовать ее для создания своих коммерческих продуктов. Скачать бесплатно можно по ссылке выше. Но если у кого появится желание и возможность поблагодарить автора, тогда можно скачать ее здесь за стартмани.

Добавив опцию загрузки изображения в библиотеку, я стал экспериментировать. Как и положено 1С-нику, экспериментировал я ни с чем иным, как с УПД. Взял первый попавшийся документ в демонстрационной  базе Управление Торговлей ред. 11. Вывел на экран и сфотографировал, немного наклонив.

 

 

 

Изображение передается в формате base64. При этом, сначала идет префикс вида: "data:image/png;base64,", а затем собственно строка base64. В префиксе указывается формат изображения. Поддерживаются форматы PNG (.png), JPEG (.jpeg and .jpg), WEBP (.webp), non-animated GIF (.gif).

В расширении, содержащем библиотеку, есть также обработка "Библиотека искусственного интеллекта пример". Воспользуемся ею для экспериментов. Укажем путь к файлу изображения и зададим простой вопрос.

 

  

 

Теперь спросим что-нибудь сложнее

 

 

Что здесь считать строкой разобрались без проблем. Попробуем теперь получить ИНН продавца.

 

 

В общем ИИ неплохо ориентируется. Не путается в терминах "продавец"/"поставщик", ИНН от КПП отличает. Попробуем преобразовать это изображение в заданную нами структуру

 

 

 

В принципе, это работает, но до практического применения еще далеко. Если вы попробуете воспользоваться этим вот так просто, что называется "в лоб", тогда вам надо будет написать парсер для полученного ответа. Это только кажется относительно простой задачей. На деле, она почти не решаемая. ИИ будет вам выдавать правильные по сути структуры. Но по форме они будут время от времени "плавать", например так:

 

 

В state-of-art моделях предусмотрена опция response_format для того, чтобы задавать фиксированный формат ответа. Я добавил поддержку этой опции в версию 14 библиотеки. Зададим JSON-схему ответа.

 

 

Посмотрим, что у нас получится в ответе. Обратите внимание на то, что я оставил вопрос пользователя пустым. В данной ситуации он не нужен. Модели и так понятно, что надо преобразовать картинку в JSON. Что бы вы ни написали в поле "вопрос" результат будем один и тот, же. Поэтому не будем зря тратить входные токены.

 

 

Вот мы и получили на выходе JSON структуру, соответствующий заданной нами схеме. Дальше можете делать с ней что хотите. Например, создавать документы в базе данных (ПТиУ или РТиУ).

Обработка "Библиотека искусственного интеллекта пример" более или менее универсальна. Для решения рассматриваемой здесь задачи она будет избыточна. Поэтому я сделал заготовку, в которой нет ничего лишнего

 

   

 

Превращение потока в структуру, будь то голос, письменная речь или картинка - одна из важнейших, если не самая важная способность больших языковых моделей. А умение правильно использовать данную способность - одно из важнейших, если не самое важное сейчас качество разработчика.  

Проверено на следующих конфигурациях и релизах:

  • Управление торговлей, редакция 11, релизы 11.5.20.101

искусственный интеллект распознавание документов

См. также

Нейросети Мастера заполнения Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для заполнения описания номенклатуры с помощью модели ИИ GigaChat от Сбера. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ.

5000 руб.

08.11.2023    3509    14    0    

24

Нейросети Бесплатно (free)

Недавно в сервисе MAKER-STUDIO появился ИИ ассистент, разработчики также обещают, что ИИ ассистент будет добавлен и в встроенный текстовый редактор, что ускорит написание документации по проекту, а также ИИ ассистент научиться генерировать схемы и формы. Пока поделимся тем, какие функции уже есть, приведем примеры наиболее востребованных на наш взгляд ПРОМТОВ, которые могут пригодиться в работе.

12.04.2025    1858    1Concept    0    

5

Нейросети 1С:Элемент Программист Бесплатно (free)

Технология 1С:Элемент позволяет быстро и качественно разрабатывать компактные и практичные мини-решения, не зацикливаясь на технических деталях, думая не о коде, а о бизнес-идее. Расскажем о том, какие приложения лучше всего разрабатывать на 1С:Элемент, кому это легче делать и какие трудности могут быть в освоении.

09.04.2025    3197    Dziden    43    

0

Нейросети Инструментарий разработчика Программист Платформа 1С v8.3 Бесплатно (free)

Если вы раздумываете, какую бы среду разработки освоить в дополнение к старому доброму Конфигуратору, тогда для вас самое время посмотреть на этот редактор.

09.04.2025    2352    30    mkalimulin    16    

19

Инструментарий разработчика Нейросети Программист Платформа 1С v8.3 Россия Абонемент ($m)

Быстро разбирайтесь в логике отчетов (ERF) и обработок (EPF) 1С с помощью AI! Расширение анализирует код, позволяя задавать вопросы и получать понятные объяснения о работе объекта на естественном языке.

3 стартмани

07.04.2025    4996    28    vanya_gonchar    20    

23

Нейросети Программист Платформа 1С v8.3 Бесплатно (free)

В библиотеке искусственного интеллекта для 1С появилась поддержка RAG (Retrieval Augmented Generation). Что это такое и как с этим работать, рассказываю в этой статье.

01.04.2025    1912    mkalimulin    12    

34

Нейросети Распознавание документов и образов Программист Пользователь Платформа 1С v8.3 Россия Абонемент ($m)

Уникальное расширение для автоматического распознавания текста и анализа изображений прямо в интерфейсе любой типовой конфигурации 1С:Предприятие. Автоматически извлекает данные с фотографий документов, поддерживает рукописный текст и формирует подробные описания изображений с помощью популярных моделей ИИ.

10 стартмани

26.03.2025    601    8    Prepod2003    5    

11
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Xershi 1539 18.02.25 02:29 Сейчас в теме
Если на вход подать пдф файл. Отработает?
Светлый ум; +1 Ответить
5. mkalimulin 1519 18.02.25 10:53 Сейчас в теме
(1) Поддерживаются форматы PNG (.png), JPEG (.jpeg and .jpg), WEBP (.webp), non-animated GIF (.gif).
Для работы с PDF надо использовать механизм Assistant. Про него тоже как-нибудь напишу.
9. Xershi 1539 18.02.25 11:46 Сейчас в теме
(5) да, будет больше пользы. Поставщики любят в пдф отправлять счета и прочие документы. Переводить их в картинку тот ещё квест.
2. bashirov.rs 31 18.02.25 08:14 Сейчас в теме
Интересно. Есть к примеру задача проверить правильный ли скан документа грузят в базу. Можно ли проверить через ИИ задав вопрос - "Соответствует ли файл шаблону?" или "Похож ли файл на образец?", где далее дать сравнивать с макетом файла из базы? Отработает?
8. mkalimulin 1519 18.02.25 11:04 Сейчас в теме
(2) Да, и у этой задачи есть как минимум два решения. Можно получать эмбеддинги (векторные представления) изображений и сравнивать. Для этого не надо задействовать большие языковые модели. А можно действовать через запрос к большой языковой модели. Первый вариант будет существенно дешевле
starik-2005; +1 Ответить
3. akR00b 24 18.02.25 09:29 Сейчас в теме
Ссылка на библиотеку не работает, публикация на модерации.
6. mkalimulin 1519 18.02.25 10:54 Сейчас в теме
4. dasan92 12 18.02.25 10:18 Сейчас в теме
Интересен примерный ценник обработки 1к УПД, без учета работ разарботчика, только запросы к модели?
7. mkalimulin 1519 18.02.25 10:58 Сейчас в теме
(4) Рублей 20, если самую экономную модель использовать и каждый документ распознавать один раз. Для надежности лучше распознавать два раза, иногда три, когда первые два не совпали. Тогда это будет около 40 рублей за тысячу документов.
10. o.nikolaev 216 19.02.25 15:39 Сейчас в теме
11. o.nikolaev 216 19.02.25 15:41 Сейчас в теме
:) Какие будут чувства когда на вопрос "что ты видишь" от модели будет получен ответ "я вижу смутный силуэт человека сидящего за компьютером" :))
maksa2005; +1 Ответить
Оставьте свое сообщение