Распознавание текста из изображений и PDF с помощью нейросетей Yandex Vision и 1С

09.08.22

Интеграция - WEB-интеграция

Если вам нужно с помощью компьютерного зрения от Yandex быстро распознавать текст из документов и изображений, эта статья для вас!

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Распознавание текста из Изображений и PDF с помощью нейросетей Yandex Vision и 1С:
.epf 8,41Kb
34
34 Скачать (5 SM) Купить за 3 050 руб.

Когда-то 5 лет назад я написал статью Распознавание текста с помощью нейросетей Google Cloud Vision и 1С

С тех пор многое поменялось, и я решил написать новую статью, используя отечественные технологии Yandex Cloud

Принцип работы получившейся обработки очень простой: нужно сделать POST запрос с картинкой или pdf на сервер Яндекса. Файл нужно закодировать в base64, и получить json-ответ.

И, разобрав ответ, программа может получить распознанный текст. Детальное описание возможностей Yandex Vision API можно посмотреть по ссылке. А про распознавание текста и формат запроса и ответа есть подробная документация

Работу с этим сервисом можно легко реализовать на 1С, используя только некоторые базовые вещи: HTTPЗапрос, ЧтениеJSON, ЗаписьJSON, что я и сделал. Внешнюю обработку можно использовать, только нужно получить в консоли Яндекс.Облака ключ для запросов, вот документация

 

 

Далее технические подробности:

Начнем с правильного формирования JSON запроса. Для этого, пользуясь описанием формата из документации, подготовим Структуру и сериализуем её в JSON.

Кстати обратите внимание что здесь я ставлю в массив language_codes только русский язык, но в этот массив можно добавить еще и "en" строку.

 

 

В запрос HTTP вставьте заголовок с ключом АПИ

 

 

Полученный ответ тоже можно сериализовать в структуру и извлечь из нее все распознанные блоки текста

 

 

Запустим обработку, закинем какую-нибудь картинку, полюбуемся полученным ответом.

 

 

Для примера распознавания PDF я взял первый попавшийся в поиске образец файла счета, и вот что получилось:

 

 

Мы только что заставили огромные сервера Яндекса и их мощные нейросети распознать нам текст, здорово, правда?

У Яндекса есть ограничения: Поддерживаемые форматы файлов: JPEG, PNG, PDF. Максимальный размер файла: 1 МБ.

Тарификация 130 рублей за 1000 изображений

Для распознавания паспорта есть отдельный запрос на стадии Preview но я этим не пользовался.

Тестировал на платформе 8.3.16

В обработке код открыт, можно ее скачать и использовать. 

OCR распознавание текста документов компьютерное зрение

См. также

SALE! 30%

Загрузка и выгрузка в Excel Документооборот и делопроизводство (СЭД) Учет документов Распознавание документов и образов Бухгалтер Пользователь Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Бухгалтерский учет Управленческий учет Платные (руб)

Универсальная программа для распознавания сканов или фото товарных документов в 1С. Не требует указания параметров и предварительной настройки. Просто выбираете файл (PDF, JPG, DOC, XLS, HTML) выбираете документ 1С и нажимаете кнопку "Распознать и загрузить".

8400 5880 руб.

04.06.2019    106907    313    173    

326

Сайты и интернет-магазины WEB-интеграция Системный администратор Программист Пользователь Платформа 1С v8.3 Конфигурации 1cv8 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM разных брендов в одной информационной базе в ручном и автоматическом режиме.

36000 руб.

03.08.2020    17782    19    22    

16

Учет документов Распознавание документов и образов Бухгалтер Пользователь Платформа 1С v8.3 Конфигурации 1cv8 Платные (руб)

Расширение для типовых конфигурация и для самостоятельной интеграции системы распознавания документо удостоверяющих личность и прочих документов непосредственно из информационных баз "1С:Предприятия 8.3" с помощью Content AI - Passport Reader SDK. Расширение позволит не изменяя типовой код конфигурации, расширить текущий функционал несколькими кликами мыши.

12000 руб.

26.01.2016    69974    79    2    

103

Сайты и интернет-магазины Интеграция WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 Управленческий учет Платные (руб)

Интеграция 1С и Битрикс 24. Разработка имеет двухстороннюю синхронизацию 1С и Bitrix24 задачами. Решение позволяет создавать пользователя в 1С из Битрикс24 и наоборот. Данная разработка технически подходит под все основные конфигурации линейки продуктов 1С:Предприятие 8.3 (платформа начиная с 8.3.23). При приобретении предоставляется 1 месяц бесплатных обновлений разработки. Доступна демо-версия продукта с подключением Вашего Битрикс24

5040 руб.

04.05.2021    19846    13    17    

16
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Lemmonbri 142 18.07.22 15:52 Сейчас в теме
10 стартмани за 100 строк кода, 90 из которых скопированы из документации яндекса? Сильно, сильно...
smit1c; lunjio; GATTUSO; Dach; Mouros; myoker; tsmult; tsugancov; +8 1 Ответить
2. gzharkoj 520 18.07.22 22:06 Сейчас в теме
(1) Так весь код приведен,берите да вбивайте. Причем формирование всех заголовков указано для http-запроса, что у новичков может вызвать проблемы.
3. CnupT 70 19.07.22 10:39 Сейчас в теме
В целом, идея нужная и полезная. Но что делать со счетом на оплату, пришедшем к нам вот в таком виде, как на картинке?
Это же просто перечисление всех слов, встреченных на листочке
tpkpsd; UnashevRM; tsugancov; noprogrammer; SerVer1C; +5 Ответить
4. vlaskin 82 20.07.22 15:51 Сейчас в теме
Есть бюджетные решения и платить никому не нужно https://infostart.ru/public/1557184/. Не я автор, но использовал в работе (предварительно адаптировав): загрузка из скана наряда на бригаду строителей в ЗУП в разовое начисление списка сотрудников и сумму. решение получается автономное.
5. rog87@yandex.ru 1 04.02.23 18:55 Сейчас в теме
Отличная статья. Огромный потенциал.
Единственное в обработке ответа не хватает перевода строк на новую строку:
	
Текст = "";
	для Каждого Блок из Блоки Цикл 
		Линии = Блок.lines;
		Для Каждого Линия из Линии Цикл
			Слова = Линия.words;
			Для Каждого Слово из Слова Цикл 
				стр = Слово.text;
				Текст = Текст + стр + " ";
			КонецЦикла;	
			Текст = Текст + ";";
		КонецЦикла;
		Текст = Текст + Символы.ПС;
	КонецЦикла;
	РезультатСтрока = Текст;
Показать
Оставьте свое сообщение