Каждый, кто работает с документами юрлиц, знает эту ситуацию. Контрагент присылает договор в Word или карточку компании в PDF. Бухгалтер или менеджер вручную переносит ИНН, КПП, расчетный счет в 1С или CRM. Статистика: каждый третий раз в данных закрадывается ошибка. Дальше — счет уходит не туда, платеж зависает, клиент нервничает, сделка срывается. Штрафы от ФНС за неверные реквизиты в документах — отдельная боль.
Можно нанять стажера перепечатывать. А можно автоматизировать процесс за 1 секунду.
Мы в своей компании давно решали эту задачу для интеграции 1С с документооборотом. В итоге обкатали решение и сделали из него публичный API. Расскажу, как это работает, покажу пример кода для 1С (куда без него) и честно скажу, где могут быть нюансы.
Зачем бизнесу автоматическое распознавание реквизитов?
Вы запускаете B2B-платформу или интернет-магазин. Новый клиент регистрируется и вводит реквизиты своей фирмы. Статистика жестокая: каждый третий ошибается хотя бы в одной цифре ИНН или расчетного счета. Дальше — цепочка: невыставленный счет → потерянная сделка → негатив к бренду.
Наш API решает это одним запросом:
- Берет файл: договор, счет, акт, карточку компании.
- На выходе — чистые, проверенные реквизиты.
Что поддерживается:
- Форматы: PDF (только текстовый слой), DOCX, DOC, TXT, RTF, HTML.
- **Важно:** Отсканированные картинки и PDF без текстового слоя — нет. Только текстовые документы. Если файл — просто сканы, нужен отдельный OCR.
**Как работает «под капотом» (для понимающих)**
Многие думают, что это просто поиск по маске «10-12 цифр». Нет. Это контекстный анализ и валидация.
1. Загрузка файла — через обычный POST-запрос (multipart/form-data).
2. Извлечение текста — парсим PDF-текст, DOCX через внутренний конвертер, остальные форматы — штатными парсерами.
3. Нормализация — чиним кодировки (да, CP1251 без BOM до сих пор в ходу), склеиваем разорванные слова.
4. NER (поиск сущностей) — собственная модель ищет именно юридически значимые блоки: ИНН, КПП, ОГРН, расчетный счет, БИК, банк.
5. Валидация — мы не просто выдергиваем числа. Мы проверяем контрольные суммы ИНН, ОГРН, логику БИК. Если контроль не прошел — поле не вернется, чтобы вы не сохранили мусор в базу.
Честные цифры точности (бенчмарк на 10 000 документах)
- ИНН / ОГРН — 99,7% (ошибки только на очень кривой верстке)
- Расчетный счет — 95,9% (редко путаем цифры при «плывущем» шрифте)
- БИК — 99,5%
Скорость и ограничения:
- Форматы: docx, rtf, doc, txt, html, pdf (2 страницы) — 1,5 секунды.
- Максимальный размер файла — 1 МБ.
- Таймаут операции — 25 секунд.
Пример кода для 1С (самый важный для бухгалтеров)
Вот как выглядит вызов API из 1С Бухгалтерия 3.0 (обработку целиком можно скачать):
Функция ИзвлечьРеквизитыИзФайла(ПутьКФайлу)
URL = "https://api.***.ru/v1/extract";
Заголовки = Новый Соответствие;
Заголовки.Вставить("X-API-Key", "ВАШ_КЛЮЧ");
ДанныеФормы = Новый Структура;
ДанныеФормы.Вставить("file", Новый ДвоичныеДанные(ПутьКФайлу));
HTTPСоединение = Новый HTTPСоединение(URL);
Ответ = HTTPСоединение.ОтправитьДляОбработки("POST", Заголовки, ДанныеФормы);
Результат = ПрочитатьJSON(Ответ.ПолучитьТелоКакСтроку());
// На выходе готовые поля
Возврат Результат;
КонецФункции
Где это уже работает (и кому полезно)
- Интернет-магазины и B2B-платформы — автозаполнение реквизитов при регистрации юрлица.
- Банки — проверка карточек клиентов без ручного ввода.
- Бухгалтерия — автоматическое создание контрагентов в 1С по загруженному договору.
- CRM и ERP — исключение человеческого фактора.
АПИ ключ для для взаимодействия с АПИ сервисом вшит в обработку.
Вместо итога:
Этот API уже месяц работает в продакшне. Мы сами используем его для автоматизации документооборота и интеграции с 1С. Если вы устали от ручного перепечатывания реквизитов, регулярных выражений, которые не работают, и ошибок, которые стоят денег — попробуйте.
Проверено на следующих конфигурациях и релизах:
- Бухгалтерия предприятия, редакция 3.0, релизы 3.0.194.18
Вступайте в нашу телеграмм-группу Инфостарт