1С: Документооборот, Data Science и Python

04.08.20

Разработка - Математика и алгоритмы

+57 –

В статье рассказывается о создании и обучении модели Data Science на языке Python и интеграции с системой 1С: Документооборот

1С: Документооборот, Data Science и Python

На нашем предприятии внедрен 1С: Документооборот и нам приходится постоянно думать о повышении качества работы пользователей в системе. В 1С: Документообороте пользователи работают прежде всего с текстом и мы искали возможности «умного» анализа текстов для повышения эффективности работы программы. Уверены, что использование машинного обучения позволит достичь поставленных задач и в конце концов мы придем к тому, что искусственный интеллект будет проверять тексты договоров и писать замечания вместо юристов и бухгалтеров)

Описание задачи

В статье в общих чертах описывается процесс обучения и применения модели машинного обучения. Возможно, данный пример подтолкнет кого-то для применения новых технологий в своей работе.

Для «пробы пера» и знакомства с машинным обучением нами была выбрана следующая проблема: в 1С: Документооборот активно используется постановка задач на исполнение. По каким-то задачам руководители ожидают получение ответного документа: письмо контрагенту, отчет или другой документ (например, «Прошу проработать вопрос и подготовить ответ покупателю»), а некоторые задачи не требуют, чтобы исполнитель прикладывал документ (например, «Для сведения»).

В 1С: Документооборот еще на этапе внедрения мы создали два шаблона задач: с подготовкой ответа и без. Шаблон с подготовкой ответа имеет заполняемый предмет и тем самым требует от исполнителя приложить документ исполнения, но практика показывает, что, те кто ставит задачи не всегда выбирают необходимый шаблон, они нажимают «Отправить на исполнение» и выбирают первый попавшийся шаблон и уже в описании задачи пишут «Подготовить ответ», «Подготовить отчет» и пр. Исполнитель выполняет задачу не прикладывая файл, а постановщик не принимает ответ и требует приложить документ. Такая переброска задачами затягивает процесс. Конечно, эту задачу можно решить «1С-ными» механизмами, например, добавить признак или каждый раз переспрашивать постановщика задач, ожидает ли он ответ и прочее.

Но мы решили на этом процессе протестировать возможности машинного обучения: если мы научим алгоритм определять по тексту постановки задачи, требуется ответ или нет, мы можем рекомендовать исполнителю приложить файл исполнения (или запретить выполнение без приложенного файла).

Подготовительная работа

Программировать будем на Python – это основный язык Data Science, он очень простой, лаконичный и для 1С-ника не должно составить серьёзных проблем с ним разобраться. Устанавливаем Anaconda. Этот пакет установит и Python с основными библиотеками и Jupiter где мы будем писать код. В Jupiter код пишется в отдельный строках, исполняется построчно и показывает результат после выполнения строк (если нам есть, что показать) – это сначала кажется необычным – но в итоге оказывается очень и очень удобным.

Создание обучающей выборки

Для начала нам нужна обучающая выборка. Выбираем из 1С: Документооборот 5 000 задач исполнения и в отдельной колонке проставляем признак 1- поручение требует документального ответа, 0 – поручение не требует документального ответа.

У нас получается вот такая таблица (представлена часть таблицы):

text	priznak
Прошу проверить, при отсутствии замечаний принять к учету.	0
Прошу рассмотреть и подготовить ответ	1
В работу	0
Прошу собрать информацию у ОМ + КД. подготовить СЗ со списком конференций	1
проработать, подготовить ответ	1

Загрузка и подготовка данных в Jupiter

После подготовки обучающей выборки начнем программирование на python. Создаем новый файл в Jupiter и в первой строчке объявляем необходимые модули и переменные:

Загружаем файл

Перед началом процесса обучения необходимо подготовить текст.

Подготовка включает следующие этапы:

Исключение из текста незначимых символов: цифр, знаков препинания. Они не влияют на текст поручения и будут мешать алгоритму.
Лемматизация – приведение слов в нормальную (словарную) форму. В русском языке (да и в других) фразы можно формулировать по-разному и от этого будет меняться форма слова, хотя смысл может оставаться неизменный. Для того, чтобы повысить эффективность работы алгоритма мы все слова приводим в нормальную форму. Уменьшиться количество различных слов и наш алгоритм будет эффективнее.

Для этого будем использовать функцию лемматизации:

По комментариям понятно, что именно делает эта функция.

Вызываем функцию для всей таблицы:

Теперь текст выглядит иначе:

text	priznak
просить проверить при отсутствие замечание принять к учёт	0
просить рассмотреть и подготовить ответ	1
в работа	0
просить собрать информация у ом кд подготовить сз с список конференция	1
проработать подготовить ответ	1

Формируем переменную текст

Создаем векторы слов

Дело в том, что системы машинного обучения понимают только числовые значения, в них нельзя загружать текст, картинки или другие типы и для обучения алгоритма необходимо перевести слова в цифровые значения.

Мы будем делать это с помощью механизма «Мешок слов».

Мешок слов — это модель текстов, в которой каждый документ или текст выглядит как неупорядоченный набор слов. Его можно представить в виде матрицы, каждая строка в которой соответствует отдельной строке текста, а каждый столбец — определенному слову. Ячейка на пересечении строки и столбца содержит количество вхождений слова в соответствующий документ.

Его работу лучше показать на примере:

Пусть у нас имеется текст в несколько строк.

Булок и чай

Кто хочет чай

Купи булок

Из текста мы строим матрицу уникальных слов. Где каждое слово закреплено строго за свои индексом

Индекс	Слово
0	Булок
1	И
2	Чай
3	Кто
4	Хочет
5	Купи

Далее по каждой фразе строится матрица

	Булок	И	Чай	Кто	Хочет	Купи
Булок и чай	1	1	1	0	0	0
Кто хочет чай	0	0	1	1	1	0
Купи булок	1	0	0	0	0	1

«Мешок слов» игнорирует порядок слов. Но для нашей задачи этим можно пренебречь. Не так важно, что написал пользователь: «Подготовить ответ» или «Ответ подготовить до 15 августа»

Создаем векторы для нашего текста:

Теперь в переменной «X» хранится наш текст, разложенный в матрицу используя алгоритм «Мешок слов».

В переменную «y» записываем результаты нашей обучающей выборки

Теперь все готово для обучения.

Обучение модели

В этом примере мы упускаем анализ и оптимизацию различных алгоритмов. Обычно этот этап выглядит следующим образом:

Вся выборка разбивается на обучающую и тестовую (примерно 80% на 20%)
На обучающей выборке производится обучение (применяются различные алгоритмы или у алгоритмов меняются параметры), а на тестовой выборке проверяется качество предсказания, пока не будет получен приемлемый результат.

Мы будем обучать алгоритмом «Случайны лес». Он дал довольно хороший результат предсказаний и без дополнительных параметров (применяется один параметр random_state=241 для обеспечения повторяемости обучения).

Вообще все обучение сводится к двум строчкам:

Теперь в переменной clf мы имеем обученную модель и используя эту модель можем строить предсказания.

Проверим как работает наша модель:

Ответ [1] говорит, о том, что исполнитель должен приложить документальный ответ к исполнению задачи, что соответствует смыслу текста.

Сохраняем обученную модель и модель векторов в файл для последующего использования:

Далее встал вопрос как из 1С обращаться к обученной модели. Мы выбрали вариант - организация веб-сервиса (используем веб-сервер flask) к которому обращается 1С:

1С: Документооборот получает строку задачи
С этой строкой обращается к веб-серверу flask
Получает ответ от обученной модели
Отражает результат предсказания.

Если алгоритм решает, что исполнитель должен подготовить ответ, то 1С: Документооборот показывает вот такую надпись в задаче исполнителя:

Резюме

На этом примере мы убедились, что использование машинного обучения дает положительный эффект:

Процесс подготовки и обучения технологичен (есть множество специализированных библиотек, большое количество информации по их использованию и готовых технологий работы с текстом)
Для обучения и последующего переобучения достаточно добавить фразы или расставить иначе признаки в файле Excel
Алгоритм работает очень быстро. Ответ от сервера мы получаем меньше чем за секунду
«Умные» подсказки помогают пользователям корректно оформлять документы

На данный момент с помощью механизма машинного обучения мы реализовали еще один проект: автоматическое создание связей документов (пользователи не всегда заполняют связи документов). Робот анализирует тексты документов (файлы word) и, если текст документа содержит ссылки на другие документы 1С: Документооборота, находит и связывает документы.

Предполагаем расширение применения механизмов машинного обучения в будущем. И кто знает, может быть скоро научим искусственный интеллект согласовывать договоры вместо бухгалтеров и юристов и процесс согласованию документов будет занимать несколько минут.

Вступайте в нашу телеграмм-группу Инфостарт

Машинное обучение Python Machine Learning 1С: Документооборот

+57 –

См. также

1С:Документооборот

Бухгалтер Пользователь Руководитель проекта 1С v8.3 Управленческий учет Платные (руб)

Организуйте правильный оборот документов на вашем предприятии в 1С. Ведение учета и хранения документов. Управление потоками документации между подразделениями. Работа с договорами в компании. Автоматизация процессов подготовки, согласования и подписания документов. Сократите время и объем ошибок с 1С:ДО!

55300 руб.

19.02.2016 110918 139 5

111

1С:Комплексная автоматизация 8

Бизнес-аналитик Бухгалтер Пользователь 1С v8.3 Бухгалтерский учет Налоговый учет Управленческий учет Платные (руб)

Комплексная автоматизация 1С — универсальное решение для управления предприятием и автоматизации учета, производства, продаж и финансов. Подходит для малого и среднего бизнеса. Купить программу 1С:Комплексная автоматизация 8 (редакция 2.5) можно по выгодной цене с электронной поставкой. Внедрение системы позволит объединить все ключевые процессы в одной платформе и повысить эффективность компании. Узнайте стоимость, сравните версии и закажите автоматизацию для вашего бизнеса с бонусом 15% в Инфостарт!

94700 руб.

19.02.2016 85311 119 0

115

MCP серверы для вайб кодинга в 1С

Администрирование веб-серверов Сервера Нейросети Программист Платные (руб)

Сервер поиска по метаданным и поиска по коду, Сервер экспорта и поиска по документации, Сервер синтаксической проверки кода

6000 руб.

17.06.2025 10620 103 7

Документооборот валютного контроля и международных платежей для участников ВЭД

Операции по ВЭД Бухгалтер 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х Россия Бухгалтерский учет Платные (руб)

Программа предназначена для автоматизации внешнеторговых компаний и обеспечивает документооборот валютного контроля: присвоение Уникального номера контракта (УНК), формирований сведений о валютных операциях (СВО) и справок о подтверждающих документах (СПД), прочих необходимых форм учета и отчетности по валютным операциям согласно действующему валютному законодательству Российской Федерации, документооборот валютных платежей согласно международным стандартам и документооборот купли-продажи валюты, а также выгрузку любых документов 1С в любую систему клиент-банк.

120000 руб.

13.05.2009 68607 2 29

1С:Архив

1С v8.3 Платные (руб)

"1С:Архив" – это универсальная система, обеспечивающая надежное долговременное хранение документов с гарантией юридической значимости на неограниченный срок. "1С:Архив" разработан на основе нормативно-правовых актов по архивному делу, поддерживает операции хранения документов – от попадания в архив до уничтожения – и не имеет ограничений на объем хранимых данных. "1С:Архив" сопровождается методологической поддержкой в виде организационных документов по хранению, входящих в состав "Комплекта нормативных документов" к "Методике управления документами и совместной работой", разработанной специалистами фирмы "1С". Использование "1С:Архива" позволяет организовать единое хранилище всех бумажных и электронных документов из разных информационных систем, вести архивный учет в соответствии с требованиями Росархива и снизить нагрузку на учетные системы. Продукт подходит для малых, средних, крупных предприятий и учреждений любых отраслей.

117000 руб.

24.10.2022 6146 8 1

Модуль "Интеграция с 1С:Документооборот 2.1 и 3.0" для УПП/КА/УТ 10.3/БГУ 1.0/ЗБУ 1.0. 1С-Совместимо

Рабочее место Производство готовой продукции (работ, услуг) Перенос данных 1C Пользователь 1С v8.3 1С:Управление производственным предприятием 1С:Документооборот 1С:Комплексная автоматизация 2.х 1С:КА 1С:ДО Платные (руб)

Продукт "Интеграция с 1С:Документооборот" позволяет использовать функции программы "1С:Документооборот 8" напрямую из учетной системы (1С:УПП; 1С:КА, 1С:УТ 10.3, 1С:БГУ 1.0, 1С:ЗБУ 1.0, 1С:УПП для Казахстана и отраслевых решений, разработанных на их основе) на платформе "1С:Предприятие 8": выполнять и ставить задачи, просматривать документы, скан-копии и прочие файлы, штрих-кодировать документы отправлять письма, вести учет рабочего времени - не входя в "1С:Документооборот 8", работая в одной программе, что значительно сокращает время и делает работу более комфортной и эффективной. Продукт прошел сертификацию 1С-Совместимо

110400 руб.

11.06.2015 59671 37 20

SALE! 30%

Распознавание и загрузка документов в 1С

Загрузка и выгрузка в Excel Учет документов Распознавание документов и образов Бухгалтер Пользователь Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Бухгалтерский учет Управленческий учет Платные (руб)

Программа для распознавания сканов или фотографий товарных документов в 1С. Просто выбираете файл (PDF, JPG, DOC, XLS, HTML) и нажимаете кнопку "Распознать и загрузить".

~~8400~~ 5880 руб.

04.06.2019 115460 334 175

347

Легкий документооборот (+чат-бот для Telegram) в 1С

Мессенджеры и боты Учет документов 1С v8.3 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление холдингом 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для согласования справочников и документов в основных типовых конфигурациях. Ролевая адресация, условная маршрутизация, чат-бот telegram, интеграция с n8n, последовательное и параллельное согласование, уведомление о новых задачах на почту, блокировка объектов в зависимости от статуса, запрет проведения в зависимости от статуса, автозапуск процессов согласования, отчеты по исполнительской дисциплине. Не требуется снятие конфигурации с поддержки. Настройка без программирования. Версия для 1cfresh.com. Сертификат 1С-Совместимо.

14900 руб.

15.11.2018 38130 41 52

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. пользователь 08.08.20 17:18

(0) Все отлично сделали!

Захотелось самому с этим поработать :)

3. Vaganov_Alexey 62 10.08.20 10:54 Сейчас в теме

(1) спасибо. Если будут вопросы обращайтесь. Я не великий профессионал в Data Sience, но что знаю, подскажу. Уверен, что сам механизм машинного обучения рабочий и его можно и нужно использовать.

10. dill 15.04.22 09:18 Сейчас в теме

(3)Здравствуйте, отличная тема, хорошо раскрыли. А подскажите, как вы дальше используете обученную модель ? в коде пайтон просто загружаете из файла?

2. comol 5351 09.08.20 03:08 Сейчас в теме

Круть. А то мало практических примеров использования ML c 1С как выяснили.
Классификатор текстов мы в OneRPA универсальный делали... в подобном кейсе наверное прокатил бы.

В статье что-то больше "из учебника по ML в Python" - несколько вопросов:
1) На морфологию и очистку слов забили? Сначала же вроде чистят
2) DeepPavlov вроде несколько упростит эту историю если использовать
3) http сервис используется для классификации? Управляется через 1С? Или отдельно?
4) Дообучение с каким интервалом? И почему Excel а не "более приятный" источник данных?
5) Не пробовали дерево решений внутри 1С построить? В вашем кейсе может прокатило бы?

4. Vaganov_Alexey 62 10.08.20 11:08 Сейчас в теме

(2) спасибо. Машинное обучение интересно именно с точки зрения практического применения, поэтому и написал статью, чтобы показать, что это все работает и подход вполне технологичен. Может быть кого-то заинтересует ML, попробует и появится еще больше практического контента.

1) Морфологию? я привожу слова в нормальную форму. или что-то еще? В этом примере я не использовал стоп-слова и он дал качественный результат. Когда делал автоматическую связь документов, то пришлось вводить стоп-слова и общепринятые и те которые сильно сбивали алгоритм
2) deeppavlov - спасибо за информацию, почитаю.
3) http сервис поднят на flask, а 1С-ка обращается к нему. Да, в этом примере простая бинарная задача классификации
4) пока не дообучал. Не думаю, что в этом примере это актуально. Люди пишут как правило одно и тоже. Но если увижу, что сильно алгоритм врет, то, скорее всего обучу заново.
5) дерево решений внутри 1С? это как?

8. avryanovalexey 82 01.03.21 12:13 Сейчас в теме

(4) А зачем дерево решений внутри 1С? Это же как минимум вычислительно неэффективно. И трудоёмко с точки зрения разработки.
Я так понял автор использовал уже готовые популярные библиотеки для ML. Скорее всего эта библиотека написана на C++. Эта библиотека будет работать в 1000 раз быстрее и в десятки раз лучше и точнее, чем любая "самописная поделка" деревьев решений на языке 1С. 1С, прекрасная для своих учетных задач, но не надо на ней большие математические вычисления делать. Она для этого плоха.

5. avryanovalexey 82 28.02.21 09:29 Сейчас в теме

А какие метрики получились? На сколько точно предсказывает модель?

А так идея применения и реализация выглядят очень классно и не сложно

6. Vaganov_Alexey 62 01.03.21 11:39 Сейчас в теме

(5) Метрику использовал вот такую scoring = 'roc_auc', best_csore был вот такой 0.9736540311933585
Работает в общем-то довольно точно.

Но это была проба пера.

На данный момент настроил еще:
- автоматическую связь документов. система анализирует тексты документов, и если видит в тексте ссылку на другие документы, формирует связь документов
- автоматическую сепарацию документов по скан-образам. система по pdf скану определяет вид документа, и в зависимости этого выполнят те или иные действия.

В общем все это довольно эффективно работает

7. avryanovalexey 82 01.03.21 12:02 Сейчас в теме

хорошее значение метрики. Прикольный результат.

А в целом без ML задача решалась? Детерменированный алгоритм можно было написать? С четким условием классификации?
Я понял, что хотелось именно ML в учебных целях, но все-таки?

9. Vaganov_Alexey 62 02.03.21 08:35 Сейчас в теме

(7) Да, это был тестовый пример. Думаю, без ML именно эту задачу можно было решить. Составить список слов, парсить строки. Но с ML это эффективнее, я просто указываю нужные фразы, а алгоритм сам находит значимые признаки (слова), обучается по ним, и потом при получении новой фразы, которую он никогда не видел - правильно классифицирует. И делает это очень быстро.

11. sabob 39 13.12.22 17:17 Сейчас в теме

Здравствуйте! Спасибо за статью, интересно! Скажите пожалуйста каким образом реализован механизм анализа текстов документов (файлы word)?

12. Vaganov_Alexey 62 13.12.22 21:18 Сейчас в теме

(11) в 1С документооборот есть есть специальный типовой механизм, он сам вытаскивает тексты

13. Lusine 12.04.23 15:14 Сейчас в теме

Спасибо большое за офигенную статью :) Позвольте только про опечатку Вам написать: если написать, как у Вас указано, "Срочно предоставить отчет", то результат будет 0, что логично) А если написать "Срочно предоставить ответ", то будет 1, что тоже логично. Но возможно, что это я не до конца разобралась))

Оставьте свое сообщение

E-mail:

Автор:

Алексей Ваганов (Vaganov_Alexey)

Рейтинг: 62

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 1273072

Создание 04.08.20 07:46

Обновление 04.08.20 07:46

Статистика:

Просмотры 8498

Загрузки 0

Рейтинг 57

Комментарии 13

Характеристики:

Код открыт Да

Рубрики Документооборот и делопроизводство (СЭД) Математика и алгоритмы Нейросети

Кому Программист

Тип файла Нет файла

Платформа Не имеет значения

Конфигурация 1С:Документооборот

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)