Анализ проблем производительности по динамике мониторинга RAS 1C

07.10.20

База данных - HighLoad оптимизация

+80 –1

В статье приведем список наиболее чувствительных параметров к изменением производительности системы, также расскажем и покажем, как они изменяются, на что влияют, и дадим советы, что делать.

Мы опишем результаты наблюдений и выводы по состоянию производительности системы через мониторинг RAS 1C основанный на наших наблюдениях и мнении/советах коллег по цеху. Наиболее показательны изменения для больших баз по количеству работающих пользователей на одном кластере. Иначе требуется проводить агрегирование показателей таких как очередь какого-нибудь свойства, если на сервере много кластеров или на реальном много виртуальных машин для общей оценки сервера.

Также на поведение параметров контролируемой целевой базы 1С будет оказывать влияние версия платформы, окружение, конфигурация и это также нужно будет учесть при сравнении. Однако, динамика и характер поведения должны быть похожи. Мы выполняли анализ на версиях 8.3.14, 8.3.15, 8.3.16 и конфигурации ERP 2.4.

I) Свойства процессов

Свойство	Синоним	Функция агрегации	Описание
line-number	номер строки	count	Номер строки (по порядку)
memory-size	память КБ	max	Содержит объем виртуальной памяти, занимаемой рабочим процессом, в килобай тах.
memory-size	память КБ	sum	-//-
available-perfomance	дост. произв.	min	Средняя за последние 5 минут доступная производительность. Определяется по времени реакции рабочего процесса на эталонный запрос. В соответствии с доступной производительностью кластер серверов принимает решение о распределении клиентов между рабочими процессами.
available-perfomance	дост. произв.	sum	-//-
available-perfomance	дост. произв.	avg	-//-
connections	кол-во соединений	sum	Количество соединений рабочего процесса с пользовательскими приложениями.
avg-call-time		avg	Показывает среднее время обслуживания рабочим процессом одного клиентского обращения. Оно складывается из: значений свойств AvgServerCallTime, AvgDBCallTime, AvgLockCallTime, AvgBackCallTime.
avg-call-time		max	-//-

Параметр состояния процессов avg-call-time

Параметр avg-call-time – позволяет увидеть проблемы загрузки хоста, если один из них находится под нагрузкой

Вот так выглядит график средней нагрузки

В этот момент было запущено тяжелое задание по пересчету регистра. Всем тем, кто-попадал на этот процесс было «плохо».

Если же все процессы показывают рост нагрузки, то скорее всего проблема возникла у менеджера, и он перестал корректно разруливать ситуацию.

Можно поставить оповещение о изменении данной ситуации, нормальное среднее значение должно быть значительно менее 1. При значениях от 1 до 2-3 возможны проблемы. При значениях более 7-10 можно считать, что мы потеряли пациента.

Во всех случаях серьезных проблем с хостами рекомендуем выполнить мягкий перезапуск.

Вот так выглядит показатель среднее avg-call-time при проблемах на сервере.

Вот так выглядит нагрузка на процессор в этот момент:

Количество процессов

Изменение количества процессов, также график позволяющий определить проблемы. Резкий рост или превышение некоторого установившегося количества, также является критерием того что у нас происходят какие-то проблемы.

Вот так меняется количество процессов при аварии:

Показатель расхода памяти

Показатели расхода памяти особенно проявляются с увеличением количества процессов. Рост памяти выше доступных в системе приведет к остановке служб. На графике ниже можно проследить рост потребления после запуска нового процесса.

Показатель производительность

Вот так выглядит падение производительности по показателю доступная производительность:

II) Свойства соединений

Свойство	Синоним	Функция агрегации	Описание
session-number	сеанс	count ЗначениеЗаполнено	Номер сеанса
conn-id		count ЗначениеЗаполнено	Содержит номер соединения.
line-number	номер строки	count	Номер строки (по порядку)

Показатель соединений session-number

Если следить за связью между процессами и сеансами пользователей, то можно легко определить нормальные и не нормальные показатели для состояния системы. Об использовании нейронных сетей для определения критичных аномалий, о которых рассказывал на конференции я буду рассказывать позже (сейчас есть решаемые технические проблемы, которые не позволяют их использовать массово без сторонних приложений и с функционалом из коробки – банально не хватает времени).

Как только количество соединений между процессами и сеансами в единицу времени превышает некоторый порог, то стоит трубить о проблемах. На рисунке ниже показана ситуация аварии, в момент пика службы 1С перестали обслуживать и произошел самостоятельный перезапуск всех процессов с дальнейшим падением менеджера кластера. Он настолько ушел в себя, что не отпустил кэш и пришлось его удалять вручную.

Для хорошо нагруженной системы обычно такой показатель колеблется в районе 30-40 соединений в единицу.

Вот так показатель количество строк при падении производительности с полным зависанием служб.

Рекомендуемые агрегируемые функции:

session-number - функция количество Значение Заполнено (т.е. для всей таблицы данных считаем только те в которых есть значение отличное от пустого). Определяет очередь из соединенных между собой сеансов и rphost. Чем больше тем хуже. При резком росте характеризует проблемы в управлении соединениями менеджером (или агентом). С ростом этого показателя можно менять удовлетворенность работы пользователей с зелененького на красный.

III) Свойства сеансов

Свойство	Синоним	Функция агрегации	Описание
line-number	номер строки	count	Номер строки (по порядку)
duration-current	время вызова (текущее)	max	Содержит интервал времени в миллисекундах, прошедший с момента начала обращения, в случае, если сеанс выполняет обращение к серверу 1С:Предприятия. Иначе – 0.
duration-current	время вызова (текущее)	sum	-//-
duration-current	время вызова (текущее)	count ЗначениеЗаполнено	-//-
db-proc-took	захвачено СУБД	max	Если в момент получение списка соединений информационной базы методом GetInfoBaseConnections данное соединение выполняло обращение к серверу баз данных, то свойство содержит время в секундах, в течение которого выполняется данное обращение к серверу баз данных. В противном случае – 0.
db-proc-took	захвачено СУБД	sum	-//-
db-proc-took	захвачено СУБД	count ЗначениеЗаполнено	-//-
cpu-time-current	процессорное время (текущее)	max	Процессорное время текущее
cpu-time-current	процессорное время (текущее)	avg	-//-

Как уже ранее рассказывал, то стоит следить сразу несколькими параметрами

Свойство duration-current

Показатель duration-current (время вызова (текущее)) показывает обслуживание пользователя процессом. Если же количество пользователей со значением этого параметра (отличным от 0 в каждый момент времени) растет, то сервисы 1с не успевают обслуживать, кто-то запустил что-то тяжелое и в итоге может привести к серьезному снижению производительности. Обычно значения, превышающие 60 штук (зависит от конкретной обслуживаемой системы) повод задуматься о том, что начинаются проблемы.

Предполагаем в данном случае отследить пользователя по табличной части «Данные» смотри ниже. Далее связаться с ним и обсудить решение проблемы. Возможно приложение зависло и его достаточно удалить, и система придет в норму, или попросить пользователя не запускать тяжелых задач. А возможно проблема производительности какой-либо формы или обработки и требуется ее оптимизация и рефакторинг.

Рекомендуем использовать следующие агрегирующие функции:

duration-current - функция количество Значение Заполнено (для колонки таблицы количество ячеек в которых есть значение отличное от 0). Определяет очередь пользователей, которые в данный момент обслуживаются rphost. Обычно растет вверх вместе с нагрузкой на процессор и очередью процессора. Если эти три показателя высоки, то характеризует серьезные проблемы в работе пользователей.
duration-current - функция maximum, т.е. среди всех значений вычисляем максимальное. Может характеризовать зависшие сеансы, обработку больших объемов данных или корявый код. Всем пользователям на этом хосте (на том который завис) будет плохо.

Свойство db-proc-took

Показатель db-proc-took (захвачено СУБД) характеризует обращение процесса к СУБД. Если количество таких обращений растет в единицу времени, то это говорит о том, что СУБД не успевает обслуживать запросы 1С. Такое поведение может возникать во время блокировок – когда один пользователь захватил популярный регистр, а все другие начинают его ждать. Недостаточной производительности самого сервера СУБД. Наличия большого количества неоптимальных запросов. Наличия операций, которые не рекомендуется запускать в момент высокой нагрузки пользователей – удаление помеченных, пересчет регистров и т.п.

Разбор проблем можно выполнять в соответствии с рекомендациями выше. А также возможно проверить настройку и работу сервисных заданий на сервере СУБД – обновление статистики, или другие настройки.

Рекомендуем использовать следующие агрегирующие функции:

db-proc-took - функция количество Значение Заполнено (аналогично выше). Определяет очередь пользователей, которые в данный момент работают с базой SQL. Если есть, то в паре с показателем duration-current.
Характеризует работу с базой данных. При росте очереди может характеризовать
- - блокировку (тут надо смотреть блокировки SQL) – в этом случае терпеть или срубать;
- - недостаток мощности сервера SQL – увеличивать мощности;
- - не оптимальность кода – исправлять код;
- - выполнение операций не допустимых в рабочее время (к примеру, удаление помеченных, закрытие месяца и т.д.) – дать по рукам пользователям или перенастроить задания.
db-proc-took - функция maximum. Если большое, то означает выполнение в транзакции большой обработки данных, или на блокировках.

Показатель cpu-time-current

Данный показатель обычно необходимо смотреть с duration-current. Если он значительно большой, то это говорит о том, что пользователь действительно запустил что-то существенно сжигающее мощность сервера и стоит связаться с пользователем, ограничить или удалить соединение.

Совместный анализ и учет свойств duration-current и db-proc-took

Если захват и время текущее больше нормы, то видно, что пользователь нагрузил сервер. А чем нагрузил можно узнать из журнала действий пользователя по номеру сеанса или ТЖ (удалив сеанс пользователя мы сгенерируем ошибку).

На графике ниже видно, что выполняются ресурсоемкие операции (фоновые задания) с постобработкой данных на сервере 1С (захвачено СУБД менее времени вызова (текущее)). Показатели время вызова и потребления процессора высокие. Но пока не превышена критическая отметка и уровень тревоги «желтый»

Если же у вас среднее состояние каждый день показывает высокую нагрузку, то скорее всего следует обновить ваши ресурсные мощности.

Количество пользователей

Количество пользователей обычно гладкий и равномерный график без резких скачков. Следить необходимо за резким изменением его поведения или резкими изменениями изменения количества спящих пользователей. На рисунке ниже видна аномалия после аварии служб 1С, в результате были выбиты практически все пользователи.

IV) Настройка обработки ситуации по комбинации показателей

Смотреть и анализировать необходимо по комбинации графиков и значений показателей - так мы получим более наглядную картину. Ниже мы приведем таблицу настроек конфигурации "Монитор производительности", по которым у нас настроены оповещения и контроль состояния системы.

Таблица настройки для реакции по комбинациям показателей выглядит следующим образом:

время вызова (текущее) (max)	очередь время вызова(текущее)	захвачено СУБД (max)	очередь захвачено СУБД	сеанс (count ЗначениеЗаполнено)	Решение	Описание решения
high	high	high	high	*	полное падение производительности	все плохо
high	low	high	low	*	только захват СУБД и 1С время вызова	найти пользователя и срубить
high	high	*	*	*	1С работать невозможно	срубаем все зависшие сеансы
*	*	*	*	high	проблемы с rphost	rphost не справляется с обработкой сеансов
*	*	high	high	*	СУБД работать невозможно	срубаем захваты
high	medium	*	*	*	1С начала формироваться очередь	пора принимать действия
medium	high	*	*	*	1С начала формироваться очередь	пора принимать действия
low	high	*	*	*	1С начала формироваться очередь	пора принимать действия
high	low	*	*	*	1С приложение зависло	нужно срубить пользователя
*	*	high	medium	*	СУБД очередь растет	пора принимать действия
medium	low	*	*	*	1С долго висит	на контроль
*	*	high	low	*	захват СУБД дико долго	предлагаю срубить пользователя
*	*	medium	low	*	захват СУБД	разобраться в причинах
medium	medium	*	*	*	1С долго висит	на контроль
low	medium	*	*	*	1С зависание ушло	идет в сторону улучшения
*	*	low	medium	*	СУБД захват ушел	идет в сторону улучшения
low	low	low	low	low	нормально	все хорошо
*	*	*	*	*	аномалия	неописанное поведение

Преобразование показателей из цифрового значения в логическое (токены) выполняется на основе экспертного мнения и для каждого показателя будет свое. Обычно мы выбираем трехуровневую шкалу:

Low – от 0 до допустимого значения

Medium – от допустимого значения до критического

High - от критического до конца.

Наши показатели:

Имя свойства	Низкий до	Средний до	Верхняя граница
время вызова (текущее) (max)	60,00000	300,00000	бесконечность
очередь время вызова (текущее)	20,00000	40,00000	бесконечность
захвачено СУБД (max)	60,00000	300,00000	бесконечность
очередь захвачено СУБД	20,00000	40,00000	бесконечность
сеанс (count ЗначениеЗаполнено)	60,00000	80,00000	бесконечность

Далее по этой таблице мы запускаем обработку нечетким контроллером (виртуальный ассистент Лариса) и формируем оповещения на почту или скайп/телеграмм.

V) Бонус. Используем автоматический классификатор ошибок технологического журнала.

Удобно так же смотреть на результат классификации ошибок. Если вы настроили парсинг замеров и автоматическую классификацию, то можно сразу увидеть о проблемах на сервере по данным журнала.

Как видите, то мы тут наблюдаем сообщения об авариях служб 1С и если количество сообщений превышает какое-либо нормальное число (иногда достаточно 1-го сообщения), то необходимо начать проверку. На эти события также можно поставить оповещения ответственных лиц.

На предыдущем рисунке видим проблемы с отбором по классу ошибок СУБД. Из результатов анализа перед коллапсом и последующим падением служб 1С проявляются подобного рода ошибки. Видимо происходит превышение какого-то лимита и службы идут в разнос (8.3.15 версия 1С).

Пример рассмотрения ситуации по ошибкам на мониторе приведена ниже – обращаем внимание на резкие всплески/пики:

Заключение:

Фреймворк находится по адресу https://github.com/Polyplastic/1c-parsing-tech-log
Руководство Фреймворк "Мониторинг производительности". Руководство пользователя
Настройка замеров Мониторим производительность с помощью 1С RAS
Свежую конфигурацию можно скачать с GitHub проекта (релизы) или из приложения статьи Решение проблемы быстродействия в ERP на рабочем примере
Также смотрите другие статьи по теме "мониторинг производительности" автора

Вступайте в нашу телеграмм-группу Инфостарт

+80 –1

См. также

Оптимизация запросов с оператором «В» для составных типов в 1С и СУБД Postgres

HighLoad оптимизация Программист 1С 8.3 1С:ERP Управление предприятием 2 Бесплатно (free)

Использование оператора «В» для полей или данных составного типа (например, Регистратор) может приводить к неочевидным проблемам.

10.11.2025 7120 ivanov660 48

Проблемы производительности. Оператор различные в динамических списках

HighLoad оптимизация Программист 1С:Предприятие 8 1C:ERP Бесплатно (free)

Приведем примеры использования различных в динамических списках и посмотрим, почему это плохо.

18.02.2025 9325 ivanov660 39

Проблемы производительности. Индексация с дополнительным упорядочиванием

HighLoad оптимизация Системный администратор Программист 1C:ERP Бесплатно (free)

Не всегда индексирование с дополнительным упорядочиванием полезно.

04.02.2025 7816 ivanov660 21

Длительные вызовы - CALL, SCALL

HighLoad оптимизация Технологический журнал Системный администратор Программист Бесплатно (free)

Обсудим поиск и разбор причин длительных серверных вызовов CALL, SCALL.

24.06.2024 11769 ivanov660 13

Что не так с методом ЗаполнитьЗначенияСвойств

HighLoad оптимизация Программист 1С:Предприятие 8 Бесплатно (free)

Метод очень медленно работает, когда параметр приемник содержит намного меньше свойств, чем источник.

06.06.2024 18240 Evg-Lylyk 73

[Замер] Кто самый быстрый в конфигураторе?

HighLoad оптимизация Механизмы платформы 1С Системный администратор Программист Стажер 1С:Предприятие 8 Бесплатно (free)

Сравним «Регистры сведений» с «Сервисами интеграции» и узнаем, кто быстрее!

28.03.2024 9313 dsdred 27

Оптимизация нагрузки на ЦП сервера СУБД используя типовые индексы

HighLoad оптимизация Программист 1С:Предприятие 8 1C:Бухгалтерия Бесплатно (free)

Анализ простого плана запроса. Оптимизация нагрузки на ЦП сервера СУБД используя типовые индексы.

13.03.2024 8920 spyke 29

Быстродействие типовой 1С

HighLoad оптимизация Программист 1С:Предприятие 8 Бесплатно (free)

Оказывается, в типовых конфигурациях 1С есть, что улучшить!

13.03.2024 12349 vasilev2015 22

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. VKislitsin 1048 07.10.20 11:32 Сейчас в теме

Владимир, очень интересно! Просто супер!

2. AntoShiK86 37 08.10.20 06:41 Сейчас в теме

Задача по определению активного числа пользователей решается данным фреймворком? Можно определить, что не хватает лицензий ?

4. ivanov660 4962 08.10.20 08:53 Сейчас в теме

(2)
1. Вы можете взять функцию максимум от количество активных пользователей. Таким образом сможете определить пиковые значения пользователей на кластере (На рисунках приведен пример). И исходя из этого можно определить разницу запаса оставшихся лицензий.
2. Если воспользуетесь консолью запросов или напишите свой плагин (обработку/отчет), то можете получить агрегирующие данные по всем отслеживаемым кластерам.
3. В планах стоит доработка для отображения данных по используемым лицензиям пользователями и их составу.

12. AntoShiK86 37 08.10.20 14:08 Сейчас в теме

(4)

те определить пиковые значения пользователей на кластере (На рисунках приведен пример). И исходя из этого можно определить разницу запаса оставшихся лицензий.
2. Если воспользуетесь консолью запросов или напишите свой плагин (обработку

Благодарю за ответ, когда обелить надо организацию, или доказать, что пора покупать еще комплект, может пригодится.

3. kraynev-navi 699 08.10.20 08:14 Сейчас в теме

Владимир, спасибо за вашу аналитику! Как всегда очень полезно.

5. protexprotex 142 08.10.20 10:16 Сейчас в теме

Добрый день. Очень интересно. Но у меня вот такая задача стоит - скорость выполнения процедур 1С (на неуправляемых формах) в разрезе минута/час/день и т.д. В 1С есть замер времени, но этого мало. Как - нибудь подступиться к этой задаче не пробовали?

6. ivanov660 4962 08.10.20 10:39 Сейчас в теме

(5) Не вижу проблемы сделать отчетом по замерам.
К примеру, в выборку запроса детальных записей замеров добавляете поля минута, час, день, неделя, месяц (от даты начала замера), а далее в СКД делаете группировки месяц, неделя, день, час, минута, детальные с итогами среднее по расчетным полям длительность.

7. protexprotex 142 08.10.20 11:30 Сейчас в теме

Неее. Это я знаю. Только для этого в каждую процедуру нужно втыкать фиксацию замера. Типа такого:
Процедура МояПроцедура()
НачатьЗамер("МояПроцедура");
Тут исследуемые операторы программы
ЗакончитьЗамер("МояПроцедура")
КонецПроцедуры

и далее уже, например по записям уже строить СКД

Это не интересно. т.к. нужно по всей базе натыкать эти вызовы. А т.к. процедур более 5000 - это тут, мягко говоря долго.

Я про какие - то сторонние компоненты которые могли бы перехватывать начало выполнения процедуры в языке 1С и конец ее выполнения и вести логи - и оттуда я бы уже через внешний источник данных все это взял и в СКД засунул :-)

8. ivanov660 4962 08.10.20 12:13 Сейчас в теме

(7)
1. Такого в 1С нет.
2. Можно только написать обработку, которая распарсит все формы, все функции и навтыкает в расширение процедуры Перед("Процедура") (возможно + После("Процедура")) и нагенерит код начала и завершения замеров.
3. Только вы учтите что накладные замеры будут огромными, если добавлять везде.

9. protexprotex 142 08.10.20 12:22 Сейчас в теме

(8) Это я знаю что нет такого в 1С. У меня стоит вопрос оптимизации не работы 1С с базой данных, а оптимизация языковых конструкций. Узкое место в 1С это работа с базой данных, но мало кто (да и вменяемых инструментов не нахожу) занимается оптимизацией языковых конструкций. Т.к. 1С я использую для обработки изображений + моя dll. И вот как раз стоит вопрос оптимизация языковых конструкций. Вот.

10. ivanov660 4962 08.10.20 12:29 Сейчас в теме

(9) Попробуйте спросить у автора снегопата, возможно он что-то подскажет.

11. protexprotex 142 08.10.20 12:45 Сейчас в теме

(10) ок спс

13. EugeneSemyonov 23 21.07.21 13:30 Сейчас в теме

(8) Оптимизацией языковых конструкций следует заниматься когда время выполнения операций превышает целевое.
Для определения длительности операций можно использовать сбор событий ТЖ CALL (на сервере), VRSREQUEST, VRSRESPONSE (или даже все на клиенте) с отбором по длительности. Таким образом вы получите контекст (имя и модуль длительно работавшей процедуры). Часто этого достаточно чтобы понять что именно работает медленно.
Если недостаточно, то можно запускать нужную операцию на тестовом стенде с режимом отладки с замером производительности - так можно поймать короткие, но выполняющиеся многократно операции которые могут приводить к замедлению (типа запросов в цикле).
По документации ТЖ тоже может замедлять работу, но скорее всего это будет оптимальнее чем писать обработчик замера для каждой процедуры.
Кроме того в типовых ещё встроена подсистема Замеры производительности, которая позволяет включать и анализировать нужные замеры в режиме предприятия.
Если вы разрабатываете тиражное решение и хотите вылизать весь код (не важно как быстро он работает), то для его анализа также можно использовать конфигурацию АПК, либо SonarQube.

14. fatman78 21 25.07.23 10:36 Сейчас в теме

Подскажите как побороть ошибку с некорректным отображением кириллицы, если RAS и RAC находятся на разных компьютерах, оба под управлением Windows? Пробовал разные варианты из списка кодировок - эффекта нет...

Прикрепленные файлы:

15. ivanov660 4962 25.07.23 12:29 Сейчас в теме

(14)
Коллега писал (jilitsky.denis@gmail.com), что можно попробовать внести вот такие изменения в обработку. Тогда кодировка должна сохраняться.

Процедура СоздатьCMD(Знач ИмяФайла, Знач Команда)
    
    ЗаписатьФайлВформате_UTF8_без_BOM("cmd.exe /c chcp 866 & " + Команда, ИмяФайла);
    
КонецПроцедуры

16. VenSaitto 16.11.23 10:15 Сейчас в теме

(15)
Кодировка действительно встает корректно, но отваливается отображение графиков истории.
Повторная настройка замеров с нуля помогла не для всех серверов\кластеров 1С.
Возможно есть какое-то другое решение?

17. ivanov660 4962 16.11.23 11:19 Сейчас в теме

(16) Я услышал что есть проблема, но не понял где она происходит и почему. Зарегистрируйте сообщение на портале проекта и опишите подробнее ситуацию для воспроизведения https://github.com/Polyplastic/1c-parsing-tech-log/issues.

Для отправки сообщения требуется регистрация/авторизация

Автор:

Владимир Крючков (ivanov660)

Рейтинг: 4962

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 1285308

Создание 07.10.20 09:30

Обновление 07.10.20 09:30

Статистика:

Просмотры 17289

Загрузки 0

Рейтинг 79

Комментарии 17

Характеристики:

Код открыт Да

Рубрики HighLoad оптимизация

Кому Системный администратор

Тип файла Нет файла

Платформа 1С:Предприятие 8

Конфигурация 1C:Бухгалтерия

Операционная система Не имеет значения

Страна Не имеет значения

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)

Анализ проблем производительности по динамике мониторинга RAS 1C

I) Свойства процессов

II) Свойства соединений

III) Свойства сеансов

IV) Настройка обработки ситуации по комбинации показателей

V) Бонус. Используем автоматический классификатор ошибок технологического журнала.

Заключение:

См. также

Журнал

База знаний

Лаборатория

Анализ & Управление

Сопровождение 1С

Корпоративные решения

Обучение

Маркетплейс

Проектный офис

Мероприятия

Видеозаписи

Биржа заказов

Форум

Мерч

О компании